摘要:大模型技术的发展,掀起了生成式人工智能发展的新浪潮,但其数据训练和部署应用也带来了新的风险挑战,包括产生有害内容、泄露敏感数据、生成错误信息、滥用实施违法活动、可能危害环境和经济、向下游传导风险等。对此,欧盟近期拟对基础模型和生成式基础模型提供者设定专门义务,但背离了基于风险分级规制的立法初衷;我国出台专门办法侧重规制大模型部署者,对大模型本身风险管控有限。规制大模型风险,要遵循数据利用安全范式,基于风险分类分级规制,实现上下游的合作共治。按照这一思路构建新型风险规制框架,主要包括设立专门机构引导发展、评估和应对风险,规范数据训练以避免数据泄露和不当输出,基于特定用途风险构建风险分级管控制度,确立贯穿大模型全生命周期的透明度制度,健全防止生成违法内容的上下游共治机制。
由上可知,大模型是依靠大算力对大数据进行训练的结果,其能力来自对大量无标注数据中抽象共现模式的深度学习,在本质上是大数据驱动的。从寻找大数据中的规律、释放数据价值的方式来看,不同于传统的数据挖掘和分析主要依靠专家标注数据、设计特征等高成本投入,大模型主要是在大量无标注数据上进行无监督学习,自动高效提取数据中的规律和模式,这些规律和模式最终表现为大模型中的大规模参数。通过大数据训练大炼参数而得到的大模型,具备强大的能力和通用性,本身就是训练数据价值的集中体现。因此,笔者认为大模型的训练和调用是一种新的大数据利用方式,大模型是一种高效的大数据价值实现方式。相较于传统的
“
人工智能系统本身的安全问题
”
和人为的内容生成,大模型这种新型大数据利用方式,其数据训练和模型调用实现的自动化内容生成引发了新的风险挑战,主要包括以下几个方面:
大模型训练所用的大量数据多为无标注数据,这些数据易存在偏见、歧视,甚至存在侮辱、仇恨、暴力、色情等技术界称之为
“
毒性
”
的有害内容,大模型根据从这些数据中学习的模式来生成内容,生成内容便不可避免地会反映出同样的问题。其中最受关注的是偏见、歧视问题。偏见可以理解为一种主观认识和态度,往往会引发客观上对特定人群的区别对待,不公平的区别对待就会导致歧视,例如性别偏见导致的性别歧视。美国国家标准与技术研究院将人工智能偏见分为三大类:系统偏见,指文化和社会中的制度规范、实践和流程造成的偏见;统计和计算偏见,指训练样本代表性不足导致的偏见;人类偏见,指人类思维中的系统性错误。有研究对
DALL-E2
、
Stable Diffusion
等文本生成图像模型进行了测试,发现当提示输入
“CEO”
时,生成的都是西装革履的男性图像。出现这种结果的原因,就在于训练数据本身存在系统偏见和统计偏见,不具有公平的代表性。从系统偏见角度看,如果训练数据主要来自某种语言或某个国家,大模型必然会打上这种语言或这个国家文化传统、主流价值观和意识形态的烙印;应该警惕大模型应用可能引发的文化和价值观冲突,防范其可能带来的意识形态安全风险。
此种风险主要源于两个方面:一是大模型泄露了训练数据中的个人信息、敏感数据。大模型训练往往采用大规模抓取的网络公开数据,其中可能包含姓名、电话号码等个人信息,甚至可能包括生物识别、行踪轨迹等敏感个人信息和高风险数据。而且,很多大模型默认将用户输入的提示作为训练数据,其中同样可能包含个人信息、敏感数据。研究发现,大模型可能会
“
记忆
”
并在特定输入诱导下泄露这些训练数据中的个人信息、敏感数据,包括受版权保护的材料。
2023
年
3
月,三星公司在允许使用
ChatGPT
不到
20
天时间里,就被曝出发生了
3
起敏感数据泄露事件,导致其半导体设备测量资料、产品良率、内部会议内容等敏感保密信息泄露。二是通过大模型推断出个人信息、敏感数据。大模型涌现出强大的推理能力,可能推断出特定个人的宗教信仰、经济状况等敏感个人信息,甚至可能分析出关系国家安全、公共安全的敏感数据。有研究发现,如果在提示指令中声称正在从事防止核恐怖主义的研究,便可以绕开
ChatGPT
拒绝响应核武器制造提示的安全护栏,而说服其给出如何制造核弹的详细说明。虽然此发现公布后不久该提示指令便不再起作用,但确实展现出大模型强大的敏感数据析出能力。
大模型生成新内容是基于训练数据的内在关联和共现概率。例如,如果在训练数据中
“
不前进
”
的高频共现词是
“
右转
”“
左转
”
等,那么在用户输入
“
不前进
”
后,大模型就可能按照其参数随机输出
“
右转
”
。然而训练数据可能并不具有真实性、时效性或关联性,因此模型输出结果有时便可能是不准确、不真实的,甚至可能会生成错误信息、误导性信息。
OpenAI
就指出,
ChatGPT
的输出有时可能是不准确、不真实和误导性的,偶尔会产生错误回答,甚至会编造事实或产生
“
幻觉
”
输出。在对信息准确性要求较高的专业领域,如法律和医疗行业,如果仅信赖大模型生成的信息而不加核实,可能会造成重大损害。例如,如果轻信大模型就某些身体不适症状给出的治疗建议,不去就医或错误服用药物剂量等,就可能会延误救治或对身体造成伤害。再如,近期美国纽约州两位律师在提交法院的法律文书中,援引了
ChatGPT
搜集的
6
个案例,但法院发现这些案例都是
ChatGPT
编造的,最终对律师和其律所分别处以了
5000
美元罚款。
上述三种风险基本都来源于大模型的大数据训练,通常属于非人为故意造成的风险。训练完成的大模型,具有强大的通用能力,存在被故意滥用于实施欺骗操纵等违法犯罪的风险。相较于上述非故意产生的错误信息,大模型可能被故意滥用于制造虚假信息。大模型超强的生成能力,以及其基于大量人类数据训练而具有的
“
类人
”
输出和交互能力,使得以低成本方式大规模制造更加逼真、更具欺骗性的虚假信息成为可能,例如可以大量制作更具说服力的网络钓鱼电子邮件。这些大模型生成的更具欺骗性的虚假信息,如果再通过大模型支撑的个性化推荐系统进行推送,鉴于
“
过滤泡
”
和
“
信息茧房
”
效应,就很可能会造成受众观念极化,甚至会对受众观念和行为进行针对性操纵。这不仅可能侵害私主体权益,更可能对一国的国家安全尤其是政治安全、文化安全等造成严重威胁。例如在俄乌冲突初期,
2022
年
3
月在主流社交平台上相继出现了乌克兰总统泽连斯基和俄罗斯总统普京宣布投降的视频,后来都被证实是深度伪造的。此外,大模型也有可能被滥用于实施其他违法犯罪,例如生成恶意软件代码实施网络攻击等。
即使大模型不被滥用,其正常使用也可能会对环境和社会经济造成一定的风险。但目前来看,这些风险似乎并不如上述几类风险那样紧迫和确切,不过从人工智能的发展来看,这类风险很可能在不远的将来成为重大挑战,应该重视和监测这类风险的增长和演变,做到未雨绸缪。例如,大模型的大算力需求,会消耗大量的能源和资源,从而可能造成一定的环境危害。有研究发现,训练
GPT-3
大模型会产生
552
吨二氧化碳,消耗
1287
兆瓦时电力,但也认为
GPT-3
的泛化能力使得不需要针对每个任务重新训练模型,具有潜在的能源优势。
[25]
再如,长期以来,有不少观点认为人工智能将会消灭大量工作岗位。但有研究指出,人工智能工具正在赋予而不是取代人的因素,人工智能如果合乎道德地开发和部署,可以赋予人们做更多事情的能力。此外,还有研究关注了大模型应用可能带来的不平等加剧、工作质量降低、创意经济受损等风险。
大模型呈现较强的通用性,可以用于解决广泛的下游任务。但这种通用性也意味着大模型自身缺陷会被所有下游模型所继承,大模型自身缺陷引发的风险会传导给下游应用。大模型的自身缺陷主要源于其训练数据的缺陷,因而大模型可以传导给下游应用的风险主要就是其大数据训练引发的风险,由上文可知包括产生有害内容、泄露敏感数据、生成错误信息等风险。大模型向下游应用的风险传导,意味着大模型的风险管控必须依靠大模型价值链上下游参与者的共同努力。其中,最重要的就是训练开发大模型的主体和适配大模型解决下游任务的主体,本文将前者称为大模型提供者,将后者称为大模型部署者。除非大模型的提供者同时也是部署者,否则在一般情况下,由于大模型深度学习算法和涌现能力的不可解释性,大模型部署者在理解和应对大模型风险上存在较大难度,其应对大模型传导的风险,离不开大模型提供者共享必要的技术文件和相关信息。
总结起来,大模型这种新的大数据利用方式,引发的新型风险可以分为两类:一类是模型数据训练引发的风险,主要表现为产生有害内容、泄露敏感数据、生成错误信息等;另一类是模型部署应用引发的风险,主要表现为滥用实施违法犯罪、可能危害环境和经济、向下游应用传导风险等。由前文可知,前一类风险来自模型训练阶段,根源在于训练数据的质量问题和敏感性,例如训练数据集代表性不足、存在有害内容和敏感数据等。后一类风险出现在模型部署阶段,根源在于模型被滥用、模型的负外部性和通用性。面对这些新型风险,技术界正在努力研究有效的缓解措施,通过基于人类反馈的强化学习(
RLHF
)等,推进大模型与人类价值观和意图对齐,并已取得了一定的成效。例如
GPT-4
相较于
GPT-3.5
,生成内容的真实性评估得分高出
40%
,对敏感请求(如医疗建议)符合其政策响应的概率提高
29%
,对不允许内容的请求响应倾向降低
82%
。
提案议会版第
5
条明确列出了应予禁止的人工智能系统,原因就在于欧盟立法者认为这些系统会对人类安全构成
“
不可接受风险
”
。在最初的提案中,这些系统包括采用潜意识技术、利用人们弱点和用于社会评分的系统。提案议会版在此基础上对禁止的人工智能实践和系统清单进行了大幅度补充和完善,以禁止操纵性、侵入性和歧视性地使用人工智能系统,主要包括:采用有目的操纵或欺骗技术的系统;强调利用人们弱点的系统,包括利用已知或预测的人格特征或者社会经济状况的系统;公共场所的
“
实时
”
远程生物特征识别系统;
“
事后
”
远程生物特征识别系统,除非是获得司法授权并且为追诉严重犯罪的执法所必要;使用敏感特征(例如性别、种族、宗教、政治取向等)的生物特征分类系统;预测性警务系统(基于画像、位置或过去的犯罪行为);执法、边境管理、工作场所和教育机构中的情绪识别系统;不加区分地从社交媒体或闭路电视录像中抓取面部图像来创建面部识别数据库的系统。
提案议会版延续了这一分类规则,完全保留了提案的附件
2
,但对第二类高风险系统的认定和附件
3
的内容提出了重大修改。欧洲议会认为,属于附件
3
的八个特定领域的系统并不会自动归类为高风险系统,而是必须满足额外的限定条件,即
“
对自然人的健康、安全或基本权利构成重大损害风险
”
,才会被认为是高风险系统。还进一步补充和完善了附件
3
各个领域的表述,将第一个领域修改为
“
生物特征和基于生物特征的系统
”
,在各个领域之下增加了一些新的高风险系统,包括第
5
条规定之外的情绪识别系统、评估个人教育和职业培训水平的系统、决定个人健康和人寿保险资格的系统等,尤其是纳入了影响政治竞选中选民投票的系统和超大型社交媒体平台用于推荐的系统。
2023
年
7
月,国家网信办等七部门制定了《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),其适用范围聚焦于利用生成式人工智能技术向我国境内公众提供生成式人工智能服务的提供者,而排除了仅
“
研发、应用生成式人工智能技术
”
的企业、科研机构等。这实际区分了生成式人工智能的服务提供者和技术提供者,后者若并不向境内公众提供生成式服务,则不适用《暂行办法》。那么对于基于大模型技术的生成式人工智能服务来说,《暂行办法》规制的是大模型部署者,并未规制单纯的大模型提供者。这种将规制重点放在大模型部署应用、鼓励大模型训练开发的监管思路,坚持了发展和安全并重,有利于我国大模型和通用人工智能业态的创新发展,值得高度肯定。
大模型是利用大数据训练大炼参数而来,其训练开发和部署应用是一种新的大数据利用方式,这种新的数据利用方式引发了新的风险挑战。规制大模型的新型风险,就应该遵循数据利用安全范式。《中华人民共和国数据安全法》确立了数据安全新范式,要求
“
确保数据处于有效保护和合法利用的状态
”
,既确保传统的数据
“
自身安全
”
,也确保数据大规模流动和挖掘的
“
利用安全
”
。而其中的数据利用安全范式,笔者认为关键就是确保数据大规模流动和利用的可控性和正当性。对于大模型而言,其数据利用包括两个方面:一是模型训练阶段提取大数据中规律和模式的数据训练,训练结果表现为大模型,尤其是其中的算法和参数;二是模型部署阶段基于数据训练结果即大模型来响应数据输入生成新的内容。简言之,大模型的数据利用包括利用数据去训练大模型和再利用数据训练结果即大模型来生成内容。而由上文可知,大模型的两类新型风险即模型数据训练引发的风险和模型部署应用引发的风险,正是根源于这两方面的数据利用。
《暂行办法》强调要
“
实行包容审慎和分类分级监管
”
。笔者认为,落实该原则性规定的关键,在于对大模型进行基于风险的分类分级规制。大模型的风险分类,本文认为应主要根据大模型的风险根源和风险领域来区分,可以分为大模型系统本身存在的传统风险和大模型数据利用引发的新型风险,后者如前文所述又包括模型数据训练引发的各种风险和模型部署应用引发的各种风险。对于前者的规制,目前已有《中华人民共和国网络安全法》(以下简称《网络安全法》)等相关法律法规作出专门规定;对于后者的规制,要遵循上述数据利用安全范式,探索确保大模型数据训练及部署应用可控性和正当性的制度设计。大模型的风险分级,本文认为应主要根据大模型实际特定用途的风险程度来确定,借鉴欧盟《人工智能法》提案,可以将风险分为不可接受风险、高风险、中风险和低风险等
4
个等级。
基于风险的分级规制,需要将规制重点放在大模型实际用途上,并根据风险等级匹配不同监管方式。而管控风险一般认为包括四种策略:接受风险、避免风险、控制风险以及转移风险。对于大模型存在不可接受风险的用途,应该力求避免风险,原则上予以严格禁止;对于大模型的高风险、中风险用途,应该侧重控制风险,规定与风险等级相适应的风险管控义务。由于不可能实现绝对安全,对于大模型的低风险用途,以及采取避免风险、控制风险措施后仍然存在的残留风险,妥当策略是接受风险的存在,这也是
“
坚持发展和安全并重
”
的应有之义。从这个角度看,无论是欧盟《人工智能法》提案议会版一刀切地将大模型作为高风险系统监管,还是《暂行办法》征求意见稿曾要求生成内容
“
应当真实准确
”
等,都没有对风险进行分级规制,都有追求绝对安全之嫌,确实在一定程度上忽视了风险防范与产业发展的平衡。
妥当应对和规制大模型向下游应用的风险传导,离不开大模型价值链上下游参与者的共同努力。确定上下游参与者各自应当承担的风险管控义务,就需要厘清大模型用于下游任务时,相关主体的不同角色及其对大模型的控制水平。目前
“
下游大模型部署者
”
调用大模型的方式主要有两种:开源访问和
API
(应用编程接口)访问。在开源访问的情况下,提供者会公开模型的参数和源代码,部署者可以直接检查源代码和参数并根据开源许可进行修改和适配。在
API
访问的情况下,提供者仅向部署者提供大模型的
API
调用接口,部署者可以利用一些训练数据微调模型以适配下游任务,但无权修改模型的源代码和参数。但不管是开源访问还是
API
调用,都是部署者决定大模型的实际用途。
可见,对于大模型部署者来说,在
API
模式下,大模型的源代码和参数仍完全控制在提供者手中,其无法知晓大模型的底层技术细节,也无法通过修改大模型来应对风险,即使在开源模式下可以修改模型源代码和参数,但考虑到大模型算法和涌现能力存在不可解释性,其实际并不能完全理解和管控大模型上游数据训练带来的风险。而对于大模型提供者来说,其无法介入部署者适配模型的数据训练,也无法干预部署者决定大模型的实际用途,并不能管控模型适配数据训练和模型部署应用引发的风险。因此,全面管控大模型应用风险,单靠部署者抑或提供者都不可行,需要实现二者的合作共治。从这个角度看,无论是《暂行办法》仅从大模型部署者入手防范风险,还是欧盟提案议会版将风险管理的重任仅赋予大模型提供者,都是让他们去完成不可能完成的任务,实际无法达成全面管控大模型风险的目标。此外,利用基于大模型的人工智能系统生成内容的最终使用者,决定了生成的具体内容及内容受众,使用者和内容受众也是参与治理大模型生成内容风险的重要主体。为了实现大模型风险的合作共治,这些上下游参与者既需要进行充分的风险沟通和信息共享,也需要协作采取必要的风险应对措施。
建议借鉴域外经验设立专门的人工智能监管机构,名称可为
“
人工智能发展和安全委员会
”
,以全方位监测和应对大模型等技术路径带来的风险挑战,引导和促进人工智能安全发展。
2018
年底,美国依据《
2019
年国防授权法》,设立了
“
国家人工智能安全委员会
”
,负责审查人工智能、机器学习和相关技术的发展,以全面解决美国国家安全需要。欧盟提案议会版提出设立欧洲人工智能办公室,以确保该法有效和协调执行,其职责明确包括对大模型的监管:提供特别的监督和监测,就基础模型及利用这些模型的人工智能系统是否合规,以及行业自我治理的最佳实践,与基础模型提供者建立定期对话制度;记录并监测已知的大模型大型训练的运行情况,以及发布基础模型发展、扩散和使用状况的年度报告,并附上应对基础模型特有风险和机遇的政策选择。
笔者认为,专门机构对于大模型的风险监管,除了监督落实法定义务之外,可以侧重以下两个方面:一是组织对高性能大模型进行强制性风险评估。目前欧盟提案规定的大模型风险评估,主要是提供者和部署者的自我评估。《暂行办法》第
17
条提到的提供具有舆论属性或者社会动员能力的生成式人工智能服务的安全评估,也属于自我评估,仅侧重信息内容安全风险。考虑到大模型的潜在风险可能影响巨大,为避免造成难以承受的后果,建议由专门机构组织相关领域专家,对某些高性能大模型在其上市前进行强制性的第三方风险评估。这种强制性评估的范围应该限于具有强大能力的大模型,可以从大模型性能指标入手进行界定,比如限于参数超过
1
亿或计算量超过一定门槛的大模型。鉴于对大模型技术的评估才刚开始探索,专门机构应该负责组织研究和发展针对大模型的评估方法和评估标准。基于风险评估的结果,专门机构可以组织制定大模型的风险应对措施。二是加强对大模型远期风险的监测、研究和应对。如前所述,大模型正常使用也可能对环境和社会经济造成一定的风险,比如对环境和劳动就业的影响,但目前研究显示这些风险尚未构成迫切威胁,可称之为一种远期风险。对于这类远期风险,目前妥当应对策略是接受风险,但也需要加强监测和研究,一旦发现其转变为现实威胁,应该及时调整应对措施。为监测需要,大模型提供者应有义务定期报告资源消耗等情况。
二是确保训练数据的来源和内容符合正当性。数据来源正当,主要就是《暂行办法》强调的
“
具有合法来源
”
,不是以非法方式获取的数据。笔者认为,很多大模型默认将用户输入的提示作为训练数据、只为用户提供退出机制的做法,正当性值得质疑,至少在用户输入构成个人信息的时候,应当原则上征得个人同意或者具有其他合法依据。数据内容正当,主要就是数据承载的信息内容不得违反法律法规的禁止性规定,不得侵害他人合法权益,符合一国的主流价值观和意识形态,尽量排除存在偏见、歧视等不公平内容的数据,确保训练数据质量。《暂行办法》已明确要求采取有效措施
“
增强训练数据的真实性、准确性、客观性、多样性
”
。不过从防止产生歧视的角度看,本文认为还应该要求训练数据具有充分的代表性、与预期目的的相关性,以及采取适当的偏见检测和纠正措施,以最大限度地降低大模型中嵌入不公平偏见的风险。
一是明确大模型部署应用的
“
禁止清单
”
。禁止清单主要是理清存在不可接受风险的用途,笔者认为主要是指可能严重危害国家安全、公共安全和重大公共利益,会造成难以承受后果的用途。这种不可接受性往往取决于一国的核心价值观、国家利益和文化传统等,不同国家可能会有不同的界定。从欧盟提案的界定来看,是基于欧盟维护基本权利等价值观,侧重禁止操纵性、侵入性和歧视性的用途。欧盟界定中提到的采用潜意识或欺骗技术、利用弱势群体弱点等操纵人的行为等用途,可以为我国界定这种禁止性用途所借鉴;但对于欧盟拟禁止的预测性警务等用途,本身在欧盟立法过程中就引起很大争议,是否列入我国的禁止清单需要进一步论证。还需要指出的是,欧盟提案由于立法权力所限将军事用途排除在适用范围之外,笔者认为我国未来立法应该明确禁止将大模型用于自主武器系统、核威慑等军事用途。
二是明确界定高风险、中风险用途并规定相应的风险管控义务。笔者认为高风险用途主要是指可能危害国家安全、经济运行、社会稳定、公共健康和安全等的用途。欧盟提案议会版对高风险用途的界定采用了
“
特定领域列举
+
抽象要件认定
”
的方法,即列出了关键基础设施管理和运作等八个领域里可能存在高风险用途的系统,然后根据
“
对自然人的健康、安全或基本权利构成重大损害风险
”
限定条件具体认定是否构成高风险用途。这种界定方法可以为我国所借鉴。对于决定大模型高风险用途的部署者,借鉴欧盟提案,可以从风险管理、透明度、记录保存、技术可靠性等方面规定其风险管控义务。在风险管理方面,对于是否可以部署某种高风险用途,建议借鉴欧盟提案议会版第
29a
条高风险系统部署者
“
基本权利影响评估
”
义务,要求部署者建立利益相关者尤其包括受影响者在内多方参与的风险评估机制。至于中风险用途,借鉴欧盟
“
有限风险
”
的理解,笔者认为主要是指因运行不透明而导致人们可能被自动化系统误导、操纵,可能危害人的自主性的用途。为避免这种风险,应规定此时部署者负有一定的透明度义务,要告知使用者人工智能系统存在和运行情况,保障人们在知情后有权选择是否使用系统。
一是大模型提供者及高风险用途部署者的信息公开义务。从欧盟立法来看,提案最初只规定了高风险人工智能系统才负有透明度义务,提案议会版明确要求基础模型应在欧盟高风险人工智能系统数据库中登记并按附件
8
要求公布相关信息。笔者赞同这一思路,不论大模型是否用于高风险用途,都有必要保持一定的透明度。借鉴欧盟的规定,并结合前文所述,笔者认为大模型提供者应该公布以下信息并保持更新:提供者名称等基本信息;大模型训练数据的来源;大模型的能力、局限性以及合理可预见的风险缓解措施;大模型训练所需的计算能力以及对环境的可能影响;大模型按照公共或行业基准具有的性能;大模型内外部测试和优化的说明等。大模型高风险用途部署者也应该参照这些内容公布模型部署应用情况,并着重说明高风险系统的预期用途、局限性、潜在风险及缓解措施。在信息公开形式上,我国可以借鉴欧盟建立可公开访问的数据库。
二是大模型中风险用途部署者及使用者的透明度义务。除了前述大模型中风险用途部署者负有透明度义务外,基于大模型的中风险系统的使用者,对受到系统影响的人也应负有一定的透明度义务。例如,欧盟提案议会版第
52
条新增规定:与人类交互的系统的使用者,利用系统做出决策时,应当告知接触系统的人,谁负责决策过程以及现有的权利和程序,这些权利和程序允许反对适用系统并就系统所做决策或所致损害寻求司法补救,包括寻求解释的权利;未被禁止的情绪识别系统或生物特征分类系统的使用者,应当在处理生物特征数据和其他个人数据前征得接触系统的人的同意;
“
深度伪造
”
系统的使用者,应当以适当、及时、清晰和可见的方式披露内容是人为生成或操纵的。
三是大模型价值链上游参与者向下游参与者提供必要信息的义务。大模型提供者应当向部署者、大模型高风险用途部署者应当向使用者,提供必要的技术文件和使用说明,以支持下游人工智能系统的正常运行和依法使用,尤其是符合高风险系统的监管要求。欧盟提案附件
4
规定这些信息包括人工智能系统的一般描述、要素和开发过程的详细说明、运行和控制的详细资料、风险管理的详细描述等。提案议会版认为还应当包括:系统的主要目标、输出质量和输出可解释性;系统的结构、设计规格、算法和数据结构以及它们的彼此联系和整体逻辑;特定系统性能指标的适当性;系统开发的能源消耗以及使用的预期能源消耗等。笔者认为,必要信息的提供,应该考虑上下游参与者之间约定的大模型利用方式,并在技术信息共享和商业秘密保护之间取得适当平衡。
但如果基于大模型的人工智能系统还是生成了违法内容,应该如何及时发现与处置呢?对此,《暂行办法》要求生成式服务提供者即大模型部署者应当承担网络信息内容生产者责任,发现违法内容及时采取停止生成等处置措施和模型优化训练等整改措施,并向有关主管部门报告。不过细思之下,虽然部署者提供了生成式服务,但该服务是基于大模型提供者的技术,下达指令决定具体生成内容及受众的是服务的使用者,使用者才是其中最重要的内容生产者。仅将大模型部署者认定为内容生产者,实际是让部署者对使用者生成内容行为直接承担全部责任,考虑到使用者利用生成式服务会生成海量内容,这种要求似乎过于严苛;让部署者采取模型优化训练的整改措施,但除了开源模型等情况外,部署者往往无法对上游大模型进行优化修改,实际根本无法完成整改目标。
这说明仅依靠部署者难以完成发现和处置违法内容的重任,应当进一步健全发现和处置违法内容的共治机制。一是健全违法内容发现的共治机制。目前《暂行办法》强调部署者有义务
“
发现
”
并处置违法内容,不过考虑到使用者会生成海量内容,要求逐一人工审查几乎是不可行的,因此参照《网络安全法》第
47
条的规定和理解,笔者认为不能将部署者发现违法内容的义务理解为让其对所有生成内容承担普遍审查义务,发现违法内容需要部署者、使用者和主管部门的共同参与:除了部署者负有一定的
“
主动
”
发现义务,即应该根据现有技术水平采取人工审核监督、识别过滤措施等手段,积极查找违法内容之外,还应该畅通违法内容的举报机制,完善主管部门的举报处理和巡查机制,动员广大使用者积极举报违法内容;部署者对于通过使用者举报、主管部门告知等途径
“
被动
”
获知的违法内容,应当及时予以处置。二是健全违法内容处置的共治机制。当部署者发现自己不足以阻却违法内容生成时,应及时将有关情况告知大模型提供者,由提供者采取修改模型参数、模型优化训练等措施进行整改,并向有关主管部门报告。当然如果发现生成违法内容是由于部署者适配模型造成的,应当由部署者通过模型适配优化训练等措施进行相应整改,不应将整改责任强加给上游的提供者。