AIGC生成式人工智能的数据侧合规法律研究

来源:上海市协力律师事务所

文章摘要
《生成式人工智能服务管理暂行办法》自2023年8月15日起施行。AIGC生成式人工智能基于海量级的数据,在数据合规、个人隐私保护以及知识产权保护方面面临很大的挑战。本文聚焦于这一问题作初步研究。
《生成式人工智能服务管理暂行办法》自2023年8月15日起施行。AIGC生成式人工智能基于海量级的数据,在数据合规、个人隐私保护以及知识产权保护方面面临很大的挑战。本文聚焦于这一问题作初步研究。
01、生成式人工智能的界定
人工智能的分类
人工智能按发展程度可分为狭义人工智能(Artificial Narrow Intelligence, ANI)、通用人工智能(Artificial General Intelligence, AGI)和超级人工智能(Artificial Super Intelligence, ASI),其中,ANI也被称为弱人工智能,指机器在某一领域表现出智能,如下棋、语言翻译、发展预测等;AGI也被称为强人工智能,指机器达到人的表现水平,能够解决跨领域的复杂问题。一般认为,目前人类技术尚未达到AGI的水平,但以GPT4为代表的通用大模型已经接近所谓的通用人工智能1。
在狭义人工智能阶段,主要技术方向可以分为决策式/分析式AI(Discriminant/Analytical AI)和生成式AI(Generative AI)两类。其中,决策式AI指学习数据中的条件概率分布,根据已有数据进行分析、判断、预测,而生成式AI是一类机器学习算法,并非只分析已有数据,而是学习数据中的联合概率分布,归纳已有数据后进行自主创造、演绎创新,一般对外输出文本、图像、语言、视频、代码等内容。
目前,决策式/分析式AI在推荐系统、图像识别、内容审核、自动驾驶领域已经商用化,尤其是在图像识别领域中的人脸识别领域已经完全融入实体经济,在无人驾驶领域已经半成熟度化;生成式AI属于Web3.0的生产工具,在游戏开发、文学创作、音乐创作、药品发明、新材料合成等领域中已经有所涉及,更多涉及到了创新领域2。
由此,可以认为,《生成式人工智能服务管理暂行办法》(以下简称“新规”)中提到的“生成式人工智能技术”,即为狭义人工智能阶段的生成式AI,且目前已经有向通用人工智能阶段发展的趋势。
生成式人工智能技术与深度合成技术的区分
深度合成技术最早起源于“深度伪造”(deepfake),我国《深度合成管理规定》中对深度合成技术进行了界定,即“深度合成技术,是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术”。
对于生成式人工智能技术,《生成式人工智能服务管理办法(征求意见稿)》(以下简称“征求意见稿”)将其界定为“是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术”;新规亦进行界定,即“生成式人工智能技术,是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术”。相较于征求意见稿,新规将“算法、模型、规则”缩小为“模型及相关技术”,这说明监管部门对于法规规制对象的底层技术确实有所区分。
从二者概念的法律界定上看,深度合成技术是基于算法,而生成式人工智能技术则是更加强调模型。每个模型里都包含算法,算法是设计出来的,自由度低,可解释性强;模型更加复杂,是训练出来的结果。算法是指针对特定问题的一种方法,通常由程序代码实现,比如手写识别算法,排序算法等;模型则是多个算法根据一定架构组成的集合,其是指数据通过算法进行训练后得到的一个可以解决特定问题的模块,例如手写识别模型,当向模型输入一张手写图片后,其就可以输出图片中的文字。而所谓大模型,即指具有大量参数和复杂结构的机器学习模型,其可以应用于处理大规模的数据和复杂的问题3。此外,上述规定对相关技术的概念界定较为模糊,一定程度上扩大了二者原有的范围,尤其是深度合成技术。故而目前亦有观点认为,在现有法律体系下,生成式人工智能技术乃深度合成技术的子集,可以通过一定的解释来使生成式人工智能技术(预训练大模型技术)同时受《深度合成管理规定》的规制4。对此,笔者认为二者之间虽有联系,但确有不同,故此观点有待商榷。
从二者的技术本身来看,虽然二者均会涉及生成合成类算法,在底层技术的应用上有一定的相似性和交叉,但二者在具体的应用方向上并不相同。深度合成技术本质上是根据一定的需求,对已有的数据(图片、文字等)进行组合、拼接,其并不能从无到有的生成新内容;而生成式人工智能技术的逻辑为“理解-创作”,生成内容具有新颖性,并非对已有内容的拼接,换言之,其具有对已有数据进行演绎创新的能力。
02、《生成式人工智能服务管理暂行办法》的适用范围
一般判断标准
新规第2条规定“利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务(以下称生成式人工智能服务),适用本办法。国家对利用生成式人工智能服务从事新闻出版、影视制作、文艺创作等活动另有规定的,从其规定。行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等研发、应用生成式人工智能技术,未向境内公众提供生成式人工智能服务的,不适用本办法的规定。”
由此,可以得出,在判断相关企业是否受新规的规制时,应同时考虑四个要素标准,即“境内”、“公众”、“提供生成式人工智能技术服务”及下文“(二)新规的排除适用情形”。
其一,境内,即服务对象在中华人民共和国境内。此外,根据新规第20条的规定,境外服务提供者向境内公众提供生成式人工智能技术服务的,亦属于新规的规制范围。
其二,公众,为不特定的多数主体,并不当然仅指自然人。例如,《最高人民法院关于审理商标民事纠纷案件适用法律若干问题的解释》第8条即明确“商标法所称相关公众,是指与商标所标识的某类商品或者服务有关的消费者和与前述商品或者服务的营销有密切关系的其他经营者”,并未将非自然人的组织、法人等排除在外。
而根据新规第22条第3项的规定,生成式人工智能服务使用者包括组织与个人。也即,若向不特定的企业提供生成式人工智能技术服务(2B),亦会构成服务提供者,应当受新规的规制。
其三,提供生成式人工智能技术服务,即提供新规所规定的“生成式人工智能技术”,对于具体范围上文已进行界定,此处不再赘述。
新规的排除适用情形
在明确新规的适用范围后,不难得出新规将以下几种情形排除适用,即:
其一,在中国境内向境外公众提供生成式人工智能服务;
其二,在中国境内仅向特定对象提供生成式人工智能服务,即对象特定,不属于构成“不特定主体”的“公众”;
其三,新规第2条第2款规定的“国家对利用生成式人工智能服务从事新闻出版、影视制作、文艺创作等活动另有规定的,从其规定”,即在上述领域应优先适用专门规定;
其四,新规第2条第3款规定的“行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等研发、应用生成式人工智能技术,未向境内公众提供生成式人工智能服务的,不适用本办法的规定”。因此,基于企业内部的需求在企业内部使用生成式人工智能服务不适用于本办法。
特殊情形的讨论
在实践中,存在一些特殊情形,例如企业仅通过引入生成式人工智能技术辅助决策,以提高自身的服务能力,或者企业自身并不控制大模型,仅作为终端用户与大模型之间的“传声筒”(前述两种情形将在下文中详述)。此时,需对相关企业是否构成“生成式人工智能服务提供者”(以下简称服务提供者)进行个案判断,以明确其是否应受到新规的规制。
1.判断标准
新规第17条规定,“具有舆论属性或者社会动员能力的生成式人工智能服务”需要进行算法备案等。以ChatGPT为例,一般认为,因其只是“点对点”的向用户提供内容,故并不具有“舆论属性”,但其根据用户需求生成的内容,极有可能影响用户的思想及行为,故而应将类似的大模型认定为具有“社会动员能力”。此规定可以理解为,应当对能够影响公众思想的生成式人工智能服务加强监管,避免其生成内容对公众造成不良影响,破坏正常的社会舆论乃至运行秩序。
基于此,可以认为,新规对生成式人工智能技术的规制逻辑在于,其是否会对“公众”产生不良影响。换言之,在企业本身并无违法目的的前提下,倘若生成式人工智能生成了错误的、违反公序良俗的甚至违法的内容,“公众”是否能够接触到该内容。也即,如果企业对该内容具有修改、删减、增加等的实际控制能力,在对生成式人工智能生成内容进行实质审查后,再以直接(将生成物原封不动的发给用户)或间接(由企业工作人员概括转述等)的方式交由用户,且此过程能够在一定程度上避免用户受错误内容的影响,则不应当认定相关企业为服务提供者,自然也就不受新规的规制。
2.企业引入生成式人工智能辅助决策
在企业引入生成式人工智能用于辅助决策等以提升自身服务能力为目的的情形下,例如,企业客服部门引入生成式人工智能技术,将其生成内容作为工作人员工作中回答客户问题的辅助与参考。此时,企业工作人员在面向“公众”提供服务时,并不会直接将生成式人工智能的生成内容转交(述)给用户,该内容仅为工作人员对外提供服务的辅助与参考,真正对外提供相关服务的仍为企业工作人员本人,其对表达的内容负责。换言之,即使生成式人工智能根据用户的情况提供了错误的生成内容,企业工作人员亦会对其进行甄别,在其能力范围内避免用户接触到错误的生成内容。
在这种情形下,不应认定相关企业为服务提供者,即该企业不受新规的规制。
3.企业为生成式人工智能技术“传声筒”
具体来说,此种情形可以理解为“传声筒”,企业代用户使用生成式人工智能服务,即,企业名义上对外“提供生成式人工智能服务”,但企业实质上并不控制相关大模型,用户对企业发出使用需求后,企业以使用者身份向其可接触到的大模型发送相同的需求,在得到相关的生成内容后,企业在不对生成内容进行实质性审查的前提下,直接将此生成内容转达给用户(如下图所示)。

此种情形下,倘若生成式人工智能生成了错误的内容,终端用户有接触到该内容的可能。根据前述的判断标准,应当将此时的“传声筒”企业认定为服务提供者,受新规的规制。根据新规的规定,服务提供者需要对生成式人工智能大模型的研发及运行全阶段负责,此时,认定“传声筒”企业为服务提供者,由其承担相关大模型的全阶段合规风险,并不违反新规的精神。
03、AIGC的权属问题
AIGC能否构成著作权客体
对于AIGC(AI Generated Content,系指人工智能生成内容,以下称“AIGC”)是否能构成著作权客体,并按照著作权体系进行权利分配与权属认定,目前法律并无明确规定,实务界对此问题所持观点亦不统一。
在(2019)京73民终2030号案件中,北京知识产权法院认为,“作品应由自然人创造完成,计算机软件智能生成的内容不构成作品”、“对于相关生成物,计算机软件研发者(所有者)和软件使用者均不能以作者身份进行署名,应标明相关内容系软件智能生成”、“计算机软件的使用者可以采用合理方式在计算机软件智能生成内容上表明其享有相关权益”。
而在(2019)粤0305民初14010号案件中,南山区人民法院则认可了腾讯公司享有对案涉人工智能生成作品的著作权,“从涉案文章的外在表现形式与生成过程来分析,该文章的特定表现形式及其源于创作者个性化的选择与安排,并由Dreamwriter软件在技术上‘生成’的创作过程均满足著作权法对文字作品的保护条件,本院认定涉案文章属于我国著作权法所保护的文字作品”。
对此,笔者认为,基于对生成式人工智能技术发展的鼓励,宜认可存在权利主体对符合著作权作品标准的人工智能生成物享有著作权。此外,著作权法的目的之一便在于鼓励创新,认定AIGC可以构成著作权客体,并以一定的判断标准明确其权利主体,并不违背著作权法之本意,亦符合鼓励新技术发展的社会要求。
AIGC构成著作权客体的判断标准
在认可AIGC可以成为著作权客体的前提下,应明确相应的判断标准,即何种AIGC可以被认定为著作权客体。对此,可以借鉴南山区人民法院的判断标准,即:首先,AIGC是否具有独创性。应从是否独立创作及外在表现上是否与已有作品存在一定程度的差异,或具备最低程度的创造性进行分析判断;其次,应从AIGC的生成过程来分析是否体现了创作者的个性化选择、判断及技巧等因素,也即创作者在使用生成式人工智能生成相关内容时,是否投入了足够多的、足以左右生成内容、风格等的贡献。
如果能够满足以上两点,则应认为AIGC满足著作权法上对作品的认定标准,AIGC可以构成著作权客体。
以ChatGPT为例,假定其生成物已经具有了独创性,则需要判断服务提供者/使用者对其的产生是否投入了足够多的贡献。以使用者的视角,若其为相关生成物的创作投入了足够多的贡献,为此搜集大量资料,在系统内对生成内容(语言、逻辑、风格等)不断进行调整,最终创作出了具有独创性的内容,则应认定该内容符合著作权法上对作品的认定标准。在服务提供者主导、贡献下生成式人工智能生成的内容亦同。
AIGC的权属判断
依上述分析,AIGC有构成著作权客体的可能性,故而在确定AIGC的权属时,应先判断其能否构成作品。在构成作品的情况下,应明确相关著作权的主体;在不构成作品的情况下,则涉及与AIGC有关的“持有、使用、收益”等财产性权利,此时宜明确服务提供者与使用者之间的利益分配。对此,因目前尚无法律明确规定,本文仅从各方主体利益平衡的视角出发,拟提出一般性的判断标准。
首先,在确定AIGC的权属时,应先明确服务提供者与使用者之间是否就此存在明确约定,如有,则在相关约定有效的前提下遵循双方之间的约定。
其次,在没有提前约定的情况下,应判断AIGC能否构成作品。如果能够构成作品的,则可以根据服务提供者与使用者对相关内容生成的贡献程度大小确定著作权权利主体。在双方贡献的创造性智力劳动的大小难以比较时,可以考虑将著作权归属于使用者。因为服务提供者在提供服务时往往会收取一定的费用,其在实际上已经因提供生成式人工智能服务而获利,此时,将著作权归属于使用者的话,可以在一定程度上避免服务提供者“多重获利”的情况,平衡服务提供者与使用者之间的利益关系。
再次,在AIGC不构成作品的情况下,此时不再涉及著作权归属的判断,相应的AIGC应属于使用者“使用记录”的一部分。根据新规第11条的规定,“提供者对使用者的输入信息和使用记录应当依法履行保护义务,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录”。据此,可以认为,服务提供者在利用人工智能生成物时,应当获得使用者的授权,尤其不得非法使用能够识别使用者身份的使用记录。此时,若服务提供者在未获得授权的情况下利用生成内容,则会存在较大的侵权、合规风险。
04、基于违法训练数据取得的大模型及参数能否继续使用
相较于征求意见稿,新规在很大程度上放宽了对模型开发者/服务提供者在训练大模型时使用的训练数据的要求,但亦对训练数据作出了规定。新规第7条第1项、第4项规定,服务提供者应在训练数据处理活动中遵守“使用具有合法来源的数据和基础模型”、“采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性”。
训练数据本身违法
因大模型的参数取决于训练数据的投入,若在开发、训练大模型时使用的训练数据本身违法,例如使用了违反法律法规、公序良俗、国家利益、人类道德的训练数据,则大模型本身就有极高的生成违法内容的可能。当然亦有一种可能是大模型需要利用含有违法内容的数据来训练模型,以实现特定大模型可以识别“坏人”。对此,应当认为,除前述特殊情形外,在利用非法数据训练大模型的情况下,无论是大模型通过训练获得的参数,还是大模型本身,均不能继续使用。
训练数据来源违法
对使用训练数据内容本身合法,但来源违法的训练数据进行大模型训练,获取的相关参数及大模型能否继续使用的问题,目前法律尚无明确规定。对此,基于对人工智能领域相关技术发展的促进和鼓励,不应对此“一刀切”,宜分情况进行个案判断。
1.服务提供者以合法渠道取得了来源不合法的数据(上游数据来源不合法)
此种情形为,服务提供者/模型开发者从合法渠道向数据持有者A处以合法形式购买训练数据,用于大模型的训练,但交易的训练数据却是数据持有者A以非法方式获取的(违规爬取、非法购买等)。此时,应当认可服务提供者/模型开发者通过对上述数据投入的实质性劳动与智慧,允许其继续使用基于来源不合法的训练数据所得到的大模型及相关参数(类似于善意取得制度)。
但与此同时,服务提供者/模型开发者应当提供其已对相关训练数据来源进行合理审查的证明,否则,难以体现其对训练数据的来源审查尽到了合理的注意义务。此时,若服务提供者/模型开发者不能提供相应的证据,则不能认为其对训练数据的来源进行过合理必要的审查,则其应承担相应的侵权及其他责任;情节严重的,不应允许其继续使用基于前述训练数据训练的大模型及相关参数。
2.服务提供者非法获取训练数据
若服务提供者/模型开发者是以非法方式或非法途径获取相关数据进行大模型的训练,其明显违反了新规第七条“使用具有合法来源的数据和基础模型”的规定。在此情形下,服务提供者/模型开发者的主观恶意明显,不应允许其继续使用基于上述数据训练而获得的大模型及相关参数,其还可能将因其违法行为承担相应法律责任。
05、模型开发者和服务提供者预训练数据的合规性
新规第7条规定“生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:(一)使用具有合法来源的数据和基础模型;(二)涉及知识产权的,不得侵害他人依法享有的知识产权;(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;(四)采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性;(五)《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求”。
新规第8条规定“在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作”。
基于此,可以得出服务提供者/模型开发者在使用训练数据进行大模型的预训练时,需要重点关注以下合规风险点:
数据来源是否合法
目前模型开发者/服务提供者获取训练数据的方式通常包括直接采集(例如通过爬虫软件、RPA等技术手段采集)、间接采集(从数据提供者处以购买、数据共享等方式获得)、使用合成数据等。对此,需要重点关注模型开发者/服务提供者采集数据的行为及渠道是否合规。
例如,以爬虫软件等技术手段采集数据的,需要遵守与被爬取网站的协议,不得破坏、绕过其设置的反爬取技术措施等。爬取的数据应当为公开数据,不得涉及个人信息数据、重要数据、敏感数据等,不得违反《反不正当竞争法》的相关规定。以购买或数据共享方式取得训练数据的,模型开发者/服务提供者需对相关数据的来源进行合理审查,避免该数据的上游取得方式违法,以至产生合规隐患。
数据训练过程是否侵犯他人知识产权
大模型的训练需要大量诸如文字、图片等数据的投入,这其中不乏受到著作权保护的作品。因而,在未经相关著作权人授权的情况下,以获取的公开数据为训练数据进行大模型的训练,可能会构成对相应著作权人享有著作权的侵犯。现阶段,要求服务提供者/模型开发者在进行大模型训练前取得所有相关著作权人的授权显然不现实,赋予其过重的合规义务无疑会压缩生成式人工智能行业的发展空间,与新规鼓励相关技术发展的精神不符。故而,如何在知识产权领域实现服务提供者/模型开发者与知识产权人之间利益的平衡,对于促进整个人工智能领域的发展,显得尤为重要。对此,理论界与实务界均未形成定论。
2023年8月初,《纽约时报》正式公布其更新的服务条款,明确表示“未经其书面许可,所有在《纽约时报》刊登或提供的照片、影像、设计及视讯短片,以及其他资料或数据等,都不得用于训练生成式人工智能,否则,将追究相应的民事或刑事责任”。针对Open AI公司在未经《纽约时报》授权的情况下,以其享有著作权的作品进行ChatGPT训练的行为,《纽约时报》近日表示或将起诉Open AI公司,以捍卫其辛辛苦苦建立的知识产权。而以美联社为代表的“赞同派”则持相反态度,其于7月与Open AI签署合作协议,同意提供过去的报道给Open AI用于数据训练。《华尔街日报》亦在考虑以收取一定费用的方式向AI开发人员提供训练内容,其将生成式人工智能视为对未来业绩的支持5。
对此问题,学界有观点认为,或可于《著作权法》中增加“合理使用”的情形,豁免模型开发者/服务提供者对用于大模型训练的作品取得著作权人授权的义务,明确其可以不经授权即将相关作品用于大模型的训练,或只需为此支付一定的费用。
但需注意,目前我国立法尚未明确此种情形属于“合理使用”的范围,也即模型开发者/服务提供者在以他人作品作为训练数据时,原则上仍需取得相关著作权人的授权,否则将会面临较高的合规风险。
训练数据是否涉及个人信息
实践中,大模型的训练很少使用直接的个人信息(如单独的姓名、身份证号等),但亦存在此种可能。根据新规第7条第3项的规定,倘若训练数据涉及个人信息的,应当取得个人同意,或符合法律、行政法规规定的其他情形。
是否采取有效措施提高训练数据质量
相较于征求意见稿要求的“能够保证数据的真实性、准确性、客观性、多样性”,新规出于对生成式人工智能行业发展的鼓励,已大幅放宽了对训练数据的质量要求标准,仅进行“倡议性”要求。但对于模型开发者/服务提供者来说,提供训练数据质量仍不可忽视。对此,其应当积极采取有效措施,并对此进行记录和留痕。以便在接受监管时,能够向相关部门证明其对于提高训练数据质量已经尽到了合理的义务。
数据标注活动是否符合规定
服务提供者/模型开发者应按照新规第8条的要求,制定标注规则、开展数据标注质量评估,并对标注人员进行必要的培训。
06、服务提供者储存和利用使用者输入信息的合规问题
大模型的训练并非一蹴而就,在服务提供者/模型开发者完成大模型的预训练后,大模型只是初步成型,其本身还需要在后续提供服务的过程中持续训练。可以说,使用者在接受基于大模型的生成式人工智能服务的同时,也在变相地帮助服务提供者继续训练大模型。此时,服务提供者能否直接利用使用者在使用时输入的相关信息及使用记录进行大模型的升级迭代,仍有待商榷。对此问题,新规未作明确规定,但新规与征求意见稿均规定了服务提供者对涉及使用者个人信息的输入信息和使用记录所应承担的义务。基于此,可以推断监管部门对上述问题的监管口径。
征求意见稿第11条规定“提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。法律法规另有规定的,从其规定”。以禁止性规定的形式对服务提供者作出要求,且没有规定除外条款,口径可谓非常严格。而新规第11条的规定则在一定程度上放松了对服务提供者的限制,“提供者对使用者的输入信息和使用记录应当依法履行保护义务,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录”。为禁止性条款设置了“非必要”、“非法”的前提,也即承认了服务提供者在合法情况下可以对此进行一定的收集、存储和利用。
基于此,可以认为,新规并未明确禁止服务提供者存储和利用使用者在使用过程中输入的信息及使用记录,而是认可了服务提供者利用该数据优化模型。但出于避免合规风险的考量,建议服务提供者应根据新规第9条“与使用者签订服务协议,明确双方权利义务”的规定,在服务协议中预先、明确取得使用者的授权,以增强其收集、存储、利用相关数据的合法合规性。
此外,无论是征求意见稿还是新规,均明确规定服务提供者具有保护使用者输入信息和使用记录的义务。意大利政府暂时禁用ChatGPT以及三星芯片机密代码泄露事件,均能体现使用者输入信息被泄露的严重性与严峻性。中国支付清算协会亦指出,生成式人工智能工具已暴露出跨境数据泄露等风险,出于对数据安全的考量,其发布《关于支付行业从业人员谨慎使用ChatGPT等工具的倡议》。因此,服务提供者应当重视其信息安全保障义务,积极采取有效措施,避免用户数据泄露。
07、生成式人工智能通用大模型数据语料库的建立
新规第6条第2款规定,“推动生成式人工智能基础设施和公共训练数据资源平台建设。促进算力资源协同共享,提升算力资源利用效能。推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。鼓励采用安全可信的芯片、软件、工具、算力和数据资源”。足见国家对生成式人工智能技术发展的支持,以及对通用大模型数据语料库建设的重视。
现阶段,制约国内生成式人工智能通用大模型发展的一大痛点即为可供训练的中文语料太少。据统计,全球通用的50亿大模型数据训练集里,中文语料的占比仅为1.3%,其中高质量的中文语料更少6。故而,构建通用大模型中文数据语料库,提高训练数据质量,扩大数据提供规模,就显得尤为重要。对此,可以根据以下思路破除当前困境:
其一,政府牵头组建大模型、大数据联盟。应充分发挥政府的作用,由政府统筹辖区内的数据资源,加速公共数据的分级分类开放,协调企业间数据共享。此外,因为政府自身控制了大量的公共数据资源,亦可构建基于企业数据共享水平的公共数据开放机制,对企业数据共享水平进行评估,并将其与公共数据开放挂钩,共享水平高的企业可以在合法合理的范围内享受更便捷、优质的公共数据开放服务。
其二,增强数据持有方的数据提供意愿。可以制定训练数据的质量与规模评价标准,建立语料库认证机制,并基于此构建数据定价机制,促进数据流动。此外,还可以根据数据持有方的数据提供情况,赋予其优先使用或优惠使用相关大模型的特权,以提高其数据提供意愿。
其三,构建数据提供方的安全港。此项举措意在减少数据提供方的顾虑,从而鼓励其对外提供数据。具体做法为,明确生成式人工智能大模型侵权追责机制,在数据提供方合法收集、出售或共享训练数据的前提下,以立法或政策的形式保障其不再承担服务提供者/模型开发者因大模型侵权所产生的法律责任,即在一定程度上阻断数据提供方的责任。
其四,支持语料库数据产品在数交所挂牌交易。以上海市数据交易所为例,其建立了完善的数据合规评估机制。对于大模型的语料供给,可以鼓励数据供给方在数交所挂牌,对语料数据产品进行评估费用以及挂牌费用上的政策支持及经济补助等。这不仅可以为数据提供方的合规问题提供一定程度上的背书,对数据需求方亦具有积极意义。
其五,增加公共数据资源的供给。随着数据垄断效应的加剧,企业若想合法获取高质量的训练数据集并非易事。通过建立和开发公共训练数据集,以降低企业获取具有合法来源的数据的成本,或可有效缓解这一矛盾。
其六,构建生成式人工智能领域开源社区。以Hugging Face Hub为例,其作为目前境外AIGC领域最有影响力的开源社区之一,提供超过12万个模型(Models)、2万个数据集(Datasets)和5万个演示应用程序(Spaces),所有这些都是开源、公开、免费的,这极大的降低了大模型行业的技术和成本门槛,深刻的改变了AIGC行业的发展模式7。可以将该案例的成功作为借鉴和参考,由政府牵头或鼓励企业自发创建中国的开源社区,构建社区的正向反馈机制,由用户对共享的模型、数据等进行评分,高质量内容的共享者可以以此获利等,以促进AIGC领域数据的自发性流通共享。
参考文献:
[1]吴砥、李环、陈旭:《人工智能通用大模型教育应用影响探析》,载《开放教育研究》2023年第2期。
[2]公众号“谈咨 通询”文章:唐怀坤,《<数智瞭望>第3期:从决策式AI到生成式AI,人工智能发展的技术路线是什么?》,网址https://mp.weixin.qq.com/s/IDANbafgKuizNI7ihapBBQ,最后访问日期2023年8月29日。
[3]公众号“人工智能知识家园”文章:《什么是大模型?大模型的优点》,网址https://mp.weixin.qq.com/s/Nh6Zuz0Wj4UWE9bYuNM3Hw,最后访问日期2023年8月29日。
[4]张凌寒:《深度合成治理的逻辑更新与体系迭代——ChatGPT等生成型人工智能治理的中国路径》,载《法律科学》2023年第3期。
[5]公众号“ 新浪VR”文章:《<纽约时报>或将起诉OpenAI:新闻出版业与AI之争》,网址https://mp.weixin.qq.com/s/O-Dslb39Kj6HuQQAs6in-g,最后访问日期2023年8月29日。
[6]公众号“维科网人工智能”文章:《AI语言鸿沟再现!英文便宜15倍,中文竟不是最贵的?》,网址https://mp.weixin.qq.com/s/jTqLYepCFU7o1dti2nCsdg,最后访问日期2023年8月29日。
[7]公众号“极客公园”文章:《OpenAI和谷歌最怕的,是一张“开源笑脸”》,网址https://mp.weixin.qq.com/s/e8K0SvbdCwZaPvjw7wrQlw,最后访问日期2023年8月29日。
(管心竹律师助理、实习生韩昕彤对本文亦有贡献)
技术驱动法律,专业成就未来