全体人类作者的知情权：AI训练数据的披露义务

作者：张延来来源：网络法实务圈时间：2024-05-07

我们注意到，在全球范围内，AI相关的立法似乎都正在对同一个问题给予关注并逐渐达成共识： 1.

我们注意到，在全球范围内，AI相关的立法似乎都正在对同一个问题给予关注并逐渐达成共识：
1.美国众议员提出了一项新的《生成式AI版权披露法案》（Generative AI Copyright Disclosure Act），若该法案通过，AI 公司将被要求披露受版权保护训练数据的使用情况，否则将面临经济上的处罚。
2.欧洲议会批准《人工智能法案》，第52C条要求按照规定模版披露生成式AI训练数据版权信息摘要并公之于众，即基础模型的供应商将被要求声明是否使用受版权保护的材料来训练AI。
3.全国网络安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》第5.2条中关于语料安全要求的规定中提到服务提供者应：“公开语料中涉及知识产权部分的摘要信息”。
这个现象很值得关注，为什么国内外的规则都在AI训练数据披露这个问题上如此趋同呢？
再看司法实践，国内基于大模型的已有判例分别是北互的文生图第一案和笔者代理的广互大模型平台责任第一案，这两个案件中，法院分别确认了人机结合生成作品的著作权，以及大模型平台生成知名IP近似内容的注意义务，这两个案件都具有里程碑的意义，也就是说中国司法在很大程度上已经接受了大模型AI深度介入人类文化艺术创作的事实，否则就没必要认定对应的成果和平台责任了。
国外的案件也正在增加，大模型发源地美国先是《纽约时报》提起针对openAI的数据训练侵权之诉，此后知名新闻机构The Intercept、Raw Story和AlterNet也对微软和OpenAI发起了类似的诉讼，而法国市场监管机构则直接针对谷歌开出了一张高达2.5亿欧元（折合人民币约19.7亿元）的巨额罚单，原因是谷歌在未经法国出版商和新闻机构同意的情况下，擅自使用其内容训练其旗下的聊天机器人“巴德”（Bard），这一行为被认定违反了欧盟知识产权的相关法规。很显然，欧美的司法也清晰的认识到了AI对人类创作行为的介入和影响程度，尽管美国的几个案件尚未判决，但已经足够说明AI在实现人类创作能力平权的同时，也对已有人类成果的作者和权利人造成了冲击。
仔细拆解，这种冲击主要来自于几个方面：
1.使用已有成果进行训练
我们知道，大模型的全称是预训练模型，也就是说模型只不过是一个算法，这个算法相当于一个人的大脑，具有自主学习能力（神经网络），但人出生之后都有大脑，但如果没有后天的学习仍然一无所知，大模型也是如此，给神经网络学习算法投喂数据进行训练是必须的，没有预训练，模型同样一无所知。
在训练过程中，投喂哪些数据以及数据的体量和质量都关系到大模型后续的性能表现。例如在自动驾驶领域，大模型需要大量的人类司机驾驶的数据进行训练，这些司机的驾驶经验越高，路况越复杂，数据量越大，大模型的自动化程度也越高，这也是为什么特斯拉能够实现纯视觉自动驾驶的原因。而训练用途一旦来到文化艺术领域，训练数据当然也就依赖这个领域里已有的作者所创作出的智力成果了，这些作者就相当于驾驶领域里的老司机，作品质量越高、数量越多，机器生成的内容就越满足作品要求和预设的效果。
从这个意义上，凡是用于文化艺术领域的AI大模型对于人类已有优质文学艺术作品数据的渴求是必然且强烈的。这个训练的过程非常像“拜师学艺”，自动驾驶模型拜人类司机为师，文化艺术模型拜人类作者为师。
2.将训练后的模型投入与已有成果类似或替代的用途
好的，有了第一步的训练，现在模型有了独立解决问题的能力了，开发者开始将其投入应用，这一应用，人类就开始体会到了冲击，尤其是很多训练好的模型就是用来跟老师们做同样的工作，自动驾驶模型就是替代人类司机开车的，新闻写作大模型就是用来写新闻的，绘画模型就是用来画画的，人类作者们尴尬的发现，这些智能体并非如此前的一些软件工具一样仅仅扮演辅助角色，而是大有取而代之的趋势。
在笔者代理的大模型平台责任首案中，原告作为奥特曼形象的权利人发现被告大模型平台可以接受用户的指令生成类似的形象，这种生成能力几乎是无限的，而且实时生成、可以定制、成本低廉。
如果我们把人类已有作品想像成一口深井里的水，这口满载人类智力成果的深井滋养着全社会的同时，也为挖井的作者们提供物质和精神双重回报，现在则出现了另一个智能种族，他们能够以近乎无限的能力向井里蓄水，一时间，那些打井的作者似乎不再重要了，但有一个问题是智能体打井的技术是从人类那里学会的，教会徒弟饿死师父的问题于是摆在了法律面前。
3.将训练后的模型投入与已有成果无直接关联的用途
我们会发现，已经有越来越多的大型AI平台对知名IP内容的生成需求停止响应或者限制响应，例如用户给出某个平台一个：“奥特曼”的提示词，可能该平台会反馈说这个需求存在侵权问题，无法反馈，或者给出一个跟奥特曼有较大差异的作品，并提示用户这个是“受奥特曼启发，在生动的宇宙背景下的未来英雄人物形象”。
理论上，大模型未来很有可能自主生成一个可以比肩奥特曼甚至比这些人类设计的英雄形象更加受用户欢迎的全新英雄形象，但问题是大模型是怎么掌握这个能力的呢？如果不把已有的英雄形象数据投喂进去，它恐怕连“英雄”这个概念都无法理解。
那一旦模型学会了，它画出来的形象击败了所有现在市面上的人类作品，同时又完全“独创”，请问这种情况下，对人类作者就没有冲击了吗，相比较第一种用于直接相关用途，这种非直接相关的用途也许冲击更大，因为这不是简单粗暴的替代，而是从创作水平上“击败”。
实际上，在第一种情形下，大模型处于训练阶段，人类很难感知到冲击，因为徒弟还在学习，只有到了第二和第三阶段，徒弟学成之后，影响方才显现。这个时候师父其实已经很难控制了，于是才是想到，当时你学习的时候也没跟我打招呼啊，更别提交学费了，美国这些传统媒体公司起诉AI使用其新闻作品进行训练的案例就是“师父”们在向“AI学生”讨要学费的证明。
要学费有没有依据呢，理论上应该是有的，但显然不是“师父-学生”这个简单比喻，而是来自经济学上的“一切有价值资源都应赋予权利”，师父们的智力成果是有价值的资源，法律需要赋予他们权利，至于这些资源使用的方式和权利属性，如果现有法律没规定，那就制定规定好了，解决新问题总是要回到旧法条真的是一件不可理喻的事情。
人类已有的智力成果就像是一个牧场，AI就像一头有一头的奶牛，都想来吃，但如果不给牧场主对草场的控制权，很快这片地就会荒芜，于是经济学上的“共地悲剧”即将上演。
当然，照技术现在的趋势发展下去，很快AI奶牛就可以自己建设牧场了（自己生产数据用于训练，笔者在参与起草团体标准《生成式人工智能数据应用合规指南》的过程中特别对这个部分提出了修改建议），但一方面不要低估了人类建设新牧场的能力，另一方面，即便人类牧场都变得毫无用处，也不能否认第一代AI奶牛都在这里吃过草的事实。
各国开始制定规则，要求大模型预训练需要披露使用的人类知识产权数据，说白了，就是要知道一件事——谁家的奶牛吃了我的草。如果没有这个知情权作为前提性的保障，牧场主想要维权的可行性是大大降低的，笔者代理的AIGC平台责任案中，如果我们主张数据训练侵权（实际诉讼中我们撤回了这个诉请），恐怕也更多的要依赖法院通过举证责任分配给平台来解决这个问题，而在纽约时报诉openAI的案件中，媒体报道显示，纽约时报找到了很多AI生成的内容跟其以往的新闻高度雷同，但这种情况也同样是需要举证责任倒置给平台的，更何况，随着AI学习越来越智能化，很多时候权利人已经无法在维权之初就能够确定其智力成果被用于训练了，所以知情权的重要性才凸显出来，可以说各国目前的规则制定者正是看到了这一点吗，才有了关于数据训练知识产权语料信息的披露义务的共识。
继续从这个共识出发，我们也可以推论出来，立法者显然不准备单纯为了发展技术而置人类创作者的知识产权于不顾，他们的做法是把主动权交给权利人，当你知道了自己的成果被用来训练了，你选择维权还是无视都可以，但立法要做的是先让你知道。这个思路是正确的，我们常常听到不少人在呼吁“不发展就是最大的不安全”，以此来对立法上规定给AI开发者的义务提出质疑，实际上从经济学的角度，从来不存在单方面和单一维度的发展，“可持续发展”、“在博弈中合作共赢”才是真正意义上的发展，从目前的情况来，各国的立法者显然对此有深刻的认识。