生成式人工智能涉集体诉讼判例观察

作者：蔡硕边桐来源：金诚同达时间：2024-03-09

生成式人工智能产品（Artificial Intelligence Generated Content，简称AIGC），一般是指利用机器学习算法、自然语言处理等人工智能技术向用户提供生成文本、图片、音

生成式人工智能产品（Artificial Intelligence Generated Content，简称AIGC），一般是指利用机器学习算法、自然语言处理等人工智能技术向用户提供生成文本、图片、音频、视频等内容的服务产品。随着AIGC逐渐进入公共视野，其与既有数据安全、著作权等法律制度的摩擦和碰撞成为了各国的重要关切。
2023年12月27日，北京互联网法院发布了一起审结的人工智能生成图片相关的侵害作品署名权和信息网络传播权纠纷案件[1]，认可了使用者利用AI创作的图片受到著作权法的保护，具有作品属性。被告去除水印自行发布的行为构成侵犯创作者的署名权和信息网络传播权。原告主张AIGC并非“输入很基础的提示词就能生成作品”。法院认为，AIGC的本质仍是人类使用工具进行创作，使用者在过程中同样存在著作权法保护的智力投入。
2023年，有许多涉及AIGC的集体诉讼在美国提出，原告往往主张AI公司在数据训练中涉嫌侵犯版权、不当获取和使用个人信息、生成侵权作品等。我国企业在提供AIGC跨境服务时，不仅要考虑中国的法律和政策，也要考虑其他法域和辖区的监管规制，如何规避因侵犯众多不特定主体权益而引发集体诉讼值得深入思考。本文拟对2023年以来美国涉AIGC相关代表性案例进行梳理，提炼案例中双方和法院的主要思路，并结合近年来主要国家和地区的相关法律修订进行风险提示。
一、涉AIGC集体诉讼案件概览
2023年1月，艺术家莎拉·安德森（Sarah Andersen）、凯莉·麦克南（Kelly McKernan）和卡拉·奥尔蒂斯（Karla Ortiz）在加利福尼亚州向 Stability AI、Midjourney 和 DeviantArt提起版权侵权集体诉讼，声称AI公司的图片训练工具是使用“数十亿张受版权保护的图像”创建的，AI的图像产出则是特定原作品的侵权演绎作品。艺术家还指出，当他们的名字被用作提示时，AI甚至会生成与他们“无法区分”的作品。Kelly McKernan表示以他名字进行互联网搜索排名靠前的结果是用Midjourney制作的AIGC图像，“若不干预，则艺术家的未来严峻”。法官威廉·H·奥里克（William H. Orrick）驳回了大部分原告主张，但允许其修改和增加支持的证据。首先，尽管作品一经创作即自动获得版权，美国版权局仍然认为需要通过注册才能以涉嫌侵权提起诉讼，因此原告未经注册的作品不能以此受到保护。其次，即使受保护的图像作品被用于训练AI，那么也不能简单地认为AIGC就是原作品的演绎作品（derivative work），还必须证明生成的作品和原作品之间具有实质相似性。
2023年6月28日，公益律师事务所克拉克森（Clarkson）代理了一起针对 Open AI 及微软公司的集体诉讼，并向北加利福尼亚地区法院递交了起诉书。本案中，原告为十六人组成的团体，该团体声称Chat GPT使用从互联网上“窃取”的数据来训练其技术，此行为大规模侵犯了无数人的版权和隐私。原告在起诉书中主张，Chat GPT在用户不知情的情况下，获取了包括姓名、联系方式、登录凭证、账户和支付详情、交易记录、IP 地址、位置和社交媒体等在内的大量个人信息，并收集了用户的个人按键、搜索查询和聊天条目等详细数据。上述信息主要被集成Chat GPT 的应用程序截获，且用户没有删除被收集信息的机会。
类似的，2023年7月11日，八名匿名原告以Google公司训练AI（包括Bard）时不当抓取和使用个人数据和受保护的版权而在加利福尼亚州北区法院提起集体诉讼，主张Google复制并公开展示了这些材料，并通过Bard形成了演绎作品（derivative work）。[2]目前该案正在审理中。
同日，美国作家 Mona Awad和Paul Tremblay于北加利福尼亚地区法院以OpenAI为被告，在一项拟议的集体诉讼中主张ChatGPT侵犯了其根据《版权法》享有的专有权[3]。理由是ChatGPT使用大语言模型（Large Language Model，简称LLM）未经其同意"提取"其作品内容作为训练素材。在起诉书中，原告声称ChatGPT能够对Tremblay和Awad的作品做出极为准确和详尽的总结，表明AI在未经原告许可的情况下摘取并使用上述作品。此外，根据OpenAI在 2020 年 7 月介绍 GPT-3 的论文，训练数据集的15%来自于“基于互联网的两个数据库”。原告预计两个数据库合计包含35.7万个数目，而其中包含较多受版权法保护的作品。总而言之，“若OpenAI的语言模型必须从原告和其他人作品中提取并保留在其中表达的信息才能运行，那么OpenAI本身就是侵权演绎作品（derivative work）。未经原告许可制作，侵犯了其专有权利”。
同月，美国戏剧家兼作家Sarah Silverman、作家Christopher Golden以及作家Richard Kadrey 于北加利福尼亚地区法院分别以OpenAI和Meta为被告提出了两项拟议集体诉讼。[4]根据三位原告提交的证据，ChatGPT会在用户输入指令后对他们的书籍生成摘要，且从未提供任何版权管理信息。此外，原告声称在 Meta 公司用于训练 LLaMA 模型的数据集中可以找到他们的书籍，且相关书籍的来源并不合法。在上述诉讼中，原告不同意这些公司将其拥有版权的书籍用作人工智能模型的训练材料，并据此提出获得法定赔偿、归还利润等请求。
2024年2月13日，法院对Mona Awad（已于2023年8月退出），Paul Tremblay，Sarah Silverman的主张做出判决。针对原告提出的若干诉请，法官奥尔金（Olguin）驳回了替代性侵犯版权的索赔，理由是原告没有证明他们受版权保护的作品和ChatGPT的输出之间存在实质性相似，将AIGC简单看作是演绎侵权作品（infringing derivative work）是不充分的，此外原告关于不当得利和违反《数字千年版权法》（DMCA）的指控也被驳回。然而，OpenAI仍面临未经作者许可使用受版权保护书籍而违反不正当竞争法的指控。关于Open AI删除版权管理信息的指控，奥尔金法官指出原告未提供相关事实，而ChatGPT输出的摘要其中亦包括对作者名字的引用。类似的，Sarah Silverman关于LLaMA使用其受版权保护的作品而构成侵权的主张也被驳回，理由是其未能“证明直接侵权的门槛”。目前上述案件仍在进行中，奥尔金法官允许当事人在2024年3月13日前修改他们的起诉书。
2023年12月27日，《纽约时报》（New York Times）对Microsoft和Open AI提起诉讼，声称其受版权保护的作品被用于AI训练，AI会逐字背诵报纸内容，总结并模仿其风格，并输出“纽约时报的内容”（falsely attribute output to NYT）。该案件的特殊之处在于《纽约时报》是首家提起AIGC侵权诉讼的大型商业媒体，目前该案仍在进行中，被告未进行答辩。
二、涉AIGC集体诉讼主要请求和裁判观点归纳
2023年，在美国提起的与AIGC相关的集体诉讼超过12起。尽管目前大多数案件仍在审理中，已经披露的相关内容对我国企业出境提供AIGC服务具有重要的参考价值。本文现梳理涉AIGC集体诉讼中原告方主要的诉讼请求和被告方的答辩意见，以及法院目前提供的裁判观点，以供参考借鉴。[5]
1. 关于AI公司生成作品涉嫌侵犯原作品版权的争议
在许多案件中原告主张，被告未经其同意，在训练AI时复制了其受版权法保护的作品，并生成侵权演绎作品，或将原作品非法纳入AI输出的成果。对此，被告通常辩称原告无法证明在AI公司的产品侵犯了版权，因为被指称侵权的AIGC复制原作品部分的比例极低，有时甚至原告无法给出量化证明，无法证明受版权保护的作品和AI输出的作品具有实质相似性。不能仅因为AI公司将原作品用于机器训练，就认为产出的成果属于侵权复制品或者演绎作品，或者成果必然包括原作品的一部分。原告亦难以证明，具体是哪些受版权保护的作品被用于训练AI并输出。Deviant Art直接指出，图片生成器stable diffusion只是统计学模型，并不会从训练数据中“储存”受保护的表达，而其最终也不会输出和原作相似的内容。[6]此外，AI公司也指出，自己不应是此类诉讼的被告，因为“试图让开源图像生成器的开发者承担其产品（creation）所产生的责任是不合理的”。
对此，已有的法院观点支持被告方，认为不能仅因大数据训练就认为AI公司的产品是侵权演绎作品，需要证明原作品与之存在实质相似性。并且，原告还应证明其作品受到版权法保护。
2. 关于AI公司涉嫌不当获取和使用个人信息及其他受版权法保护信息的争议
在许多案例中，原告指控被告通过“影子图书馆”（如z-library）等非法方式获取和使用受版权法保护的作品以进行AI训练，或侵犯个人信息权益和隐私权。
考虑到使用原作品进行训练的目的是“创造竞争性替代品”，因此被告难以援引“转换性使用”来抗辩。被告通常进行如下抗辩：被告通过公开渠道获取个人信息和其他信息用以训练AI程序，是“对互联网的日常使用”[7]并不违法相关法律和约定，属于合理使用（fair use）的范畴。
根据美国《版权法》，合理使用有四个判断因素，分别是：使用目的和性质、被使用作品的性质、所用部分的数量和实质、对被使用作品潜在市场或价值的影响。被告针对性抗辩理由包括：
在第一个因素“使用目的和性质”项下，AI训练属于转换性使用，出于“合法”和“非剥削”目的“创建一个新的平台”，而非展示受保护的原作品表达。[8]AI训练使用原作品的目的和原告使用原作品的目的不同，是为了“教会神经网络人类语言是如何运作的”，这种目的超越了其商业性质。[9]在第三个因素“所用部分的数量或实质”上，被告则辩称使用全部内容进行机器学习是必须的。在第四个因素“使用对作品潜在市场或价值的影响”项下，被告辩称即使使用原作品需要许可，转换性使用的性质也足以抵消任何对市场的负面影响。更何况在大多数情况下AI公司并未对原作者的版权市场产生负面影响。在Concord Music Group, Inc. v. Anthropic PBC案中，被告指出“如果利用版权作品内容训练大语言模型需要许可的话，今天的通用人工智能工具将不会存在”。[10]
另外，被告也指出AI公司并未使用受到版权保护的信息，或者只是使用了材料中“事实和从书籍中提取的语法、结构和语言信息”，而不是版权法所保护的表达。而原告也针锋相对地指出“模型如果没有从原告的侵权作品中提取并保留受保护的表达就无法运行，因此语言模型本身就是侵权演绎作品”。[11]对于原告该观点，该案法官给予否定并称其为“不合理的”，因为其毫无事实根据。但是法官同时认可了原告关于AI公司未经授权复制原作品属于侵权行为的主张。
3. 关于AI公司涉嫌破坏版权管理信息、违约和不正当竞争的争议
在许多案例中，原告主张AI公司生成的作品故意修改、删除了原作品的版权管理信息（copyright management information，简称“CMI”），去除了相关水印。对此，被告往往辩称，原告无法证明其在模型训练期间存在破坏CMI的行为，而AI公司最终生成的作品也并非原作品的“副本”，因此未在其上标注CMI也不构成对相关法律的违反。
此外，许多作者认为，AI公司使用其作品进行机器学习，并生成能够与其竞争的，甚至与其风格相近的作品，违反了合约中隐含的诚实信用和公平竞争原则，对其产品的市场份额造成损坏。对此，AI公司则辩称，无论是契约还是法律都未以任何形式排除AI公司对原作者所可能产生的竞争效果。
三、AIGC相关立法现状及应对策略
AI公司需要依赖大量的数据来“培训”生成式人工智能模型，使其能够在接受外部指令时输出相应的文字、图片甚至是流畅的音视频。因此，类案诉讼中主要争点集中在训练数据和输出内容上。一方面，AI使用数据进行机器学习的过程是否侵犯原作者的著作权或者个人信息？是否属于合理使用的范畴？另一方面，AI输出的内容是否侵犯原作者的著作权？利用原作品进行机器学习，并输出相应内容的行为是否构成不正当竞争？目前，主要国家和地区并未对上述问题进行全面规制，当事人在诉讼中仍以既有的著作权法、商标法、反不正当竞争法、个人信息保护法等法律为基础。我国企业在跨境提供AIGC服务时，需要遵守各个国家和地区针对数据安全、知识产权、竞争法等领域的规制，下文将梳理其基本框架。
（一）版权保护相关法律规范简述
在现有的AIGC相关集体诉讼中，双方的主要争点集中在版权法相关内容，其中大部分诉讼都发生在美国加利福尼亚州。提起诉讼的原告方往往认为，AI公司以数据挖掘（data mining）使用其作品的行为侵犯了其对原作品的专有权利，例如复制权和信息网络传播权。AI公司生成的作品被视作原作品的侵权演绎作品。
1. 如何界定AI模型训练中的合理使用（fair use）
在美国版权法中，合理使用制度是AI公司用来抗辩原告请求的主要依据。一般来说，合理使用是指对受保护作品的有限的或者转换性（transformative）的使用，如果这种使用被看作是合理使用，则可以作为对版权侵权索赔的有效抗辩。
在涉AIGC集体诉讼的语境下，被告方往往认为他们属于转换性使用，因为基于原作品的机器学习和训练，所生成的内容不是对原作品的简单复制和删改，而被赋予了新的内涵和意义，增加了新的内容。这种使用具有新的目的或不同的性质，创作出新的信息、新的美学、新的认识和理解。[12]这种使用虽然是商业性质的，但是其所能带来的创新和技术进步更为重要。此外，这种使用并不会影响原作品的商业价值和市场价值，因为AI模型所带来的创新增长效应比替代效应更为明显。
前文述及，合理使用往往需要结合四个因素考量：（1）使用的目的和性质，包括是否具有商业性质或者是否为了非营利的教育目的；（2）享有版权的作品的性质；（3）与享有版权的作品整体相比所使用部分的数量和实质性；（4）使用对享有版权的作品的潜在市场或价值的影响。从第二个和第三个因素看，上述抗辩或许需要进一步完善。毕竟AI训练通常是将材料完整地投入，同时有不少训练材料本身具有很强的独创性，例如绘画、音乐、小说等。合理使用的判断标准是开放的，四个要素的权重和结构也较为灵活，因此AIGC公司在诉讼中侧重援引第一个和第四个要素进行抗辩。
中国《著作权法》第24条也规定了13种“可以不经著作权人许可，不向其支付报酬”的合理使用情形，其中“为个人学习、研究或者欣赏，使用他人已经发表的作品”和“为介绍、评论某一作品或者说明某一问题，在作品中适当引用他人已经发表的作品”。然而，人工智能系统并非自然人，控制系统的主体可能是特定企业的员工或科研人员，并非单个自然人，商用模型“挖掘”作品的行为难言符合“学习、研究、欣赏”目的。而人工智能生成内容也很难完全看作是“介绍、评论”，因其产出的类型广泛。在目前的集体诉讼判例中，AI公司也往往认为他们的产出内容并非基于原作品，原作品只是他们训练模型参数的工具。由于我国合理使用制度相对封闭，AIGC所涉合理使用的相关解释和适用有待未来理论和实践的发展。
此外，欧洲议会于2019年3月通过了《数字化单一市场版权指令》（Directive on Copyright in the Digital Singles Market），对文本和数据挖掘（text and data mining，简称“TDM”）引入了新的例外规定，包括强制性的例外和可选的例外。其中，研究组织（非商业或公共机构和文化遗产机构）可以复制其合法获取的材料，以便于科学研究为目的进行文本和数据挖掘。这类合理使用的规定无疑为人工智能的发展拓宽了道路。
2. 如何识别AI生成内容的作品属性
在众多庭询中，原告往往主张AIGC是原作品的侵权演绎作品。具体而言，AIGC涉及的版权问题包括但不限于如下方面：生成内容的作品属性、生成内容的版权归属、生成内容与原作品的关系。
在生成内容是否属于作品的问题上，各国法律多未直接做出规定。根据我国《著作权法》，作品应当具备文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果，且作者范围限定在公民、法人、其他组织。承前文，北京互联网法院在（2023）京0491民初11279号中认可了AI系统使用者的智力投入和产出的独创性。此外，深圳南山区法院在（2019）粤0305民初14010号中认可由Dreamwriter软件自动撰写的文章可以认定为作品，因为“Dreamwriter软件的运行取决于原告的选择……表现形式是由原告主创团队相关人员个性化的安排与选择所决定的”，具有一定的独创性。
相较于中国法院判例对AIGC作品性质的宽松认定，美国版权局于2023年3月16日发布的《版权登记指南：包含人工智能生成材料的作品》态度更为谨慎。“如果作者身份的传统要素由机器来产生，那么这个作品缺乏人类作者，版权局将不会受理此登记”，因为“当人工智能确定其输出的表达元素时，生成的材料不是人类作者的产物”。[13]不过，适用人工智能并不意味着产品不可能是作品，这取决于“对作品表达的创造性控制和实际形成了作者身份的传统要素”的程度。总而言之，美国版权局原则上不承认人工智能生成材料的独创性，不认为其体现了使用者或者指令发出者的智力投入，AIGC只能成为作品的一部分，而不是作品本身。
3. AI生成内容的版权归属和侵权规制
各国多未对AI生成内容的版权归属做出单行规定，仍在既有的法律框架内判断。根据美国《版权法》规定版权归属于“最初的作者或者作品的作者”。一方面，AI程序的设计者和用户（即指令发出者）都可能主张自己对作品的版权，另一方面，AI程序也可能通过用户协议来安排权利。前述北京互联网法院（2023）京0491民初11279号和深圳南山区法院（2019）粤0305民初14010号判例认为AI程序的用户是进行智力投入的作者。
在集体诉讼中，原告往往主张AI公司生成的内容是侵权演绎作品。根据美国《版权法》及相关判例，侵权认定多取决于人工智能是否同时（1）能够访问原作品（2）创建了“实质性相似”的输出。中国《著作权法》也在法律条文和司法实践中逐渐形成了“接触+实质性相似”的原则。在集体诉讼案例中，双方的焦点主要集中在“实质性相似”的判断上。在认定侵权后，承担责任的主体不仅包括用户或者使用者，还可能包括人工智能公司。即使用户对侵权负有直接责任，人工智能公司也可能面临“替代侵权”责任，该原则适用于“有权利和能力监督侵权活动”和“在此类活动中具有直接经济利益”的主体。
（二）个人信息保护、数据安全和监管相关规范简述
AI公司在进行机器学习和模型训练的过程中涉及使用和处理互联网上的个人信息和相关数据，需要遵守各个国家和地区的相关法律规范。
2018年，欧盟通过《通用数据保护条例》（General Data Protection Regulation, “GDPR”），在世界范围内对数据保护领域产生重要影响。根据GDPR中的相关条款，以下两类情形需要我国企业给予合规关注。第一，AIGC数据控制者或处理者在欧盟境内设立分支机构，此时无论数据处理行为是否发生在欧盟境内，数据控制者和处理者都受到GDPR的约束。第二，AIGC数据控制者或处理者未在欧盟境内设立分支机构，此时只要相关主体向欧盟境内的数据主体提供商品或服务，或监控欧盟境内数据主体的行为，仍受到GDPR的约束。
作为联邦制国家，美国对个人信息和数据保护的规范分散在不同州、不同行业、不同领域的相关立法当中。以加利福尼亚州为例，作为全美第五大经济体，加州是出海美国的互联网企业的重要市场。2018年，《加州消费者隐私法案》（California Consumer Privacy Act ，简称“CCPA”）出台。该法案是美国首部关于数据隐私的全面立法，旨在对加州消费者个人信息安全提供保护。2020年11月3日，加州通过《加州隐私权法案》（The California Privacy Rights Act，简称“CPRA”），对CCPA法案进行了修正，进一步细化了消费者权利和企业、服务提供商的义务，与其他法案共同构成该州数据保护规则体系。
近年来，我国也在数据安全和个人信息保护方面出台了较多法律法规。《网络安全法》、《数据安全法》、《个人信息保护法》相继生效，共同搭建起了我国数据安全制度的框架。我国于2023年出台的《生成式人工智能服务管理暂行办法》第11条从使用者个人信息保护的角度做出规定：“提供者对使用者的输入信息和使用记录应当依法履行保护义务，不得收集非必要个人信息，不得非法留存能够识别使用者身份的输入信息和使用记录，不得非法向他人提供使用者的输入信息和使用记录。”。
我国企业在跨境提供AIGC服务时，应注意不同国家和地区对个人信息的不同界定和规范，例如GDPR中的特殊个人数据和我国《个人信息保护法》中的敏感个人信息在处理和收集上均有特殊要求。AIGC公司应保障用户的知情权和删除、更正以及在不同平台之间进行“携带”等相关权利。
特别提示，2023年12月，欧盟理事会轮值主席国和欧洲议会谈判代表就人工智能统一规则的提案达成了临时协议，即《人工智能法案》（Artificial Intelligence Act），旨在确保投放欧洲市场并在欧盟使用的人工智能系统的安全性，并尊重基本权利和欧盟价值观，侧重对人工智能的监管。[14]例如，该协议禁止了某些“不可接受的”高风险人工智能进入欧盟，包括从互联网或闭路电视中无针对性获取面部图像、工作场所和教育机构的情绪识别、社会评分（social scoring）、用于推断敏感信息（如性取向和宗教）的生物特征分类等。以管窥豹，欧盟对人工智能或可引发的社会性风险高度警惕。
后记：集体诉讼是美国民事诉讼法中非常重要但也富有争议的法律制度，被称为美国“二十世纪程序法最重要的发展之一”。集体诉讼的法律依据主要是《联邦民事诉讼规则》第23条，当诉讼当事人众多并面临共同的诉讼事项时，可由集体诉讼代表代表集体成员参与诉讼，集体诉讼判决结果将约束集体成员。一般来讲，不论是集体诉讼还是大规模侵权案件，案件审理程序相对复杂。例如，作者团队参与处理的某产品责任美国集体诉讼中，涉及到的程序事项包括不限于证据开示程序、因果关系程序、集体诉讼认定程序等，更涉及数十个州法律之间相协调适用的问题。此外，美国集体诉讼的设立在某种程度上有利于原告当事人在成本可控且方便快捷的情况下加入诉讼，而被告则可能会面临较大的成本及应诉压力。也正是由于该项法律制度的特殊性及复杂性，建议相关企业在面临美国集体诉讼程序时，宜尽早聘请专业人士介入以审慎应对。
感谢实习生林逸之、刘宇峰对本文的贡献！
[1]（2023）京0491民初11279号
[2] https://www.bakerlaw.com/leovy-v-google/，最后访问时间，2024年2月27日。
[3] https://www.latimes.com/entertainment-arts/books/story/2023-07-01/mona-awad-paul-tremblay-sue-openai-claiming-copyright-infringement-chatgpt，最后访问时间，2024年2月27日。
[4] https://www.theverge.com/2023/7/9/23788741/sarah-silverman-openai-meta-chatgpt-llama-copyright-infringement-chatbots-artificial-intelligence-ai，最后访问时间，2024年2月27日。
[5] https://www.bakerlaw.com/services/artificial-intelligence-ai/case-tracker-artificial-intelligence-copyrights-and-class-actions/，最后访问时间，2024年2月27日。
[6] https://www.bakerlaw.com/andersen-v-stability-ai/，最后访问时间，2024年2月27日。
[7] https://www.bakerlaw.com/leovy-v-google/，最后访问时间，2024年2月27日。
[8] https://www.bakerlaw.com/andersen-v-stability-ai/，最后访问时间，2024年2月27日。
[9] https://www.bakerlaw.com/concord-music-group-inc-v-anthropic-pbc/，最后访问时间，2024年2月27日。
[10] https://www.bakerlaw.com/concord-music-group-inc-v-anthropic-pbc/，最后访问时间，2024年2月27日。
[11] https://www.bakerlaw.com/kadrey-v-meta/，最后访问时间，2024年2月27日
[12] 王清：《著作权限制制度比较研究》，第193页。
[13] https://www.copyright.gov/ai/aipolicyguidance.pdf，最后访问时间，2024年2月27日。
[14] https://www.consilium.europa.eu/en/press/press-releases/2023/12/09/artificial-intelligence-act-council-and-parliament-strike-a-deal-on-the-first-worldwide-rules-for-ai/，最后访问时间，2024年2月27日。