AIGC行业必看，了解行业发展实践中的法律合规问题！

作者：江翔宇李鹏来源：iLaw合规时间：2024-01-09

编者按：人工智能技术的飞速发展带来重大变革，产生了许多与之相关的法律合规问题。人工智能应用和大模型之间存在密切的关系，大模型的预训练需要大量文本数据，需要确保数据来源的合法性和合规性。

编者按：
人工智能技术的飞速发展带来重大变革，产生了许多与之相关的法律合规问题。人工智能应用和大模型之间存在密切的关系，大模型的预训练需要大量文本数据，需要确保数据来源的合法性和合规性。而在使用预训练模型进行文本生成、翻译等任务时，需遵守相关的法律法规和伦理规范，避免生成不合法、不道德或具有歧视性的内容。企业在利用大模型对外提供服务时，需要充分考虑相关的法律合规问题，并采取有效的措施加以解决，以确保服务的合法性和合规性。为此，本文旨在深入分析AIGC行业发展实践与痛点，对大模型训练的合规基石与应用的落地保障措施，并对人工智能生成物是否应受著作权保护展开法律探讨。
一、聚焦现状，AIGC行业发展实践与痛点分析
01、大模型开发应用流程与业态发展现状
大模型全称为大型语言模型（LLM，Large Language Model），其中“大”主要指模型结构容量大，结构中的参数多，用于预训练大模型的数据量大。大模型开发应用流程主要分为训练与推理两部分，训练是指经过对大量语料（又称为数据）的分拣、过滤与高质量的提取，通过深度学习与无监督学习的训练方法，“生成”大模型的过程；推理则是指基于训练所得参数，依据概率并结合此前训练内容进行计算，最终得出答案的过程。
当前国内大模型发展速度同国际大模型发展进度保持同步提升的趋势，且国内大模型发展质量获得明显提升。应用领域方面，金融与医疗领域作为先行者，已经推行大范围生成式人工智能的应用尝试；此外，多模态应用，如人生图、图生图、营销方案生成等领域已呈现大范围应用态势，且取得较好回报。但由于生成式人工智能使用方法以及基础模型能力有待进一步优化与提升，国内众多领域尚处于内部开发应用尝试阶段，并未实现面向全社会大范围使用。
02、《生成式人工智能服务管理暂行办法》对大模型行业的影响
2023年7月13日，国家网信办联合国家发展改革委等七部门公布《生成式人工智能服务管理暂行办法》（以下简称“办法”），规定自2023年8月15日起施行，旨在促进生成式人工智能健康发展和规范应用。
《办法》的施行对于大模型行业带来了重大影响：首先，其从数据源头对于生成式人工智能开发与应用开展规制，提升了相关企业的数据使用与整体研发过程的合规性，减少因数据或模型的知识产权界定不明晰而带来的合规风险问题的发生。其次，进一步细化规范生成式人工智能企业合规义务，如明确要求企业向公众提供人工智能大模型服务应履行算法备案和安全审计等义务，提升企业大数据模型质量的同时能够充分保障数据安全。
03、对《生成式人工智能服务管理暂行办法》的理解
《办法》第二条规定，利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务（统称生成式人工智能服务），适用本办法；国家对利用生成式人工智能服务从事新闻出版、影视制作、文艺创作等活动另有规定的，从其规定。行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等研发、应用生成式人工智能技术，未向境内公众提供生成式人工智能服务的，不适用本办法的规定。
也即，《办法》的第二条明确了适用范围的一般性判断标准及例外情形。其中，一般性判断标准由“境内”“公众”“提供生成式人工智能技术服务”构成：境内，即中华人民共和国境内，且境外服务提供者向境内提供服务的，亦受《办法》的规制；公众，即不特定多数主体，其既包括自然人，亦包括法人和非法人组织；提供生成式人工智能服务，即利用《办法》所规定的“生成式人工智能技术”对外提供服务。
此外，关于例外情形，首先是行业例外，即第二条第二款所规定的新闻出版等行业利用生成式人工智能提供服务的，优先适用专门规定；其次，第二条第三款将仅用于研发、应用而为向公众提供服务的情形予以排除，体现了国家鼓励相关技术研发的精神。
二、数据先行，大模型训练的合规基石
01、大模型预训练数据来源
大模型预训练数据的来源非常广泛，以下是一些常见的来源：
1.公开数据集：有许多公开可用的数据集，例如 ImageNet、COCO、OpenCV等，这些数据集包含了大量的图像、视频、音频、文本等数据，可以用于训练各种类型的模型。
2.互联网数据：互联网上有大量的文本、图像、视频等数据，可以通过爬虫等技术获取这些数据，并用于训练模型。
3.内部数据：许多公司和组织拥有自己的内部数据，例如客户数据、产品数据、销售数据等，这些数据可以用于训练模型。
4.合作伙伴数据：有些公司和组织与其他公司和组织合作，获取他们的数据用于训练模型。
5.第三方数据提供商：有许多第三方数据提供商提供各种类型的数据，例如人口统计数据、市场数据、地理数据等，可以用于训练模型。
预训练数据决定了大模型的质量。所以对预训练数据需要有一定的质量要求，有以下要求：
1.数据量：大模型需要大量的预训练数据来学习语言的统计规律和语义信息。通常来说，数据量越大，模型的性能越好。
2.数据质量：预训练数据的质量也非常重要。数据应该是准确、完整、一致的，并且应该覆盖各种不同的语言现象和语义场景。
3.数据多样性：预训练数据应该具有足够的多样性，以涵盖不同的语言领域、主题和风格。这有助于模型学习到更全面的语言知识和语义信息。
4.数据平衡性：预训练数据应该具有平衡性，即不同类型的数据应该在数量上相对平衡。这有助于避免模型对某些类型的数据过度拟合，从而提高模型的泛化能力。
5.数据新鲜度：预训练数据应该尽可能地新鲜，以反映当前的语言使用情况和趋势。这有助于模型更好地适应新的语言现象和语义场景。
大模型对预训练数据的要求是数据量足够大、质量高、多样性好、平衡性强、新鲜度高。这些要求有助于提高模型的性能和泛化能力。
02、模型预训练数据合规的审查要点
依据《办法》第七条、第八条规定，模型开发者/服务提供者应当依法开展大模型预训练、优化训练等训练数据处理活动，在对训练数据进行合规审查时，应重点关注以下内容：
（1）使用具有合法来源的数据和基础模型，当前数据获取方式通常包括公开采集（例如通过爬虫软件、RPA等技术手段采集）、直接采集（通过用户自主提供或通过设备采集）、间接采集（从数据提供者处以购买、数据共享等方式获得）、使用合成数据等。对此，需要重点关注模型开发者/服务提供者采集数据的行为及渠道是否合法合规。例如，以爬虫软件等技术手段采集数据的，需要遵守与被爬取网站的协议，不得破坏、绕过其设置的反爬取技术措施等。爬取的数据应当为公开数据，不得涉及个人信息数据、重要数据、敏感数据等，不得违反《反不正当竞争法》的相关规定。以购买或数据共享方式取得训练数据的，模型开发者/服务提供者需对相关数据的来源进行合理审查，避免该数据的上游取得方式违法，以至产生合规隐患。
（2）涉及知识产权的，不得侵害他人依法享有的知识产权，大模型的训练需要大量诸如文字、图片等数据的投入，这其中不乏受到著作权保护的作品。因而，在未经相关著作权人授权的情况下，以获取的公开数据为训练数据进行大模型的训练，可能会构成对相应著作权人享有著作权的侵犯。目前在美国，已经有多起针对OpenAI及其他大模型开发公司的版权侵权讼诉，创作者们认为大模型开发公司未经授权即使用其作品，侵犯了其享有的版权。对此，值得注意，大模型的训练并非我国《著作权法》所规定的“合理使用”的情形，故在将相关作品用于大模型训练时，应尽可能取得著作权人的授权，以避免不必要的纠纷。
（3）涉及个人信息的，虽然在目前实践中大模型的训练很少使用直接的个人信息（如单独的姓名、身份证号等），但亦存在此种可能。是故倘若训练数据涉及个人信息时，应当取得个人同意或者符合法律、行政法规规定的其他情形。
（4）采取有效措施提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性。虽相较于征求意见稿，《办法》已放宽了对训练数据质量的要求，但模型开发者/服务提供者仍不应忽视，其应当积极采取有效措施，并对此进行记录和留痕，以便在接受监管时，能够向相关部门证明其对于提高训练数据质量已经尽到了合理的义务。
（5）关于数据标注活动，《办法》第八条对其提出了明确的要求，因此，服务提供者/模型开发者在训练数据时应当制定标注规则、开展数据标注质量评估，并对标注人员进行必要的培训，否则可能存在合规风险。
03、基于违法数据所训练所得的大模型与参数能否继续使用
此问题需要视具体情况而定：
（1）若训练数据本身违法，例如使用了违反法律法规、公序良俗、国家利益、人类道德的训练数据，则大模型本身就有极高的生成违法内容的可能。当然亦有一种可能是大模型需要利用含有违法内容的数据来训练模型，以实现特定大模型可以识别“坏人”。对此，应当认为，除前述特殊情形外，在利用非法数据训练大模型的情况下，无论是大模型通过训练获得的参数，还是大模型本身，均不能继续使用。
（2）若数据来源违法，需具体情况具体分析：
a）若模型开发者/服务提供者以合法渠道获取违法来源的数据，但其数据服务提供者的数据系通过非法手段获取的，此时，应由服务提供者/模型开发者提供其已对相关训练数据来源进行合理审查的证明。在服务提供者/模型开发者确已对相关数据尽到合理审查义务的前提下，应当认可服务提供者/模型开发者通过对上述数据投入的实质性劳动与智慧，允许其继续使用基于来源不合法的训练数据所得到的大模型及相关参数。否则，则应要求其承担相应的责任，甚至不允许其继续使用基于前述训练数据训练的大模型及相关参数。
b）若模型开发者/服务提供者以非法方式或非法途径获取数据进行大模型的训练，其明显违反《办法》第七条“使用具有合法来源的数据和基础模型”的规定。在此情形下，服务提供者/模型开发者的主观恶意明显，不应允许其继续使用基于上述数据训练而获得的大模型及相关参数，其还可能将因其违法行为承担相应法律责任。
04、以境外开源通用大模型为底座的大模型训练合规问题
当前，国内仅有部分企业利用自有原始参数从事开源大模型训练工作，而更多企业选择基于境外或国内其他开源大模型的基础之上开展训练，其中以LLaMA开源大模型为底座进行训练的比例最高。
以境外开源通用大模型为底座进行大模型训练可能会带来诸多问题，主要表现为非本地化训练与跨境部署将导致数据适配度和数据安全问题：
首先，由于境外开源大模型以境外语料为数据基础，其整体文法、法律基础环境等与我国存在较大差别，所得结果将存在“语句不通顺”“合法性基础不同”等问题。而由训练的语料数据差异，于国内外训练的大模型可能会存在因价值观差异而导致最终结果不适用的情况发生。此外，受语言等客观因素的综合影响，相关数据具体落地准确度有所偏差。
其次，如果使用境外大模型底座，不进行本地化部署的话，则相当于在境外训练大模型。此时可能会导致大模型于境内数据在境外接触，产生数据出境的隐患，造成境内数据无序出境的法律风险。此外，因通过对大模型进行提问，再根据其回答反推大模型的训练数据及训练逻辑具有技术上的可能性，故将于国内训练的大模型部署于国外，亦存在数据出境的风险。因此，在涉及于国外训练大模型，或将国内训练的大模型部署于国外时，均宜进行安全评估，避免发生数据无序出境或数据泄露的情形。
05、算力外包场景合规问题
受美国芯片禁令的影响，当前我国生成式人工智能服务提供者面临着算力资源匮乏的挑战。为解决这一难题，部分企业选择于境内租赁算力资源，部分企业则选择于境外开展数据训练，相关过程使得数据外流风险进一步加剧。
依据《中华人民共和国数据安全法》《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》等相关规定，当前我国企业正陆续开展数据出境安全评估、标准合同以及认证等相关数据合规工作，若企业通过相关合规审核，再行开展境外数据训练将降低数据合规风险的发生概率。
境内租赁算力资源方面，签订租赁合同后，生成式人工智能服务提供者便于合同有效期内拥有相关服务器控制权，因而数据泄露风险较小。而数据训练服务商由于能够实际掌握相关数据，则可能发生数据泄露风险，为此生成式人工智能服务提供者应与数据训练服务商于合同中明确约定数据保障措施与违约责任等，以增强数据安全保障能力。
算力外包场景下若发生数据合规风险，一方面需通过各方主体约定，明确各方主体责任；另一方面更需通过技术安排，以根本性解决合规风险。
三、合规服务，大模型应用的落地保障
01、使用者数据安全保障措施
生成式人工智能服务提供者使用大模型对外提供服务的过程中会进一步获取相关数据，并以其为基础进一步优化大模型，循环往复，不断提升模型质量，此过程应采取措施确保大模型使用者的数据安全：
首先，生成式人工智能服务提供者应采取加密等方式保障用户输入过程的数据安全；
其次，进一步加强用户使用记录审计、用户体验计算等过程中的数据安全保障力度；
最后，在利用用户使用数据进一步优化大模型过程中加强相关数据保障措施，如增加防攻击、防泄漏工具等。
02、调用大模型接口提供服务企业的合规问题
《办法》第十七条规定，“具有舆论属性或者社会动员能力的生成式人工智能服务”需要进行算法备案等。基于此，可以认为，新规对生成式人工智能技术的规制逻辑在于，其是否会对“公众”产生不良影响。换言之，在企业本身并无违法目的的前提下，倘若生成式人工智能生成了错误的、违反公序良俗的甚至违法的内容，“公众”是否能够接触到该内容。也即，如果企业对该内容具有修改、删减、增加等的实际控制能力，在对生成式人工智能生成内容进行实质审查后，再以直接（将生成物原封不动的发给用户）或间接（由企业工作人员概括转述等）的方式交由用户，且此过程能够在一定程度上避免用户受错误内容的影响，则不应当认定相关企业为服务提供者，自然也就不受新规的规制。
因此，在企业为“传声筒”角色的情形下，企业名义上对外“提供生成式人工智能服务”，但企业实质上并不控制相关大模型，用户对企业发出使用需求后，企业以使用者身份向其可接触到的大模型发送相同的需求，在得到相关的生成内容后，企业在不对生成内容进行实质性审查的前提下，直接将此生成内容转达给用户。此时，倘若生成式人工智能生成了错误的内容，终端用户有接触到该内容的可能。根据前述的判断标准，应当将此时的“传声筒”企业认定为服务提供者，受《办法》的规制。
而在企业引入生成式人工智能辅助决策的情形下，例如，企业客服部门引入生成式人工智能技术，将其生成内容作为工作人员工作中回答客户问题的辅助与参考。此时，企业工作人员在面向“公众”提供服务时，并不会直接将生成式人工智能的生成内容转交（述）给用户，该内容仅为工作人员对外提供服务的辅助与参考，真正对外提供相关服务的仍为企业工作人员本人，其对表达的内容负责。换言之，即使生成式人工智能根据用户的情况提供了错误的生成内容，企业工作人员亦会对其进行甄别，在其能力范围内避免用户接触到错误的生成内容。在这种情形下，不应认定相关企业为服务提供者，即该企业不受《办法》的规制。
03、生成式人工智能服务提供者数据存储、利用合规义务
对于数据存储问题，《办法》第十一条规定，“提供者对使用者的输入信息和使用记录应当依法履行保护义务”，因此，服务提供者应当重视其信息安全保障义务，积极采取有效措施，避免用户数据泄露。
对于数据利用问题，《办法》未作明确规定，但《办法》与征求意见稿均规定了服务提供者对涉及使用者个人信息的输入信息和使用记录所应承担的义务，可以从二者的差异入手进行分析。
征求意见稿第十一条规定“提供者在提供服务过程中，对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息，不得根据用户输入信息和使用情况进行画像，不得向他人提供用户输入信息。法律法规另有规定的，从其规定”。以禁止性规定的形式对服务提供者作出要求，且没有规定除外条款，口径可谓非常严格。而《办法》第十一条的规定则在一定程度上放松了对服务提供者的限制，“提供者对使用者的输入信息和使用记录应当依法履行保护义务，不得收集非必要个人信息，不得非法留存能够识别使用者身份的输入信息和使用记录，不得非法向他人提供使用者的输入信息和使用记录”。为禁止性条款设置了“非必要”“非法”的前提，也即承认了服务提供者在合法情况下可以对此进行一定的收集、存储和利用。
基于此，可以认为，《办法》并未明确禁止服务提供者存储和利用使用者在使用过程中输入的信息及使用记录，而是认可了服务提供者利用该数据优化模型。但出于避免合规风险的考量，建议服务提供者应根据《办法》第九条“与使用者签订服务协议，明确双方权利义务”的规定，在服务协议中预先、明确取得使用者的授权，以增强其收集、存储、利用相关数据的合法合规性。
04、境内大模型对境外提供服务的风险
部署于我国境内的大模型在对境外提供生成式人工智能服务时构成数据出境，但基于相关法律规定，大模型训练数据不应包括个人信息、敏感信息等重要数据，故而通常不应当构成数据出境合规风险。但倘若直接将于国内训练的大模型部署于国外，则会涉及数据出境的法律风险。
但应注意，不宜将境内大模型直接部署于境外。因为在将大量数据用于大模型的训练后，相关大模型就会基于此特定数据环境而产生一定的推理能力，虽然大模型本身并不存储原始数据，但其推理、生成逻辑本身在一定程度上已经包含了离散的、概率的数据。此时，大模型出境，亦会产生数据出境的风险。
05、大模型应用侵权中的侵权责任认定
（1）在服务提供者大规模采集个人信息的情况下，应当根据《民法典》和《个人信息保护法》的规定承担过错推定的责任。
非法处理、泄露个人信息不同于其他的一般侵权，表现在：首先，从法律依据来看，此种侵权适用的是《民法典》关于个人信息侵权的规定。其次，非法处理、泄露个人信息所应当承担的侵害个人信息责任，应当是推定过错责任（《个人信息保护法》第69条）。过错推定也称过失推定，它是指行为人因过错侵害他人民事权益，依法应推定行为人具有过错，如果行为人不能证明自己没有过错的，则应当承担侵权责任。《个人信息保护法》第69条第1款规定：“处理个人信息侵害个人信息权益造成损害，个人信息处理者不能证明自己没有过错的，应当承担损害赔偿等侵权责任。”之所以采取此种归责原则，很大程度上是因为在实践中，受害人举证困难已经成为个人信息保护所面临的一大困境，采用过错推定原则有利于减轻受害人的举证负担，强化信息处理者的举证义务，从而对受害人提供有效的救济。
（2）对其他的侵权行为，仍然应当采取过错责任，这主要是因为《民法典》第1165条第1款确立的一般侵权责任，适用于一般侵权，如果在法律没有特别规定的情形下，原则上应当适用过错责任。生成式人工智能引发侵权形态（除了侵害个人信息权益）与一般侵权没有本质差异，理应适用过错责任。通过过错责任，在用户和服务提供者均有过错的情况下，可以利用过错进行分担，也有利于准确地认定各方主体的责任。
（3）对于在生成式AI产品的固有缺陷致人损害的情形下，采取何种归责原则，存在争议。一种观点认为，因为生成式AI产品的固有缺陷致人损害，就应当由产品的制造者承担责任，不考虑其是否存在过错，应当适用严格责任原则。另一种观点认为，仅仅因为生成式AI产品的固有缺陷致人损害，还难以确定服务提供者存在过错，必须考虑这种固有缺陷是如何产生的，是否是现有技术难以克服的障碍，服务提供者是否尽到了最大的努力。对此类情形，仍然应当采用过错责任。由于AI引发的损害往往由多方面原因导致，各方均应采取合理注意义务避免损害发生。因此，AI设计者、AI使用者都应当采取适当注意义务，否则就应承担责任。在欧盟《人工智能法案》规则中，将人工智能产品按照风险分为不可接受的、高风险的、有限风险的和最小风险四类，对于不可接受的风险禁止使用，对产品涉及高风险的运营商承担严格责任。
四、未来展望，AIGC著作权保护的法律探讨
01、AIGC是否构成作品
关于AIGC是否构成作品，国内外观点不一。
美国目前对此持否定态度，即不承认非人类主导的AIGC构成作品。2023年3月16日，美国版权局发布《版权登记指南：包含人工智能生成材料的作品》，其中指出：版权只能保护人类创造力的产物——宪法和版权法中使用的“作者”一词不包括非人类。科技工具可以是创作过程中的一部分，但作品表达的创造性必须是由人类控制的。如果只是AI技术根据人类的提示产生作品，则该作品缺乏人类作者身份，不受版权保护。
英国对此问题的态度较为开明，其承认没有人类创作者的情况下计算机生成作品系“著作权”保护的客体。英国《1988年版权、外观设计和专利法案》中规定：“computer-generated”（计算机生成物），是指在不存在任何人类作者的状况下，由计算机运作生成的作品。”“对于计算机生成的文字、戏剧、音乐或艺术作品而言，作者应是对该作品的创作进行必要安排的人”（“必要安排”的判断以“实质性贡献”为依据）。
欧盟对AIGC构成作品的判断标准与我国相类似，即在严格符合“《著作权法》”对作品的定义标准时，承认AIGC可以构成作品。2020年欧盟在一报告中提出判断AIGC是否构成作品的“四步测试法”，即四个相互关联的标准，来判断AIGC是否符合作品：Step1-文学、艺术、科学领域；step2-人类智力活动；step3-独创性；step4-表达。根据欧盟发布的“四步测试法”，AIGC能否符合“作品”资格，主要取决于是否满足第二步和第三步，即AIGC是否表达了人类的智力活动、是否具有独创性。
根据目前我国的司法实践，可以认为我国对于AIGC是否构成作品的问题亦持较为开放的态度。在（2023）京0491民初11279号一案中，北京互联网法院通过论证证明了案涉AIGC同时具备“属于文学、艺术和科学领域”、“具有独创性”、“具备智力成果的标准”、“具有一定的表现形式”四个要件，故认为其构成作品。
02、AIGC著作权主体
关于AIGC著作权主体的认定，首先需要明确，现阶段大模型不能作为AIGC著作权的主体，其权利主体只能为服务提供者/模型开发者或使用者。
对此，我们认为，从各方主体利益平衡的视角出发，AIGC权属判断的一般性标准可做如下确认：
首先，在确定AIGC的权属时，应先明确服务提供者与使用者之间是否就此存在明确约定，如有，则在相关约定有效的前提下遵循双方之间的约定。
其次，在没有提前约定的情况下，应判断AIGC能否构成著作权中作品。如果能够构成作品的，则可以根据服务提供者与使用者对相关内容生成的贡献程度大小确定著作权权利主体。在双方贡献的创造性智力劳动的大小难以比较时，可以考虑将著作权归属于使用者。因为服务提供者在提供服务时往往会收取一定的费用，其在实际上已经因提供生成式人工智能服务而获利，此时，将著作权归属于使用者的话，可以在一定程度上避免服务提供者“多重获利”的情况，平衡服务提供者与使用者之间的利益关系。
再次，在AIGC不构成作品的情况下，此时不再涉及著作权归属的判断，相应的AIGC应属于使用者“使用记录”的一部分。根据《暂行办法》第11条的规定，“提供者对使用者的输入信息和使用记录应当依法履行保护义务，不得收集非必要个人信息，不得非法留存能够识别使用者身份的输入信息和使用记录，不得非法向他人提供使用者的输入信息和使用记录”。据此，可以认为，服务提供者在利用AIGC时，应当获得使用者的授权，尤其不得非法使用能够识别使用者身份的使用记录。此时，若服务提供者在未获得授权的情况下利用生成内容，则会存在较大的侵权、合规风险。
五、对部分直播间问题的回答
01、大模型开发阶段，利用国外一些开源大模型进行测试比对，有什么风险？
其一，可能会涉及数据出境的问题。如前所述，在当前的技术手段下，存在通过问答反推大模型训练数据及训练逻辑的可能性。故倘若利用部署在国外的开源大模型进行测试、比对等工作，则有可能会产生数据无序出境、数据泄露的风险。因此，若要使用国外的开源大模型进行测试工作等，宜将其进行本地化部署，并采取相应的措施避免数据泄露的发生。
其二，利用开源大模型进行测试比对，可能会产生后续的权利纠纷。例如，部分国外的开源大模型虽为开源，但其同样事先声明，若利用此大模型为基础开发大模型并达到一定规模的，其会对使用者收取费用。因此，在使用国外开源大模型时，宜先行确认是否其所有者存在事先的权利主张等。
02、在利用AI进行内容创作的过程中，人机投入的占比会对著作权的认定带来影响吗？
会的。如前所述，在中国目前的司法实践下，人机投入的占比会直接影响相关AIGC能否被认定为作品。也即，如果人在AIGC生成的过程中投入很少，不能体现人的智力成果，则AIGC并不会被认定为作品，也就不存在著作权的归属。
03、AI图片商用的话，有没有著作权风险？
将AI生成的图片进行商用，若相关照片被认定为作品的话，则可能会产生相关的著作权风险。
在使用者在使用生成式人工智能过程中产生的图片进行商业的情况下，须明确服务提供者在用户协议中是否就AIGC的相关权利归属进行约定。例如，在（2023）京0491民初11279号案中，Stable Diffusion(原告使用的生成式人工智能软件)在用户协议中明确，其不会对使用者在使用过程中生成的图片主张任何权利。此时，使用者将AI图片进行商用，一般不会存在著作权风险。但应注意，根据《办法》第十二条，对于生成式人工智能生成的图片、视频等，应进行显著标识。
在第三人使用AI图片进行商用的情况下，若未取得使用者的授权，则有侵犯其著作权的风险。在（2023）京0491民初11279号案中，因被告未经原告授权即将原告的AI图片发布在其“百家号”文章中，还去掉了原告的水印，最终被北京互联网法院判决侵犯了原告就涉案图片享有的署名权和信息网络传播权（即著作权）。