AI数据训练合理使用边界与司法实践新趋势

作者：高锖来源：兰迪律师时间：2026-02-06

生成式人工智能的浪潮正以前所未有的力量冲击着传统版权制度的堤坝。其核心燃料——海量的训练数据，大多来源于受版权保护的人类作品。

生成式人工智能的浪潮正以前所未有的力量冲击着传统版权制度的堤坝。其核心燃料——海量的训练数据，大多来源于受版权保护的人类作品。这些作品被复制、转化为算法的参数，最终孕育出能够创作文本、图像、音乐和视频的模型。这一过程引发了一个根本性的法律拷问：机器的“学习”行为，能否像人类的学习一样，享受版权法中的“合理使用”豁免？全球的立法者与政策制定者正在这片崭新的法律疆域中艰难探索，答案远未统一，但一场深刻的制度调适已然开启。
一、全球司法图景：趋严的监管与微妙的平衡
纵观近年来的全球司法实践，一个清晰的趋势正在浮现：单纯以“技术中立”或“研究目的”为由主张对训练数据的完全豁免，空间正日益缩小。法院的审查焦点，正从使用行为本身，延伸至其商业背景、转换性质，尤其是对原始作品潜在市场的深远影响。
在欧洲，2025年德国慕尼黑地方法院对GEMA诉OpenAI一案的判决具有里程碑意义。法院并未全盘否定欧盟《数字单一市场版权指令》中为“文本与数据挖掘”设立的例外条款，而是进行了一次精密的“手术刀式”切割。判决创造性地将训练过程区分为“临时性复制”与“永久性记忆化存储”两个阶段，并明确指出，法律例外仅覆盖为分析做准备的临时复制行为。一旦受保护内容被永久内化于模型之中，并能在商业化输出中被稳定唤起或再现，便构成对作品核心利用方式的侵占，脱离了合理使用的范畴。这一“阶段论”分析，彻底打破了将整个训练过程视为一个整体并寻求豁免的幻想，为AI公司设置了明确的行为红线，即你可以用数据“训练”模型，但不能让模型“记住”并“复述”作品。
这种对“输出结果”的严格关切，在日本得到了强有力的呼应。日本是拥有强大动漫、游戏等数字内容产业的国家，其政策转向极具代表性。尽管日本《著作权法》早于2018年便引入了宽松的“非享受性使用”例外，为AI训练打开了方便之门，但2024至2025年间，日本文化厅与内阁府的一系列强硬表态，标志着监管重心的急剧转移。政府明确警告，任何模型若在训练与输出中触及日本动漫等核心版权内容，一旦产生“实质相似”的替代性产物，将面临严厉处罚乃至全球下架。其核心逻辑与德国判决异曲同工：前端的数据使用或许可以宽容，但后端的市场替代绝不能容忍。日本政府甚至直接点名跨国AI巨头OpenAI，要求其承诺不使用本国标志性文化元素进行训练，这已超越了单纯的法律争议，上升至文化产业战略安全的层面。
在美国，合理使用原则这一传统的“弹性安全阀”也正在收紧。早年如“谷歌图书”案所确立的、对大规模数字化转换性使用的宽容态度，在AI训练场景下正面临严峻挑战。近期一系列诉讼显示，法院越来越倾向于审视AI公司使用行为的商业属性，以及其对原作授权市场的潜在侵蚀。在Thomson Reuters诉ROSS Intelligence等案件中，法官明确指出，当使用行为缺乏足够的“转换性”（即未赋予原作新的表达、意义或功能），且直接与原作的潜在商业许可市场形成竞争时，合理使用抗辩将难以成立。这标志着美国的司法天平，正从鼓励技术创新的“转换性”标准，向保护权利人经济利益的“市场影响”标准微妙地滑动。
而中国的司法实践，则在现有法律框架下展现出务实的“分层治理”智慧。在杭州互联网法院审理的“奥特曼”图片侵权等案例中〔（2024）浙0192民初1587号〕，法院倾向于区分不同的责任主体和行为环节：对于仅提供技术工具的平台，若未直接参与侵权内容的生成与传播，可能不构成直接侵权；但对于利用受保护作品进行针对性训练并直接用于商业输出的用户或开发者，则可能被认定为侵权。在“美杜莎案”中，上海金山法院明确，以商业使用为目的，在训练及输出阶段“再现”在先作品核心表达，构成著作权侵权。该案首次将训练行为与后续输出进行整体评价，强调“商业目的”与“表达再现”是侵权认定的关键。这种“抓末端、溯源头”的思路，与德国、日本聚焦输出结果和市场竞争的逻辑内在相通，都体现了在技术复杂性与法律确定性之间寻求平衡的努力。
二、合理使用制度的深层困境：当传统法理遭遇技术黑箱
当前全球性的司法分歧与政策摇摆，其根源在于传统版权合理使用制度在应对AI数据训练时，遭遇了多重难以调和的深层困境。
首当其冲的是法律滞后性与技术复杂性的尖锐矛盾。合理使用制度诞生于模拟技术时代，其预设的使用场景是人类的阅读、引用、评论和教学。然而，AI训练是一种机器的、非展示性的、旨在提取抽象模式和统计规律的过程性使用。将“个人学习研究”或“评论”等既有条款套用于此，无异于方枘圆凿。封闭的列举式立法（如中国）面临无法涵盖新场景的尴尬；而开放的原则性规定（如美国四要素标准），则在面对算法的“黑箱”时，因难以精确评估“使用比例”“转换性程度”和“市场影响”而陷入解释的丛林。
其次，“商业与非商业”的简单二分法已然失灵。AI研发主要由商业公司驱动，但其产出可能带来巨大的社会公益（如医疗研究、气候模拟）。一概以“商业目的”否定合理使用，可能窒息创新；而完全忽视其商业属性，又会严重损害创作激励。问题的关键不再仅仅是“谁在用”或“是否营利”，而在于“如何使用”以及“产生了何种影响”。这要求法律进行更精细的场景化分析。
最为根本的冲突，在于版权法的核心宗旨与AI发展的内在需求之间存在结构性张力。版权法通过授予创作者有限的垄断权来激励创作，其基石是保护人类的独创性表达。而现代AI，尤其是大模型，其进步高度依赖于对全人类现有知识成果（多以版权作品形式存在）的广泛吸收。过度严格地限制训练数据获取，无异于在AI创新的源头筑起高坝；但完全放任，又可能瓦解版权激励的根基，导致“无源之水”的困局。这正是全球政策制定者面临的“激励悖论”。
三、迈向动态平衡：重构治理框架的多元路径
破解上述困境，无法依靠单一的法律条款或判决，而需要一个融合立法、技术、产业与国际协作的综合性治理框架。
在立法层面，亟需推动合理使用制度的现代化。这并非抛弃现有原则，而是对其进行面向数字时代的“扩容”与“细化”。例如，可考虑引入针对“非展示性文本与数据挖掘”的专门例外条款，同时设置必要的安全阀，如要求使用者必须是合法获取数据、尊重权利人的“选择退出”声明（需兼顾可行性），并将豁免严格限定于训练过程本身，明确排除对受保护表达的“记忆化”存储与直接输出。立法还应探索建立法定许可或强制集体管理机制，针对海量、碎片化的作品使用场景，通过法律规定一个公平合理的付酬标准与通行渠道，大幅降低一对一授权的天量交易成本，这或许是平衡效率与公平的可行之道。
技术本身应当成为解决方案的一部分。推动技术合规（Compliance by Design）至关重要。这包括：强制或鼓励AI开发者提高训练数据来源的透明度，发布详细的数据构成摘要；投资研发更先进的版权内容过滤与识别技术，将其嵌入数据收集和预处理流程，从源头减少侵权内容输入；甚至在算法层面探索“不记忆”或“可遗忘”机制的设计，使模型学会风格与规律，而非精确复现特定表达。
产业生态需要共建。建立高效、标准的数据授权与交易市场，发展适应AI需求的版权集体管理新模式，能为合规训练提供清晰的路径。同时，大力推动开放数据倡议，鼓励机构与个人在开放许可协议下共享数据，构建优质的公共训练资源池，是从供给侧缓解版权矛盾的长远之策。
最后，鉴于AI研发与应用的全球性，国际协调不可或缺。各国迥异的监管路径为跨国企业带来了巨大的合规不确定性与风险。通过世界知识产权组织等平台，就AI训练数据使用的基本规则（如透明度最低标准、非商业研究例外）展开对话并寻求最小共识，制定软法性质的指导原则，对于避免全球数字市场的割裂、促进负责任创新至关重要。
结语
AI数据训练引发的版权争议，绝非一个可以简单判定“是”或“否”的技术法律问题。它是一场在技术创新、创作激励、文化产业安全与全球竞争等多重维度下的复杂博弈。全球司法与政策的最新动向表明，一个以“输出结果管控”和“市场影响评估”为核心的新监管范式正在形成。法律不会，也不应阻止机器的学习，但它必须确保这种学习不会最终侵蚀人类创作得以生生不息的土壤。未来之路，在于摒弃非此即彼的思维，通过灵活而精细的制度设计、负责任的技术伦理与广泛的产业合作，在动态的平衡中，驾驭这场智能革命，使其真正服务于人类文化与知识的整体进步。