法国CNIL基于合法利益训练AI系统指南（附网络爬虫场景说明）

作者：朱玲凤来源：那一片数据星辰时间：2025-06-21

写在前面的话关于AI训练数据的合法性基础，从案例到指南，喋喋不休吵了一年，大家有兴趣的话可以订阅我公众号里AI和数据保护专题。

写在前面的话
关于AI训练数据的合法性基础，从案例到指南，喋喋不休吵了一年，大家有兴趣的话可以订阅我公众号里AI和数据保护专题。
法国CNIL在出具AI指南方面非常勤勉的，在2024年发布了八个指南（本公众号均进行了全文翻译，一键直达），在今年巴黎AI行动峰会上发布了两个指南（本公众号全文翻译一键直达）。
在2024年12月，EDPB关于AI使用合法性基础训练AI出具了指南（本公众号一键直达），在指南中给出了判断逻辑，并要求各数据保护机构个案分析，法国CNIL此次关于合法利益的指南正是基于此背景所发布的。
法国国家信息与自由委员会发布关于基于合法利益开发AI系统的指南
2025年6月19日
在经过一次公开咨询后，法国国家信息与自由委员会（CNIL）发布了关于人工智能系统开发的新建议。这些建议明确了在何种条件下可以依赖合法利益，特别是在数据抓取（网络爬虫）的情况下。
GDPR助力创新且尊重个人数据的人工智能
意识到需要澄清法律框架，CNIL通过其所有行动，致力于为人工智能创新提供法律保障，同时确保尊重欧洲人的基本权利。
自2023年5月启动人工智能行动计划以来，CNIL已通过一系列建议来支持人工智能系统的发展，为企业提供法律确定性。在法律框架明确的情况下，《通用数据保护条例》（GDPR）成为人们信任的基石。
CNIL已经发布了多份指南，帮助相关方：
确定适用的法律；
定义目的；
确定数据控制者和数据处理者的法律地位；
确定合法性基础；
在数据再利用时进行测试和验证；
在必要时进行数据保护影响评估；
在系统设计阶段考虑数据保护；
在数据收集和管理中考虑数据保护；
通知个人；
保障并便利个人权利的行使。
CNIL发布新指南
与利益相关者协商
CNIL今天发布了两项新指南，这些指南是在公开咨询后制定的，旨在确保人工智能系统的开发保护个人数据。利益相关者（企业、研究人员、学者、协会、法律和技术顾问、工会、行业联合会等）在此期间表达意见，使CNIL能够提出更贴近他们的问题和人工智能实际使用情况的建议。
合法利益：在满足条件下可作为法律依据
继2024年12月欧盟数据保护委员会（EDPB）通过的意见之后，CNIL认为人工智能系统的开发并不一定需要用户的同意。合法利益可以作为人工智能系统开发的合法性基础，但需采取强有力的保障措施：
在这些指南中，CNIL帮助相关方评估在何种情况下可以使用这一合法性基础，提供了进行分析的标准，包括网络数据抓取的特定情况。它还提出了适用于不同类型人工智能系统的具体保障措施：排除某些数据的收集、增加透明度、便于个人权利的行使等。
这些指南提供了基于合法利益进行数据处理的具体示例。例如，将对话式人工智能中与用户的对话用于人工智能模型改进，可以在采取某些强有力的保障措施后基于合法利益进行：通知个人、提供可选择的反对权、将处理限制在某些经过匿名化/假名化的数据上等。
下一步计划
在未来几个月内，CNIL将继续致力于确保GDPR在人工智能领域得到全面且务实的实施，并发布更多指南。它将很快发布关于人工智能模型在GDPR下的地位、人工智能系统开发的安全性以及数据标注的指南。它还将在此时宣布未来的工作计划。
此外，CNIL继续在EDPB内开展工作，研究GDPR与欧盟人工智能法（AI Act）之间的协调，以及在生成式人工智能背景下数据抓取的问题。
它还关注欧盟委员会人工智能办公室制定通用目的人工智能行为守则的工作，并与欧盟层面正在进行的法律框架澄清工作相协调。
附指南全文翻译
人工智能：使用合法利益作为开发人工智能系统的合法性基础
2024年6月19日
合法利益法律基础将是开发人工智能系统中最常被使用的法律基础。然而，这一法律基础不能在不满足条件和采取足够保障措施的情况下被随意使用。
合法利益是GDPR第6条规定六种合法性基础之一。
它通常适用于私人机构开发人工智能系统，尤其是当使用的数据库并非基于个人同意（通常在大规模收集或在间接收集时获取同意通常比较复杂）。
对于公共机构而言，只有当相关活动并非严格必要于其特定任务的履行，而是其他合法实施的活动（例如人力资源管理相关处理）时，公共机构才可以在开发人工智能系统时使用合法利益。
然而，使用合法利益需满足以下三个条件：
机构追求的利益必须是“合法的”；
计划中的数据处理必须符合“必要性”条件；
数据处理不应给被处理数据的个人的权利和利益带来不成比例的影响，同时需考虑其合理期待。因此，必须根据具体实施条件进行“利益平衡”分析。
数据控制者有义务审查其数据处理是否符合上述三个条件。为此，建议作为良好实践，对这一过程进行记录。无论何种情况，当需要进行数据保护影响评估（DPIA）时，数据控制者必须在其中描述为限制可能对个人权利造成的影响而采取的保障措施（详见“必要时进行数据保护影响评估”指南）。
开发人工智能系统也可以考虑使用其他合法性基础（详见“确保数据处理合法性——确定合法性基础”指南）。
第一要件：追求的利益必须是“合法的”
追求的利益虽然与数据处理的目的密切相关，但不应与之混淆。目的是数据处理的具体原因，而利益则对应于数据控制者或第三方可能获得的更广泛的益处。
关于开发阶段目的的定义，详见“定义目的”指南。
合法利益的合法性可以广泛理解。虽然没有一份全面的合法利益清单，但如果利益是符合如下条件则认定具有合法性：
明确符合法律的；
以足够清晰和明确的方式确定的；
对相关机构而言，是
真实且现实的
（即非假设性的或已证实的）。
因此，在开发人工智能系统的场景中，以下利益可以初步认定为合法利益：
开展科学研究（特别是对于无法基于公共利益的职责的机构）；
促进公众获取某些信息；
为服务用户开发新的系统和功能；
提供对话式人工智能代理服务以协助用户；
改进产品或服务以提升其性能；
开发能够检测欺诈内容或行为的人工智能系统。
只要不违反法律，并且数据处理是必要且成比例的，商业利益也可以被视为合法利益（欧洲法院，2024年10月4日，Tennisbond案，C-621/22）。
相反，某些利益不能被视为合法利益，特别是当计划中的人工智能系统与机构的职责和活动无关，或者无法合法部署时。
示例：根据《数字服务法》（DSA）第28.2条，向未成年人发送基于画像的定向广告是被禁止的。因此，开发用于自动对未成年人进行画像以发送定向广告的人工智能系统是无法合法部署的。开发此类系统的利益因此不能被视为合法的。
注意：更一般地，开发被其他法规明确禁止的系统也不能被视为合法的。在这方面，应特别关注欧盟人工智能法中对人工智能的专门分类。该法规禁止某些人工智能系统的投放市场或投入使用。因此，开发专门用于这些用途的系统不能被视为合法的，也无法依据合法利益或其他任何合法性基础进行数据处理。数据控制者有义务遵守未来法规并关注相关变化。
追求的利益必须以足够明确的方式定义，并在数据控制者的透明度义务范围内告知个人。例如，在开发和改进通用目的人工智能模型时，即使模型的具体用途尚未明确，也建议提及开发模型的目标（例如，指出其是商业性的、公共性的、科学研究性的，以及是机构内部还是外部使用）。
在某些情况下，可能需要根据其他法规获得个人的同意。例如，当数据控制者同时也是《数字市场法案》（DMA）意义上的访问控制者，且用于构建训练数据库的处理涉及实施 DMA 第5.2 条列举的某些行为（例如，在提供访问控制者的其他服务时交叉使用来自关键平台服务的个人数据）时，可能就会出现这种情况。
第二要件：数据处理必须是“必要的”
必要性条件要求确保计划中的数据处理能够实现追求的利益，并且没有比实施该数据处理对个人隐私影响更小的手段。
为此，如果人工智能系统的开发需要使用个人数据，数据控制者必须根据其掌握的信息，确保开发该系统对于实现其目标（无论是研究目标、商业目标还是反欺诈目标等）是必要的。如果在开发阶段已知该模型的用途，那么这一点将具有相关性。如果开发该系统不需要使用个人数据，则GDPR不适用于该开发，问题也就不存在了。
这一必要性条件，还应与数据最小化原则（详见“在系统设计中考虑数据保护”指南）相结合。这意味着数据控制者需要确保处理个人数据或将其保存在可直接或间接识别个人的形式下是必要的，并且在适用的情况下，需要考虑是否有必要采用涉及处理大量个人数据的技术解决方案。在这方面，应考虑技术进步，这些进步可能允许开发出训练过程中需要处理较少个人数据的模型。鼓励数据控制者参与此类技术的开发。
第三要件：确保追求的目标不威胁个人的权利和自由
必须确保追求的合法利益不会对相关个人的利益、权利和自由造成不成比例的影响。
因此，数据控制者必须在相关权利和利益之间进行权衡。为此，他必须衡量其处理的优势（预期收益，特别是以下所述的收益），同时也要评估对相关个人的影响。如有必要，应采取额外措施，以限制这些风险并保护个人的权利和自由。
该分析应根据具体情况逐案进行，考虑处理的具体环境。
人工智能系统带来的益处有助于证明数据处理的合理性
处理所预期的利益越大，数据控制着的合法利益越有可能优先于个人的权利和自由。
以下因素可以帮助衡量追求利益的积极影响：
数据处理带来的预期益处的范围和性质，不仅对数据控制者，也对第三方（如人工智能系统的最终用户，或公众和社会）有益。人工智能系统的多样化应用表明，可能存在许多益处，例如改善医疗保健、提高某些基本服务的可及性、促进基本权利的行使（如获取信息、言论自由、接受教育等）。
示例：一个能够帮助用户自动转录其话语并协助填写行政表格的语音识别系统，可能为残障人士提供某些服务的可及性带来显著益处。这些益处的重要性可以在开发此类系统的利益平衡中被考虑。
数据控制者不仅追求自身利益，还追求公共利益，这可以为其利益增加“权重”。
示例：一家私营公司希望开发一个人工智能系统以打击在线房地产欺诈。其追求的商业利益因与用户利益和公共利益（减少欺诈活动）的契合而得到加强。
为遵守其他法规而实施的数据处理的必要性。
示例：一家大型在线平台或搜索引擎提供商开发一个人工智能系统，以更好地遵守《数字服务法》第35.1条关于在线内容审核流程的规定，可以将这一目标纳入其利益评估中。
开源模型的开发：在实施足够保障措施的前提下（参见相关条款）可能对科学界、研究发展、教育以及公众对这些工具的掌握带来显著益处。它还可以在透明度、减少偏见、人工智能系统提供者的责任或同行评议方面带来优势。这可以表明数据控制者愿意分享其数据处理的益处，以促进科学研究的发展。
追求利益的明确性：追求的利益越具体，其在利益平衡中的权重就越大，因为可以更具体地评估预期的益处。相反，定义过于宽泛的利益（例如“为用户提供新服务”）不太可能超过个人的利益。
必须识别对个人的负面影响
需要将这些益处与数据处理对相关个人的影响进行平衡。具体而言，机构需要识别并评估开发该系统及其使用可能对相关个人产生的各种影响：对个人隐私的影响、对数据保护的影响以及对个人其他基本权利（如言论自由、知情权、思想自由等）的影响，以及其他数据处理对个人的具体影响。
数据处理对个人的实际影响（如下所示）需要根据风险发生的可能性和严重性进行评估，这取决于数据处理的具体情况以及开发的人工智能系统。
为此，需要考虑数据的性质（是否敏感、高度个人化）、相关个人的群体（弱势群体、未成年人等）、开发和/或部署人工智能系统的机构或政府机构的状态（如果人工智能被广泛使用，其影响可能会被放大）、数据处理的方式（数据交叉等）或人工智能系统的类型和预期用途。在某些情况下，个人受到的影响将是有限的，因为风险较低，或者与使用的数据、进行的数据处理和追求的利益相比，后果的严重性较低（例如，开发用于个性化文本处理软件的自动完成功能的人工智能系统对相关个人的风险较低）。
因此，需要考虑以下对个人的影响，并在具体案例中评估相关风险。可以区分两种类型的风险：

与人工智能模型开发相关的风险
在线可访问数据收集的风险：特别是通过网络爬虫工具收集数据，可能侵犯个人隐私和GDPR所保障的权利，以及可能侵犯其他权利（如知识产权或某些机密信息）或言论自由，因为大规模和普遍的数据收集可能会引发监视感（详见数据抓取指南）。
数据库或模型中数据机密性丧失的风险：训练数据库的安全性风险可能会增加相关个人面临的风险，例如数据泄露导致的用途偏离目标，或针对人工智能系统的特定攻击（如投毒攻击、后门插入或模型反转攻击）的风险（详见“人工智能系统攻击分类”一文）。
与保障个人权利行使有效性相关的风险，
尤其是由于识别相关人员的技术障碍，或在数据库或模型以开源形式共享或传播时，传递权利行使请求的困难。此外，在某些对象上（如训练模型）实施权利行使在技术上也复杂甚至不可能。
与确保向相关人员透明处理相关的风险：这些风险也可能源于主题的技术性、快速的技术发展以及某些人工智能系统（例如深度学习）的结构性不透明。
这确实使得向人员提供可理解且可获取的信息变得复杂。

与人工智能系统使用相关的个人影响
某些风险及其后果可能在人工智能系统的使用过程中显现，但由于其系统性特征，需要在开发阶段加以考虑。有必要在设计阶段就预见能够有效限制这些风险的保障措施。这些风险取决于人工智能系统的用途。一般来说，可以包括以下内容：
某些人工智能系统在使用过程中可能会记忆、提取或复述个人数据，从而侵犯个人隐私。在某些情况下，可以通过攻击（如成员资格推断、数据提取或模型反转）从人工智能系统的使用中推断出学习数据库中包含的个人数据（详见“人工智能系统攻击分类”一文）。这可能会对个人隐私造成风险，因为相关个人的数据可能会在人工智能系统的使用过程中出现（例如，声誉受损风险、根据数据性质的安全风险等）。
当人工智能系统（尤其是生成式人工智能）生成关于可识别自然人的内容时，可能会出现对声誉的侵犯、虚假信息传播或身份盗用的风险（例如，使用包含在训练数据库中的真实人物图像生成虚假色情照片）。需要注意的是，即使人工智能系统没有使用个人数据进行训练，也可能出现这种风险。
示例：由人工智能系统生成的新闻文章可能包含对真实人物的诽谤性信息，尽管数据库中不包含该人物的信息，尤其是在文本是根据用户在提示中指定该人物身份的请求生成的情况下。
在记忆存储的情况下，可能侵犯某些法律规定的权利或秘密的风险（例如，知识产权，如著作权、商业秘密或医疗秘密）或反刍受保护的数据。
示例：一个基于受版权保护的文学作品训练的文生文人工智能系统，可能会生成构成侵权的内容，尤其是在该内容是系统记忆中存储内容的直接复述时。
与某些人工智能系统开发相关的严重伦理风险，这些风险损害了某些一般法律规则或整个社会的正常运作。
这些风险必须在评估中加以考虑（例如，歧视、恶意使用时对人员安全的威胁、煽动仇恨或暴力、虚假信息，这些都可能损害个人的权利和自由，或损害民主与法治）。如果在设计阶段未能预先设定保障措施，所开发的人工智能系统在部署阶段可能会侵犯某些基本权利和自由（例如，训练数据库中歧视性偏见的放大、缺乏透明度或可解释性、缺乏稳健性，或自动化偏见等）。
考虑《人工智能法》：当数据控制者是《人工智能法》第6条意义上的高风险人工智能系统提供者时，其可以在建立《人工智能法》第9条要求的风险管理系统时考虑识别的风险。同样，当其是《人工智能法》第51条意义上的通用人工智能模型供应商时，其可以在履行《人工智能法》第55条下的义务时考虑识别的风险。
相关个人的合理预期是评估数据处理合法性的重要因素
机构需要考虑相关个人的合理隐私期待，以评估数据处理对个人的影响。合法利益要求在数据处理的实施方式及其后果方面不使个人感到意外。
合理期待是数据控制者在权衡相关权利和利益时需要考虑的场景因素之一。为此，可以考虑向个人提供信息，以评估相关个人是否可以合理预期其数据将被如此处理；然而，这只是一种指标。
在开发人工智能系统的过程中，某些数据处理可能会超出相关个人的合理预期。数据控制者需要根据以下方面进行这一分析：
直接从个人处收集的数据：
数据控制者与相关个人之间的关系。
共享数据的隐私设置。
示例：一个提供在线辅导服务的平台希望使用用户与其对话者的交流来微调文生文大模型，以开发能够回答用户问题的对话式AI智能体。在这种情况下，鉴于在线交流中可能共享的敏感信息，相关个人对一定隐私水平有合理预期，因此无法合理预期其数据将被用于训练目的。所以，需要获得个人的同意。
使用在线虚拟会议服务中的私人交流来开发或改进用于总结会议的人工智能模型，不符合相关个人的合理预期。
收集数据的场景和服务性质（例如，是否通过人工智能系统提供服务）。
如果对用户数据的处理仅影响该用户所使用的具体服务，或者用于改进商业化服务（例如，企业收集其客户的反馈数据，仅用于内部改进服务，而不进行其他商业化推广），则可能属于合理预期范围内。
从互联网公开数据中再利用数据：
鉴于近年来技术的演变（如大数据、新的人工智能工具等），相关个人可能意识到其在线发布的某些数据可能会被第三方查看、收集和再利用。然而，他们无法合理预期在所有情况下，其在线数据都会被用于此类处理，尤其是当数据被用于某些特定目的时。需要考虑以下因素：
数据的公开可访问性；
数据来源网站的场景和性质（如社交媒体、在线论坛、数据集发布平台等）；
这些网站设置的限制，例如在用户协议（CGU）中规定，或通过技术手段（如使用robots.txt文件或设置验证码CAPTCHA）阻止数据抓取。CNIL认为，如果数据控制者未排除明确反对抓取的网站（通过robots.txt或CAPTCHA协议），则该处理不能被视为在相关个人的合理预期范围内。
示例：如果某人在一个明确禁止数据抓取（通过robots.txt文件声明）且明确表示不使用用户数据开发人工智能模型的内容分享平台上发布数据，则该个人无法合理预期其数据将被用于此类目的。
数据发布的类型（例如，发布在免费访问的博客上的文章没有隐私性，而发布在带有访问限制的社交媒体上的帖子可能仍具有一定的隐私性，用户可能不太清楚其数据会被第三方收集和再利用）。
相关个人与数据控制者之间的关系性质。
在数据库或模型的多种可能用途，尤其是在传播或共享的情况下，可能难以把握。
由于数据库或模型的多种可能用途，尤其是在扩散或共享的情况下，某些用途可能超出相关个人的合理预期，特别是当数据被非法再利用时，个人无法合理预期其数据将被用于某些目的。
示例：相关个人无法合理预期其数据将被用于开发一个开源的图像分类模型，该模型随后被用于根据性取向对人员进行分类。
符合合理预期的数据处理示例：
一家对话式AI智能体提供者希望再利用用户与系统未来的对话来改进人工智能模型。其明确告知用户与此类再利用相关的风险（包括可能的模型记忆风险，并提醒用户收集敏感数据的风险），允许用户在事先和任何时候自由反对该处理，而不会影响其对服务的使用。此外，其仅收集对话数据，排除所有其他涉及个人的数据，并确保对收集的数据进行强假名化处理，同时限制对话的模型记忆和反刍风险。在这种情况下，可以认为该处理符合相关个人的合理预期。如果能够实现利益平衡，则该处理可以基于合法利益进行。
限制数据处理影响的额外措施
机构可以采取补偿性或额外措施，以限制数据处理对相关个人的影响。这些措施通常对于在相关权利和利益之间实现足够的平衡是必要的，从而使数据控制者能够基于合法利益法律基础进行数据处理。
这些措施是对GDPR规定的其他义务（如数据最小化、数据保护设计和默认设置、数据安全等，详见相关指南）所必需措施的补充，不应与之混淆。遵守这些规定是强制性的，无论数据处理的法律基础是什么。补偿性措施是在《通用数据保护条例》要求之外的额外保障。
这些措施可以是技术性的、组织性的或法律性的，并应能够限制对之前识别的个人利益、权利和自由的风险。
以下措施已被确定为限制相关个人权利和自由风险的相关措施。这些措施应根据开发阶段的不同数据处理过程中的风险进行调整。
对于数据抓取（网络爬虫）的具体措施，详见相关指南。
1.限制个人数据收集或保存的措施
数据匿名化或假名化：计划在短期内对收集的数据进行匿名化，或者在无法匿名化的情况下，对收集的数据进行假名化处理。在某些情况下，如果匿名数据足以实现数据控制者设定的目标，则必须进行数据匿名化。
示例：如果企业希望从在线评论中构建一个训练数据库，以开发用于评估客户满意度的人工智能系统，则在收集后尽快对数据进行假名化处理，可以作为限制收集可能泄露评论者大量个人信息的数据风险的额外措施。
优先使用合成数据：如果不会影响模型性能，优先使用合成数据。这不仅可以避免使用真实数据（尤其是敏感数据），还可以增加数据量以用于训练，同时最小化数据机密性风险。需要注意的是，合成数据并非总是匿名的。
示例：如果提供者希望开发一个图像分类系统，用于自动检测武器的使用或携带，则使用合成图像可以避免收集可能暗示犯罪行为的数据，同时更容易调整图像的配置（如人物的身高、体重、肤色等）和武器的特征（形状、颜色等），从而提高数据库的代表性。
采取措施以限制在生成式人工智能框架下的记忆、提取、复述风险，或对人工智能模型或系统的攻击风险。
在不影响未来技术进步可能带来其他措施的前提下，CNIL 建议实施以下措施：
限制记忆化风险的措施：
删除罕见或异常数据；
训练数据去重；
降低模型参数数量与训练数据量的比例；
对训练目标函数进行正则化；
使用能够保证一定数据机密性的学习算法，例如以差分隐私为衡量标准；
采取措施防止模型过拟合。
限制提取或再生风险的措施：
在发生数据提取、反刍（针对生成式人工智能）或成功攻击时，设立法律或技术途径，例如在提供者处设立专门窗口，供个人报告反刍数据的情况。
限制对模型的访问；
修改模型输出（例如，设置过滤器或限制输出精度）；
实施安全措施以防止或检测攻击尝试（尽管这些措施可能也是履行GDPR其他义务的要求）。
降低风险可能性的措施：
降低风险严重性的措施：
在某些情况下，采取这些措施可以使数据控制者得出结论，认为无法从模型中提取个人数据或反刍数据，从而使开发的模型或系统具有匿名性（即将发布的关于人工智能模型的GDPR合规性指南将明确这些情况）。模型或系统的匿名性将为处理训练数据的个人提供特别强大的保障。
如果数据控制者无法得出模型或系统具有匿名性的结论，这些措施仍将作为额外的保障措施。

保障个人对其数据的控制权的措施
在GDPR规定的义务之外，采取技术、法律和组织措施以便利个人权利的行使：
设定事先、选择的反对权，以加强个人对其数据的控制。
通过在数据控制者的网站上发布有关该权利的信息，设置一个简单的复选框，便于快速访问，可以简化该权利的行使。例如，使用在线服务的用户，其数据被用于开发或改进人工智能系统，应能快速访问允许其反对为此目的收集其数据的页面。数据控制者必须确保个人可以反对该处理，且其使用服务不受影响；
在收集可在线访问的数据时，CNIL 鼓励开发技术解决方案，以便更好地支持反对权的行使。
在数据收集之前，除了在知识产权方面实施的选择退出机制（参见关于数据抓取的重点说明），还可以在适合处理的情况下实施“拒绝清单”机制。这确保数据控制者能够尊重个人的反对意见，避免收集这些个人的数据。
规定对数据库中数据的酌情删除权；
采取措施以便于识别个人：应考虑采取技术和组织措施，保留一定数量的元数据或其他关于数据收集来源的信息，以便于在数据库中查找个人或数据。当涉及公开可获取的信息且其保存不会对相关个人产生额外风险时，这一点尤为重要。
示例：在通过对一系列有限网站上自由访问的在线数据进行抓取（网络爬取）而构建的图像数据集中，保留每张收集图像的显示名称和来源网址，有助于识别相关人员。实际上，相关人员可以通过通用搜索引擎、网站或网络档案库直接提供相关的网址，从而找到涉及他们的数据。
实施措施以确保并便利个人权利的行使，当模型受 GDPR 约束时（参见即将发布的关于 AI 模型在 GDPR 下地位的说明），例如在训练数据集的收集与其使用之间保持合理时间间隔（尤其是在模型权利行使较为困难时），和/或定期对模型进行再训练，以便在数据控制者仍持有训练数据时考虑权利的行使。
有关行使权利应采取措施的更多详情，请参见说明《尊重并便利相关人员权利的行使》。
当模型以开源形式共享或发布时，应识别并实施措施，确保权利行使能够在各参与方链条中传递，特别是在通用条款中规定义务，将反对、更正或删除权利行使的影响传递到后续开发的系统中。
便于权利通知：例如，在可能的情况下，CNIL 建议使用应用程序编程接口（API）（尤其是在风险较高的情况下），或至少采用数据下载日志管理技术。
计划更广泛地通报数据库或模型的更新情况，例如在数据集文档或提供者网站上，以便相关人员了解其请求在多大程度上得到了尊重。这也意味着要促使先前版本的接收者删除或替换为最新版本。
确保对为开发或改进人工智能系统所进行的处理活动提供更高透明度，除遵守 GDPR 第12 至14 条规定的义务外，还应采取以下措施：
关于数据提取或数据反刍风险的信息：当开发的模型或人工智能系统受GDPR约束时（详见即将发布的关于人工智能模型的GDPR合规性指南），提供关于数据提取或再生风险的信息，包括：
数据从模型或系统中提取的风险性质，例如生成式人工智能中的数据反刍风险；
为限制这些风险而采取的措施，以及如果这些风险发生，现有的补救机制，例如向机构报告反刍或提取事件的可能性。
发布数据保护影响评估（DPIA）：如果进行了数据保护影响评估，可以部分发布（如果某些部分涉及商业秘密等受保护的信息，则可以进行部分发布）。
发布数据库、开发过程或人工智能系统的文档：发布关于数据库构建、开发过程或人工智能系统及其运行的文档。
发布关于人工智能工具的信息：CNIL认为，公众对人工智能技术的接受需要透明度和普及化。因此，鼓励该领域的从业者（设计者和用户）在透明度和普及化其实践方面做出努力，包括人工智能的工作原理及其使用风险。这可以通过实施以下建议的透明度实践来实现：
机器学习的关键概念，如学习、推理、模型记忆或针对人工智能系统的不同攻击类型；
为限制人工智能系统的恶意或危险用途而采取的措施。
采用开源开发实践，例如发布模型权重、源代码等；
透明化与数据保护无关的实践，例如：
通过媒体宣传活动广泛传播信息：特别是当需要大规模收集数据时（如大型语言模型），应通过多种方式向个人传播信息。
保障人工智能系统透明开发的措施：实施措施和流程，以确保人工智能系统在部署阶段的可审计性（例如，记录整个开发过程、记录活动、管理模型的不同版本、记录使用的参数，或进行评估和测试的记录）。这也可以避免部署阶段的自动化偏见或确认偏误。

在使用阶段限制风险的措施
限制人工智能系统非法再利用的风险：通过技术（例如，对人工智能系统生成的内容添加数字水印，以防止其被用于欺诈目的，或在设计中排除可能导致非法用途的功能）和/或法律措施（例如，在合同中禁止某些非法或不道德的用途，这些用途超出了相关个人的合理预期）来限制通用目的人工智能系统的非法再利用风险。
限制重新识别个人的许可：实施限制性许可，防止通过数据库或人工智能系统重新识别个人。
保障措施：实施措施以确保考虑某些严重的伦理风险，例如，通过确保训练数据库的质量，以减少使用阶段的歧视性偏见风险，特别是通过确保数据的代表性，并检查和纠正数据库中存在的偏见或标注过程中产生的偏见（详见“数据标注”指南）。

其他措施
根据识别的风险的严重性和可能性，设立伦理委员会，或根据相关机构的规模和资源，设立伦理专员，以在开发这些系统之前和整个开发过程中考虑伦理和数据保护问题（详见“在系统设计中考虑数据保护”指南）。
示例
无法使用合法利益的情况：
数据控制者希望开发一个图像生成式人工智能系统。其从许多网站上无差别地收集图像数据，以构建训练数据库，而未排除包含敏感数据的网站类别（如色情网站），也未采取限制模型记忆或数据提取风险的保障措施。此外，其在隐私政策中将目标定义为“提供新服务”。在这种情况下，利益平衡很难被认为已经实现。
可以使用合法利益的情况：
一个提供在线论坛的社交媒体平台，其本身允许用户自由访问彼此的交流内容，希望开发一个对话式AI智能体，以帮助用户在平台上搜索相关内容，例如通过回答问题来总结搜索结果。为了训练模型，其仅收集用户公开发布且明显公开的内容，排除用户私密数据（如私密对话、账户信息等），并采取强有力的保障措施，例如提供事先的、可选择的反对权，并在网站首页增加直接链接，以便用户快速反对该处理等。在这种情况下，利益平衡通常可以被认为已经实现。需要注意的是，如果数据处理的目的未在隐私政策中明确告知用户，则需要根据GDPR第6.4条进行兼容性测试（详见“确保数据处理合法性——确定法律基础”指南）。
一家机构希望开发一个文本生成式人工智能系统。其仅使用来自公开且自由访问的在线来源的数据，这些数据明显由相关个人公开发布，并排除受版权保护的内容（属于公共领域的内容，或根据2019/790号指令关于数字单一市场版权和邻接权的条款，版权所有者未反对文本和数据挖掘的内容）。此外，其采取一系列措施以限制数据模型记忆和数据反刍风险，例如技术上或合同上限制生成有问题的内容，当个人可以被重新识别时，便利个人权利的行使，并在其公开的隐私政策中明确数据来源。在这种情况下，利益平衡通常可以被认为已经实现。
一家商店使用配备增强型摄像头的自动收银机，以自动检测客户在结账时的错误。其希望再利用收集的数据来改进所使用的人工智能系统。为此，其仅以限制个人重新识别的形式保留数据，并确保告知客户该机制的实施，同时提供事先的、可选择的反对权。在这种情况下，利益平衡通常可以被认为已经实现。
合法利益：关于数据抓取（网络爬虫）时需采取的措施的专项说明
2025年6月19日
通过网络爬虫抓取（web scraping）在线可访问数据时，必须采取措施以保障相关个人的权利。
通过网络爬虫抓取（web scraping）在线可访问的个人数据通常基于合法利益，数据控制者需要采取一些额外措施，以限制其对个人利益、权利和自由可能造成的侵害。
法国国家信息与自由委员会（CNIL）的指南回顾
随着生成式人工智能系统的快速发展，其对大量在线可访问数据的需求激增，网络爬虫技术也随之广泛使用。然而，这种技术对个人权利和自由存在固有风险，因为个人无法控制其在线数据的再利用。
网络爬虫的普及改变了互联网的使用性质，因为个人在线发布的所有数据都可能被第三方读取、收集和再利用，这可能对个人带来重大风险，包括但不限于以下风险：
侵犯隐私和GDPR所保障的权利：由于收集的数据量庞大、涉及人数众多、后续删除权行使困难、可能收集个人隐私数据（例如社交媒体数据）甚至敏感或高度个人化数据，且缺乏足够保障，这些风险尤为突出。特别是当涉及弱势群体（如未成年人）的数据时，需要特别关注并采取适当的告知方式。
非法收集的风险：某些数据可能受到特定权利的保护，例如知识产权，或者其再利用需要个人的同意。
侵犯言论自由的风险：无差别的大规模数据收集及其在可能发生数据反刍的人工智能系统中的使用，可能会影响相关个人的言论自由（例如，由于监视感可能导致网民自我审查，尤其是在难以从网络爬虫实践中撤回已发布数据的情况下），尽管使用某些平台和通信工具是日常必需的。
尽管如此，网络爬虫本身并非被禁止，但必须根据具体情况加以分析。CNIL一直呼吁对这些实践保持警惕，并提出了一系列必须遵守的建议。此外，CNIL还多次呼吁对公共机构的网络爬虫行为进行专门的立法规范（例如，参见CNIL 2022年12月15日关于“Polygraphe”项目的建议）。
在某些情况下，CNIL认为在缺乏此类法律框架的情况下，这些实践是被禁止的（特别是当相关处理由主管当局为执法目的实施时）。相反，在其他情况下，只要采取强有力的保障措施，这些实践是可以被接受的，例如用于互联网信息泄露调查（RIFI）。
目前，在缺乏专门法律框架的情况下，本指南提醒数据控制者的义务，并明确在开发人工智能系统时实施此类处理的条件。
网络爬虫的合法性还取决于是否可以使用有效的合法性基础。通过网络爬虫抓取在线可访问数据以构建训练数据库可以基于合法利益法律基础，但必须遵守“基于合法利益开发人工智能系统”指南中提到的条件。
网络爬虫可能违反其他法规的风险如果网络爬虫技术本身并不与GDPR的要求相冲突，但可能被其他法规禁止（例如，通过用户协议，依据数据库制作者权利或版权法）。在这方面，研究机构可以考虑依据知识产权法中的“文本和数据挖掘”例外（第L122-5和122-5-3条），除非版权所有者通过机器可读的方式明确反对，特别是对于在线公开内容的元数据和用户协议（参见2019年4月17日关于版权和邻接权的2019/790号指令第18条）。
必须采取的措施
一些措施是必须的，特别是根据数据最小化原则（GDPR第5.1.c条）：
事先确定明确的收集标准；
排除收集某些类别的数据，当这些数据非必要时；
在可能的情况下，通过过滤器进行筛选（例如，如果非必要，则排除银行交易数据、地理定位数据等）；
当无法过滤时，应排除某些类型的网站
（例如，主要由未成年人使用的网站或社交网络），这些网站结构性地包含此类数据类别（例如涉及弱势群体如未成年人的数据或某些敏感数据）；
确保立即删除可能已被收集但不相关的数据，无论是在收集后立即，还是一旦确认其不相关时（例如，在公共论坛上收集了用户的昵称，而实际上只需要评论内容）；
排除明确反对其内容被抓取用于训练数据库的网站，通过使用 robots.txt 排除协议或设置 CAPTCHA，这些措施通过要求只能由人类完成的操作，旨在禁止机器人访问页面。
网站发布者如何保护其内容免受抓取？
网站发布者可以通过多种方式表达其对内容抓取的反对意见，尽管目前尚无统一标准（参见Alexandra Bensamoun关于人工智能法规在版权领域的实施报告）。
CNIL鼓励相关机构参与标准化工作，以制定可互操作的反对机制，并遵守可能出现的新标准。
如果希望保护其网站内容，网站发布者应实施robots.txt协议或CAPTCHA验证码，数据控制者有义务遵守这些措施。
网站发布者还被鼓励采取其他措施。可以将这些措施分为两类：阻止访问的措施（技术上阻止爬虫访问内容）和非阻止措施（不阻止抓取，但明确网站发布者希望的规则）。
阻止访问的措施：
通过“完全自动化公共图灵测试以区分计算机和人类”（CAPTCHA）来阻止爬虫访问。
IP地址封锁：分析HTTP请求头、请求数量，检测“可疑”IP地址（地理位置、互联网服务提供商），维护已知爬虫IP地址、设备和VPN的记录，检测隐藏在浏览器API请求中的爬虫。
非阻止措施：
其他排除协议：除了robots.txt，还可以使用ai.txt（Spawning AI）、TDMReptdmrep.json（W3C）等。
动态页面加载：限制网站的原始HTML内容，通过动态加载页面来减少爬虫能够抓取的内容。
使用元标签：例如DeviantArt使用的“noai”或“noimageai”元标签。
在反对用于开发模型和人工智能系统目的的数据收集登记册中注册域名（例如“do-not-train”）。
如何处理意外收集到的敏感数据？
在使用网络爬虫工具时，必须特别注意避免收集敏感数据，尤其是当涉及大量数据时。数据控制者必须采取一切措施自动排除收集不相关的敏感数据，例如通过过滤器排除某些数据类别或排除包含敏感数据的网站。
如果尽管采取了措施，但仍然意外且残留地收集到了敏感数据（这些数据并非有意收集），这并不被视为非法行为。欧盟法院也曾在相关案例中提到，搜索引擎运营商在“其责任、能力和可能性范围内”适用这一禁令（欧盟法院，大法庭，2019年9月24日，GC等，C-136/17）。然而，如果数据控制者意识到其正在处理敏感数据（例如通过相关个人告知），则必须尽可能立即自动删除这些数据。
需要注意的是，处理敏感数据在某些情况下可能是被允许的，特别是当这些数据是相关个人明确公开的。需要核实相关个人是否通过明确的积极行为，基于知情的设置，希望将其个人数据公开给公众，或者仅限于特定范围的人群（欧盟法院，2023年7月4日，Meta Platforms，C-252/21）。
尊重合理期待
为了在合法利益框架内实现预期的平衡，数据控制者必须限制对个人权利和自由的侵害，同时考虑其合理期待。
鉴于近年来技术的演变（如大数据、新的人工智能工具等），相关个人可能意识到其在线发布的数据可能会被第三方查看、收集和再利用。
然而，他们无法合理预期在所有情况下，其在线数据都会被用于此类处理，尤其是当数据被用于某些特定目的时。需要考虑以下因素：
数据的公开可访问性；
数据来源网站的性质（如社交媒体、在线论坛、数据集发布平台等）；
这些网站设置的限制，例如在用户协议（CGU）中规定，或通过技术手段（如使用robots.txt协议或设置验证码）阻止数据抓取。CNIL认为，如果数据控制者未排除明确反对抓取的网站（通过robots.txt或CAPTCHA协议），则该处理不能被视为在相关个人的合理期待范围内。
数据发布的类型（例如，发布在免费访问的博客上的文章没有隐私性，而发布在带有访问限制的社交媒体上的帖子可能仍具有一定的隐私性）。
相关个人与数据控制者之间的关系性质。
额外保障措施
此外，数据控制者通常需要采取额外保障措施，以限制对个人权利和自由的侵害。如“基于合法利益开发人工智能系统”指南所述，选择适当措施取决于人工智能的预期用途及其对相关个人的实际影响。CNIL特别建议采取以下措施：
建立默认排除的网站列表：某些网站因其数据的敏感性（如色情网站、健康论坛等）或其提供的信息量过大（如家谱网站或包含大量个人结构化数据的网站），应默认排除在数据收集范围之外。
排除反对抓取的网站：对于那些通过技术或法律手段（如用户协议）明确反对内容抓取或反对将其用于人工智能训练数据库的网站，应排除其数据收集。
限制数据收集范围：仅收集那些用户明确意识到会公开的数据（例如，未注册用户即可访问的内容，且无需创建账户）。例如，应排除在社交媒体上以私人方式发布的数据（如私人账户中的信息或私密群组中的帖子），以及那些公开性不明显的网站数据（如在线请愿网站）。
广泛传播相关信息：通过多种渠道（如在线文章、数据控制者的社交媒体账号）广泛传播有关数据收集和相关个人权利的信息，并发布一个更新的、受网络爬虫实践影响的网站列表（详见“通知个人的信息”指南）。
提供事先的、可选择的反对权：为增强个人对其数据的控制，提供事先的、可选择的反对权。CNIL鼓励开发技术解决方案，以便在数据收集之前尊重个人的反对权。除了知识产权领域的选择退出机制外，还可以实施“拒绝列表”机制，以尊重个人的反对意愿。这将使数据控制者能够在不收集这些个人数据的情况下，尊重其反对意见。
数据收集后的匿名化或假名化处理：在数据收集后立即进行匿名化或假名化处理，以减少数据识别个人的风险。
防止通过个人标识符进行数据交叉比对，例如用每个内容（如每个在公开论坛上的发布）独有的随机假名替代标识符，而非用每个标识符，除非数据控制者能够证明，为了开发相关系统或人工智能模型，有必要将关于特定个人的不同数据进行汇总。
注意事项
数据控制者需要根据具体情况，考虑处理的具体细节，判断采取这些措施的必要性和相关性。
例如，如果一个机构通过网络爬虫收集大量在线语音记录，以开发和销售语音生成工具，但未采取任何额外措施来保护训练数据或限制非法或恶意再利用的风险，则不能基于合法利益。