数据标注风险全解析：保护隐私与提升AI准确性的双重挑战 | 法国CNIL关于数据标注的指南全文翻译

作者：朱玲凤来源：那一片数据星辰时间：2024-07-29

法国CNIL关于《AI系统开发的数据保护指南》又出新番了法国CNIL于6月10日又在《AI系统开发的数据保护指南》中更新了五章，于9月1日前征求公众意见，都快追成连续剧了。

法国CNIL关于《AI系统开发的数据保护指南》又出新番了法国CNIL于6月10日又在《AI系统开发的数据保护指南》中更新了五章，于9月1日前征求公众意见，都快追成连续剧了。
本期更新主要介绍数据标注的核心问题，包括数据质量原则、数据主体权利实现、标注带来的伦理风险。
已经发布的指南传送门：
上篇：介绍系列指南的结构与第一部分简介。
中篇：介绍数据处理目的、参与者的法律地位、合法性基础。
下篇：介绍DPIA、Privacy by Design和数据治理。
更新篇一：使用合法性基础，尤其是在开源AI和网络爬取中的运用。
更新篇二：大模型的告知义务，包括模型记忆、数据抓取等情形。
更新篇三：大模型的数据主体权利实现，回应了网页抓取与模型记忆时数据主体权利实现的高难度实践问题。
法国CNIL发布于2024年6月10日
数据标注阶段对于确保训练出的模型质量至关重要。通过严谨的方法论，可以在保证个人数据保护的前提下达到性能目标。
此文件公开征询意见，直至2024年9月1日。
数据标注是开发高质量AI模型的决定性步骤，无论是出于性能还是尊重人权的考虑。在监督学习中，这一步骤是核心，但也可以在非监督学习中用于获取验证集。它包括为每项数据分配一个描述，称为“标签”，作为模型学习处理、分类或根据这些信息区分数据的“地面真实情况”。
译者注：
"地面真实情况"（ground truth）是一个常用于数据科学和机器学习领域的术语，特别是在数据标注和模型训练的语境中。它指的是一组被认为是完全准确和真实的数据或信息，通常用来作为评估模型性能的标准或基准。在训练机器学习模型时，模型会尝试学习如何根据输入数据来预测或分类，而"地面真实情况"就是用来验证模型预测结果是否正确的参考依据。
例如，在图像识别任务中，如果模型正在学习识别猫和狗，"地面真实情况"就是一组已经由人工精确标注了每张图片中是猫还是狗的图像数据。模型会使用这些数据来训练，之后，它的识别结果会与"地面真实情况"进行比较，以评估其准确性。
在文档中提到的上下文中，"地面真实情况"是指数据标注过程中为模型提供的标准答案或参考，模型将学习这些标注来提高其处理、分类或区分数据的能力。
标注可以涉及所有类型的数据，无论是个人数据还是非个人数据，并且可以包含所有类型的信息，无论是个人还是非个人。标注可以是人工的、半自动的或自动的。它可以是一个完整的过程，也可以是现有流程的结果，在这些流程中，数据已经为特定需求进行了特征化，然后重新用于训练AI模型（如下面描述的医疗诊断案例）。在某些情况下，AI的训练将依赖于现有数据和注释。
此文件以及有关系统设计和数据收集期间数据保护的文件应随后应用。此文件的范围针对上述所有情况，其中标注涉及或包含个人数据。
示例标注：
为了训练集成在语音助手中的人工智能（AI）说话人识别模型，语音录音被标注为说话人的身份；
为了训练集成在养老院视频监控系统中的AI跌倒检测模型，图像被标注为根据多个标签（如“站立”或“躺卧”）表示的人物位置；
为了训练集成在私人区域入口控制屏障中的AI矿物板识别模型，图像被标注为包含矿物板的像素位置；
为了训练用于预测某些病理风险的AI模型，该模型旨在作为医院护理人员诊断辅助工具，患者的血液结果被标注为医生对相关病理的诊断。
数据标注对个人权利和自由的重要性：
如果标注涉及个人数据，必须在尊重通用数据保护条例（GDPR）的前提下进行。它通常属于在处理之前定义的更广泛目的，并必须遵守GDPR规定的原则。鉴于对个体在开发和部署阶段的风险，国家信息自由委员会（CNIL）希望引起使用标注的参与者对最小化、准确性和责任原则的关注。
最小化原则
最小化意味着只处理“适当、相关且仅限于处理目的所必需的数据”（GDPR第5.1.c条）。在实践中，这意味着标注和要标注的训练数据应该限于模型训练所必需的，如“考虑数据保护在数据收集和治理中”文件所述。
标注包含与预期功能无关的信息则不符合最小化原则。在某些情况下，间接与功能相关的信息可能有助于提高模型性能（例如，用于训练信号板识别模型的广告牌图像，这种增加可以让它避免某些误报）。信息与模型性能的联系一旦被证明（理论上或通过经验，特别是在科学出版物中）或足够合理时，它就是相关的。
标注数据集由AI系统开发者使用，这些数据集是在先前的收集、购买或从开放或非开放来源下载后得到的，不应包含与他正在开发的系统功能无关的标注。如果技术上不可行，数据控制者必须能够证明并努力使用最相关的标注数据集。然后应在数据中进行筛选，以将保留的标注限制为相关的。
示例：
注释一张图像，标注其中人物的职业对于旨在检测图像中人物存在的算法来说并无帮助。相反，标注其肢体的位置可能对模型有用，因为模型可能能够检测到部分被遮挡的人物。
当一个机构的活动包括为第三方创建训练数据集时，需要区分两种情况：
推荐的做法是，训练数据集是专门为客户需求创建或配置的；在这种情况下，训练数据集的提供者是其客户根据GDPR规定选择的数据处理者；数据处理者必须确保数据集只包含相关的标注；
或者，提供者提供了已经创建的训练数据集；那么他们必须设计其产品以允许尊重数据最小化原则；一种解决方案可能是提供多个可分离（Separable）或可累计（Accumulable）的标注类别，或者根据不同标注类型提供不同的数据集。译者注：“可分离”指的是每个标注类别是独立的，可以单独使用；“可累计”指的是多个标注类别可以组合使用，以提供更丰富的信息。
在任何情况下，训练数据集必须在尊重GDPR的前提下构建并提供。
CNIL关于数据最小化的推荐，在文件“从系统设计选择开始考虑数据保护以尊重最小化”和“考虑数据保护在数据收集和治理中”中有所规定，这些推荐是适用的。
标注可能包括有助于测量和纠正错误和偏见的上下文元素。在大多数AI系统的概率系统中，性能管理依赖于测量和纠正最有可能影响系统效率的错误和偏见的能力。因此，可能相关于使用上下文元素（如日期和时间、天气等）来标注训练、测试或验证数据，特别是在测量不同情况下的潜在性能差异时。
示例：为了训练一个自动图像分析系统，设计者使用了来自不同地点摄像头的数据，这些数据是在人们访问这些地点的不同时间段（如白天或夜晚）收集的。为了评估系统的性能，设计者在标注数据时考虑了以下信息：是白天还是夜晚、被拍摄的居住区类型、以及当时的气象条件。
准确性原则
准确性原则要求处理的数据必须是准确的，如果需要，要保持最新。这一原则意味着标注只应包含有关数据对应人物的准确信息。不准确或基于不适当或任意标准的标注将构成不符合准确性原则。在实践中，这意味着开发者必须采取适当措施以确保标注标准是客观的。这一挑战尤为重要，因为标注通常通过一个单一的词或短语来实现，这不足以描述一个人。这种标注有被视为对被忽视的人的贬低的风险，尤其是因为系统可能会在部署期间复制标注的不准确性，导致不准确、甚至贬低或歧视性的输出。
示例：如果标注中使用的职业类别过于具体，标注一组代表人物职业的图像可能会导致不准确的标注。因此，一个穿着白大褂的人的图像如果没有更多的信息，就可能是医生或护士，给他标注“护理人员”可能会让他遵守准确性原则。
其他原则，如责任原则、透明度、保密性或完整性，也适用。
确保标注的质量
CNIL邀请参与者实施以下措施：

定义一个持续的核查程序。这个程序的目的是为了确保标注的质量，它应该在标注工作开始不久后启动，并通过定期或持续的监控来贯穿整个标注过程。它应该是有文件记录的，并且可以例如依赖于：
有文件记录：确保所有标注步骤和决策都有详细的文档记录。
提供明确分配的任务：限制数据访问权限，确保只有授权人员能够访问。
允许标注人员对标注标准进行反馈：标注人员应能够对标注标准提出反馈，以便识别需要改进或不适用的情况。
包括验证阶段：验证标签的选择和程序的运作，评估不同标注者之间的一致性。例如，当多个人进行标注时，评估他们之间的一致性。
通过更改日志或版本管理工具进行跟踪：所有对标注数据的更改都应通过日志记录或使用版本管理工具进行跟踪。
依赖于一个可靠、稳健并且易于操作的标注工具：选择一个高质量的标注工具，它不仅要可靠和稳健，还要易于操作。许多标注工具通常针对特定类型的数据（如图像、文本、声音、表格数据），建议检查它们的安全性和与预期目的的相关性，特别是当它们集成了半自动标注功能时。Etalab的标注活动准备和执行指南提供了多个标准，以选择最适合文本标注的软件（其中一些标准也适用于其他类型数据的标注）。
选择标注标签。它们应适合系统部署的预期目的，并且限于对学习有用的信息。虽然这个目的在模型设计时并不总是精确知道的，特别是对于基础模型，选择的标签应对应于学习结束后预期的功能。此外，它们应允许客观和明确的标注。这些标签用于描述一个人的数据处理，其选择应忠实于被标注数据的人，特别是排除任何贬低、过时或涉及可能损害个人声誉的价值判断的术语。可能作为人的其他信息的替代值或代理的标注，例如敏感信息，必须特别注意，以防止在系统中无意中引入偏见，甚至歧视。如果标注来自业务流程，建议进行标签筛选或重新定级阶段，以将标注限制为对AI模型训练所必需和相关的。
定义一个标注标准，应用准确性和责任原则。CNIL建议按照以下步骤进行：
定义一个标注程序。它应该：
如果标注是业务流程的一部分，该流程必须整合这些标注标准，确保数据标注的质量。
译者注：在业务流程中，数据的标注可能已经包含了一些信息，但这些信息可能并不完全适合用于AI模型的训练。因此，建议进行标签的筛选或重新定级，确保只有对模型训练至关重要和相关的信息被保留。这有助于提高模型的准确性和避免不必要的偏见。
一个持续的核查程序：这个程序的目的是为了确保标注的质量，它应该在标注开始后不久实施，并通过定期或持续的控制在整个标注过程中持续。它应该是有文件记录的，并可以例如依赖于：
包括标注团队、系统开发团队和系统用户（如果已知）的讨论小组；
对随机样本的标注数据进行分析；
内部或外部审计；
对于每个需要在数据上学习的新用例，分析标注的相关性；
一个程序，以考虑数据集或训练模型的用户对标注质量和需要进行的更正的反馈；
在业务流程中预期的质量控制程序，必须适应以包括标注质量作为一个独立的目标。
2.涉及伦理参考或伦理委员会，作为良好实践，从一开始就贯穿整个标注阶段。这个委员会的多学科和客观特性将允许：
选择最佳的数据处理选项，无论是内部处理、分包（和选择分包商），还是使用不需要标注的解决方案（使用现有数据集或合成数据）；
建立一个标注标准，特别是选择和定义用于标注的标签；
核实标注标准的实施；
控制标注的质量和它们在部署阶段任务的适用性。
如果由业务流程生成的注释，则必须将这些措施集成到该流程中（例如，如果作为业务流程的一部分收集的信息（例如医疗诊断）后来被重新用于训练）。
信息提供以及行使数据主体权利
数据主体应被告知标注操作：
收集数据的人们的知情权，无论是个别还是集体，必须提及数据标注阶段。除了根据GDPR必须提供的信息外，作为良好实践，建议加强透明度，传达以下信息：
标注的目的，例如识别图像中的人，或将患者的医疗诊断与他们的医疗记录相匹配。
负责标注的组织，无论是由数据控制者组成的团队、分包商，还是合作社区。如果分包商的团队位于欧洲联盟之外，信息必须明确存在向欧盟以外的转移。使用分包商还必须遵守合同条款，如CNIL网站上“数据控制者和处理者之间的标准合同条款”页面所建议的条款。
在将标注人员与数据控制者联系的合同框架内，遵守的企业社会责任标准，例如关于工作条件、报酬或心理支持的保证，当标注涉及可能令人震惊的数据时。
采取的安全措施，特别是关于标注阶段的措施。
标注完成后，并且如果可能的话，在事后通知相关人士，他们可以被告知标注的结果，特别是分配给他们数据的标签，以提高透明度。这可能是在某些罕见情况下的良好实践，尤其是当：
标注可能对人们产生后果，这可能是当其数据代表训练数据集的全部或大部分时的情况。这可能是当一个人的数据显示用于调整模型（微调）以基于标注样本用于其特定用途时的情况。
译者注：
在某些情况下，个人数据的标注可能会对数据主体（即数据涉及的个人）产生实际的影响或后果。这种情况可能发生在以下几种情况：
1.数据代表性：如果一个人的个人数据在训练数据集中占有很大比例，那么这个数据集中的标注可能会对模型的学习结果产生较大影响。例如，如果一个数据集主要由某一个人的图像组成，而这个图像被错误地标注了，那么模型可能会学习到错误的特征，从而影响模型对这个人或类似情况的识别能力。
2.模型微调：在某些应用中，可能需要对预训练的AI模型进行微调，以适应特定的使用场景或任务。微调通常涉及使用特定的标注样本来调整模型的参数。如果用于微调的数据被错误地标注，或者标注不够准确，那么模型的预测可能会受到影响，导致在实际应用中产生不准确的结果。
3.个性化应用：在一些个性化服务中，如个性化推荐系统或定制化医疗诊断，AI模型可能需要根据个人的特定数据进行调整。如果这些数据的标注不准确，可能会导致服务或诊断不准确，从而对个人产生不利后果。
示例：
对于通过自动分析帮助家庭减少燃气消耗的工具配置，与工具的用户确认检测到的装置（例如暖气、热水器或燃气烤箱）是正确的，可以提高分析质量。
数据主体应对标注行使他们的权利：
当法律（如GDPR和数据保护法）规定的例外情况不适用时，数据主体可以在与其个人数据相关的标签上行使他们的权利，这在专门的权利行使文件中有详细说明。实际上，在许多情况下，分配给个人的标注可以被视为个人数据。因此：
访问权适用于标注：根据访问权请求提供的信息必须包含分配给个人数据的标注；
修正权、删除权（特别是撤回同意后）、反对权和限制权适用于标注。当这些权利被行使时，相同的处理应适用于相关数据及其标注。
可携带权仅在标注由个人提供，并且处理基于同意或合同的法律基础时，才适用于标注。
示例：
在通过血液采集获得的医疗结果，并在患者同意后收集的情况下，测量值（如血糖水平）可以作为训练数据，而结果（如糖尿病诊断）则是标注。在这种情况下，如果数据集是专门为研究目的而由患者明确提供的，那么测量值和结果的可携带权就适用。
在使用诸如语音助手之类的工具时，如果个人同意共享其数据以帮助数据处理者改进其语言理解算法，那么由数据处理者团队添加的标注（例如，对录音内容的分析）将不适用于可携带权。
区分标注、分析和自动化决策：尽管标注包括为个人数据分配一个或多个特征，从而可能构成一个配置文件，但它通常不被视为GDPR第4条第4款定义的分析，也不属于GDPR第22条意义上的自动化决策。
实际上，GDPR第4条第4款所指的分析必须是自动化处理的结果，其目的是评估个人方面，特别是为了分析或预测有关个人。使用“评估”一词表明分析涉及对个人的某种评价或判断。在大多数情况下，标注是为了方便模型学习处理、分类或根据这些信息区分数据而进行的分类。目的通常不是通过评价或判断来评估个人特征，因此不构成分析。
此外，GDPR第22条所指的自动化决策可能包括分析，必须对个人产生法律效力或以其他方式显著影响他们。在数据处理阶段，对个人数据进行标注通常不会对个人产生影响。因此，标注很少被视为分析，通常不属于GDPR第22条的范围，与部署阶段的AI系统输出相反，后者经常被视为完全自动化的决策。
从敏感数据进行标注
标注有时可能会揭示敏感数据（如民族起源、有关个人健康的数据处理、政治或工会意见等），即使源数据本身不是敏感数据。原则上，GDPR第9条禁止处理敏感数据；然而，存在一些例外。负责标注数据处理的机构必须确定这些例外情况之一，才能合法地实施处理。
示例：
在一项关于在线虚假信息传播的研究中，研究人员收集了社交媒体上公开可访问的帖子。作为这项研究的一部分，研究了公开在个人资料中表明其政治隶属的某些用户的角色，并且这种隶属被用来标注帖子并训练AI模型。政治意见是GDPR第9条所涵盖的敏感数据，因为这些数据已被公开声明，因此这种处理并不被禁止。
通过使用这些例外情况并完成《信息学和自由法》第66条规定的一种手续，例如遵守参考方法学的承诺或CNIL授予的授权，将允许处理用于AI系统开发的标注健康数据。
译者注：
在处理用于AI系统开发的标注健康数据时，如何合法地处理通常受到保护的敏感数据。这里提到的“例外情况”和“手续”是指在特定条件下，即使数据是敏感的，也可以进行处理的法律依据和必须遵循的程序。
1.例外情况：根据数据保护法规，如欧盟的通用数据保护条例（GDPR）和法国的《信息学和自由法》（LIL），某些情况下即使数据是敏感的，也可以在特定条件下进行处理。这些条件可能包括但不限于：数据主体的明确同意、为了重要的公共利益、法律义务、保护数据主体的生命等。
2.《信息学和自由法》第66条：这是指法国的特定法律条文，规定了在某些情况下处理敏感数据所需的特定手续。这些手续可能包括确保数据的处理是透明的、有控制的，并且符合数据保护的要求。
3.遵守参考方法学的承诺：这可能意味着数据处理者需要遵循一套被广泛认可的方法论或最佳实践，以确保数据处理的合法性和安全性。
4.CNIL授予的授权：CNIL是法国国家信息自由委员会（Commission Nationale de l'Informatique et des Libertés）的缩写，负责监管数据保护法规的执行。在某些情况下，数据处理者可能需要从CNIL获得明确的授权，才能合法地处理敏感数据。
当处理敏感数据时，必须采取特别的措施来增加对个人隐私的保护。CNIL建议：
根据客观和事实标准进行标注（例如，根据RGB系统测量肤色而不是标注图像中人物的民族起源），这可能通过使用不允许注释者解释的技术注释工具来允许；
将标注限制在数据的上下文中，避免得出超出数据中存在信息的结论；
加强标注的验证阶段，特别是关于它们的规律性（例如，更频繁）、完整性（例如，通过分析更大体积的数据）或效率（例如，通过记录验证结果或通过外部审计程序）；
增强标注数据的安全性，通过在内部进行标注处理、本地处理数据，并确保通过加密、记录和更强的访问限制来保护数据；
考虑从这些数据训练的模型中敏感数据的“反刍”和“推断”风险。如果数据处理者不训练模型而只是向其他机构提供数据，他应该鼓励他们对正在开发的模型进行这种反思。CNIL希望就这些风险最大的情况以及通过专门问卷减少这些风险的措施向有关行为者提问（无论是否处理敏感数据）。得出的建议将在分析收到的答复后公使用敏感数据管理歧视性偏见是一个关键问题，并且在人工智能领域将是一个专门实用指南的主题。