OpenAI宣布签署欧盟AI法下《GPAI行为准则》全文翻译|附前沿模型预备框架2025年6月版主要内容

来源:那一片数据星辰

文章摘要
OpenAI在欧盟《通用目的人工智能行为准则》发布后,宣布将签署,具体声明全文翻译如下: 2025年7月11日更新:随着《通用目的人工智能行为准则》(Code of Practice for Gene
OpenAI在欧盟《通用目的人工智能行为准则》发布后,宣布将签署,具体声明全文翻译如下:
2025年7月11日更新:随着《通用目的人工智能行为准则》(Code of Practice for General Purpose AI)最终文本正式公布,我们特此概述公司针对2025年8月2日生效的通用目的人工智能模型相关条款所采取的落地路径。
去年,OpenAI发布了这份《欧盟人工智能法入门》,旨在初步阐述我们如何为新法律义务的落地做准备。此后,我们积极参与文本实施:参与制定《通用目的人工智能行为准则》,为AI提供方建立合规框架。经过数月与专家、公民社会及产业的集体努力,最终准则现已发布。今天,我们宣布决定签署该准则,并以之作为证明我们履行《欧盟人工智能法》下相关义务的具体依据。
签署准则标志着我们在《欧盟人工智能法》整体合规计划中又迈出实质性一步,体现了我们确保法规生效时业务连续性、可靠性与可信度的承诺,同时继续与欧洲企业及公民合作,为其提供愈发强大、安全、稳健的AI模型,共享AI革命红利。
签署准则进一步巩固了我们过去数年率先提出的一系列行业领先的安全与透明度举措。我们是最早发布全面安全与安保协议——《前沿模型预备框架》(Preparedness Framework, 2023)的公司之一,该框架阐明我们安全部署前沿AI模型的方法。
为持续审视并完善内部问责与治理框架,我们于2025年4月发布了更新版《前沿模型预备框架》。
随着我们持续开发并部署能力愈发强大的技术,我们主动监测并缓解广泛的新型风险及现实安全关切,以保持模型的可靠性与安全性,并不断迭代优化这些流程。
长期以来,我们在重大版本发布时同步发布详细的系统卡(System Cards)与技术文档,阐明模型能力边界、已测试风险领域及尚待学习的部分。
安全中心(Safety Hub)面向公众开放模型的安全评估结果;
红队网络(Red Teaming Network)引入外部专家对模型进行压力测试;
模型规范(Model Spec)公开呈现我们如何塑造模型行为以体现人类价值观与民主规范。(公众号对模型规范的梳理一键直达)
上述工作共同为行业安全与保障标准奠定基础,并基于最佳实践为制定可行的行为准则提供参考。构建安全且负责任的AI永无终点,我们将持续迭代优化安全策略,确保我们的技术在全球任何地方都能负责任地造福大众。
未来数月乃至数年,随着《欧盟人工智能法》逐步落地,我们将与欧盟人工智能办公室(EU AI Office)、相关主管机关及客户紧密合作,共同确保AI为欧洲社会与经济带来可持续利益。
附:OpenAI《前沿模型预备框架》(2025年6月V2版)
1、引言
OpenAI 的使命是确保 AGI(通用人工智能)造福全人类。为此,我们承诺安全开发和部署高度强大的 AI 系统;这些系统带来显著益处,也伴随新的风险。我们在每一步都构建安全性,并分享经验,使社会能够就前沿 AI 带来的新风险做出明智选择。
《前沿模型预备框架》(以下简称“框架”)是 OpenAI 追踪并预备应对可能引发严重损害的前沿能力的方法。我们目前将工作聚焦于三大前沿能力领域,称为“受控类别”:
• 生物与化学能力——在解锁发现与疗法的同时,也可能降低制造和使用生物或化学武器的门槛;
• 网络安全能力——在保护易受攻击系统的同时,也可能带来规模化网络攻击和漏洞利用的新风险;
• AI 自我改进能力——在更快解锁有益能力的同时,也可能对人类控制 AI 系统带来新的挑战。
在每个领域,我们制定并维护威胁模型,识别严重损害风险,并设定可度量的阈值,以指示模型何时足够强大到显著构成这些风险。在我们建立足够降低相关严重损害风险的保障措施之前,我们不会部署这些非常强大的模型。本框架概述了我们预期需要的保障措施类型,以及我们将如何在内部确认并对外展示保障措施已足够。
在本框架更新版中,我们还引入了一组“研究类别”:这些能力领域存在造成严重损害的潜在风险,但尚未达到受控类别的标准;我们正投入资源,以进一步开发其威胁模型和能力引出技术。
我们持续优化实践并推进科学,在应对风险的同时释放这些技术的益处。本次修订聚焦于对未来比当今模型更强大的系统所需的保障措施。
注 1:本文中“严重损害”指造成数千人死亡或重伤,或造成数千亿美元经济损失。我们的安全体系覆盖广泛风险谱系,包括严重程度低于此阈值的危害。设定高阈值旨在确保最严重风险获得与其量级相称的关注。
2、决定聚焦何处
2.1 整体风险评估与分类
我们通过整体风险评估流程,判断前沿能力是否造成严重损害风险。该流程结合内部研究与信号,并在适当时纳入学术研究人员、独立领域专家、行业机构(如 Frontier Model Forum)、美国政府及其合作伙伴的反馈,以及相关法律和政策要求。
若认定某能力构成严重损害风险,我们可决定将其作为受控类别或研究类别进行监测。
受控类别需同时满足五项标准:
合理:能够识别由前沿 AI 促成严重损害的因果路径;
可测:可构建或采用能力评估以密切跟踪潜在严重损害;
严重:存在可造成严重损害的合理威胁模型;
净新增:该结果(包括规模、行为者、成本)在不使用前沿 AI 的情况下,无法以现有工具与资源(截至2021 年)实现;
瞬时或不可补救:一旦实现,其严重损害立即显现,或由于缺乏可行补救措施而不可避免。 我们定期或在获得重要新信息时,更新受控类别。 研究类别指尚未满足上述标准,但可能造成或促成严重损害、我们需提前投入研究以应对未来风险的领域。
2.2 受控类别
对每一受控类别,我们开发并维护威胁模型,识别该领域前沿能力可能导致的具体严重损害风险,并设定相应能力阈值(High 与 Critical)。安全顾问组(SAG)审查并批准这些威胁模型。
High 阈值表示显著增加现有严重损害风险向量的能力;达到该阈值的系统需具备充分降低相关风险的保障措施方可部署,并在开发过程中适用相应安全控制。
Critical 阈值表示带来全新严重损害风险向量且无前例可参照的能力;无论是否部署,达到该阈值的系统在开发阶段即需具备充分降低风险的保障措施。
表 1 列出各受控类别的阈值、关联风险及风险特定保障指南:
类别 High阈值风险 Critical阈值风险
生物与化学能力 协助"新手"制造已知生物/化学威胁,增加非国家行为体恐怖事件频率 协助专家开发新型高危威胁(如CDC A类生物制剂)或全自动完成威胁合成周期
网络安全能力 自动化端到端网络攻击或漏洞利用,打破攻防平衡 工具增强模型可独立发现并开发零日漏洞,或执行新型网络攻击策略
AI自我改进能力 等效为每位研究员配备高效助手,加速AI研发 实现递归自我改进(如4周完成原需20周的模型代际提升),超出人类控制能力

2.3 研究类别
下列前沿能力领域暂不满足受控类别标准,但我们认为需立即投入研究:
• 长程自主性:模型可在无需人类指导下执行长期行动序列;
• 隐匿(Sandbagging):模型在安全/能力评估中显著偏离真实性能;
• 自主复制与适应:模型在不依赖其他受控类别能力的情况下,自主生存、复制、获取资源并实施非法活动;
• 破坏保障措施:模型主动破坏自身保障措施;
• 核与辐射:模型显著加速核或辐射威胁开发。
我们将在内外部合作下:
• 进一步开发威胁模型;
• 推进能力测量科学并投资严谨评估;
• 在可行范围内向公众分享研究发现。
3、度量能力
3.1 评估方法
我们投入大量资源开发或采用科学支持的评估,以高精度、高召回地指示系统是否达到受控类别阈值。评估旨在逼近威胁模型预期敌手可提取的全部能力,包括使用最高能力级别的系统设置、安全拒绝率可忽略的模型变体,以及最佳现成脚手架。
评估形式:
• 可扩展评估(Scalable Evaluations):自动化评估,预设“指示性阈值”;
• 深度评估(Deep Dives):包括人类专家红队、生物湿实验、第三方独立评估等,用于验证可扩展评估结果。
示例:为评估模型降低生物武器制造门槛的程度,当前评估跨越生物威胁创建五阶段(构想、获取、放大、配方、释放),测试模型提供关键敏感信息及与工具整合能力。详情见 o1、Operator 系统卡。
3.2 测试范围
框架适用于任何“新增或更新部署”,若其有能力达到未在现有《保障措施报告》中解决的能力阈值。例如:
• 拟对外部署的每一前沿模型;
• 任何显著提升能力前沿的代理系统(即使仅内部部署);
• 现有模型部署条件的重大变化(如开放权重、新增微调);
• 能力意外大幅提升的增量更新或蒸馏模型。
若开发阶段可能构成严重风险,我们选择适当检查点纳入框架。若对是否覆盖存在疑问,由 SAG 最终确定。
3.3 能力阈值判定
部署前,每款受覆盖模型需完成可扩展评估套件;结果及重要观察纳入《能力报告》提交 SAG。SAG 据此及全部可用证据作出整体判断,并决定:
• 确认阈值已达成,需实施并评估相应保障措施;
• 确认阈值未达成,无需进一步行动;
• 建议进行深度评估以获取额外证据。
4、防范严重损害
4.1 保障措施选择
每项能力阈值在框架下均有对应风险特定保障指南。流程如下:
• 识别严重损害在拟议部署中可能实现的路径;
• 针对每条路径,识别现有或应新增的具体保障措施;
• 为每项保障措施设定有效性度量与阈值。
保障措施区分“恶意用户”与“失准模型”两类风险实现方式。表 3 列示两类保障示例。附录 C 提供示例清单,非最终清单。
4.2 保障措施充分性
我们将拟采用的所有保障措施信息汇编为《保障措施报告》,内容包括:
• 已识别风险实现路径及对应保障措施/安全控制;
• 保障措施有效性详情;
• 基于部署的残余严重损害风险评估;
• 信息限制说明。
SAG 负责评估保障措施是否充分降低严重损害风险,依据:
• 《能力报告》所示能力水平;
• 威胁模型及专家建议所示风险;
• 《保障措施报告》所示保障措施及有效性;
• 其他厂商已部署模型的基线风险。
SAG 可:
确认保障充分,建议部署;
要求进一步评估;
认定保障不足,建议修改部署条件或新增保障。 所有建议提交 OpenAI 领导层最终决策。
4.3 边际风险
若其他前沿 AI 开发者发布 High 或 Critical 能力系统且未采取相当保障,可能显著提高全球基线风险。若我们能严格确认此类情形,可在不减损整体风险、公开声明、并保持比对方更高保护水平的前提下,调整所需保障等级。
4.4 内部使用与进一步开发前的保障增强
达到或预计达到 Critical 能力的模型在开发阶段即需额外安全保障,无论是否部署。我们当前无任何模型达 Critical 级别,并将在未来模型达该级别前更新框架。
5、建立信任
5.1 内部治理
• 明确决策实践(见附录 B);
• 内部透明度:记录并向员工提供测试与 SAG 建议摘要(敏感信息除外);
• 不合规:员工可依《提出关切政策》举报潜在违规,我们将调查并采取纠正措施。
5.2 透明度与外部参与
• 公开披露:对重大部署发布《预备框架结果摘要》,包括测试范围、受控类别能力评估、部署决策理由、已达 High 阈值的保障信息(必要时可编辑)。
• 第三方能力评估:若部署需深度测试,我们将在可行时与第三方合作独立评估。
• 第三方保障压力测试:若部署需第三方测试保障,我们将合作开展。
• 独立专家意见:SAG 可邀请领域独立专家对证据提出意见,纳入整体分析。
附录 A 变更日志(略,原文已列 12 项关键更新)。
附录 B 决策实践(略,详述 SAG、领导层、董事会安全与安保委员会 SSC 的权责)。
附录 C 示例保障、控制与有效性评估(略,分别针对恶意用户、失准模型、安全控制给出详细示例表)。
技术驱动法律,专业成就未来