人工智能时代的声音——浅谈声音权益的民法保护

作者：韩金鑫来源：墨娱时间：2024-07-17

引言近年来，人工智能（AI）技术已经不再是一个新生事物，它慢慢渗透进了我们生活的方方面面。从最早的AlphaGo、智能机器人到现在的ChatGPT、AI歌手、Suno（AI音乐）。

引言
近年来，人工智能（AI）技术已经不再是一个新生事物，它慢慢渗透进了我们生活的方方面面。从最早的AlphaGo、智能机器人到现在的ChatGPT、AI歌手、Suno（AI音乐）。诚然，AI丰富了我们的物质与精神世界，为许多产业带来了革新。但是，AI在为我们提供各种便利的同时，也带来了一系列的法律问题。以“AI歌手”为例，利用大家熟知的著名歌手的声音来翻唱其他歌曲，在视频网站的单曲翻唱播放量都已经达到数百万次。用户们利用大数据广泛抓取网络上他人的声音进行训练，然后模仿或是使用这些声音来说那些本人从未说过的话语，以达到自己特有的目的。
那么如此利用他人的声音是否存在法律风险，又是否需要原声音人的许可。本文将站在民法声音权益的视野上，探寻声音的特性、主体及其保护范围与救济路径。
一、法律上的声音
汉语词典对声音有以下几个释义：1.指由物体振动而发生的声波通过听觉所产生的印象。这是从物理层面对声音本质的定义。2.指说话的声气和口音，这是对声音具体表现形式的描述。而法律上的声音需要由人的声带振动发出的声响，且具备以下特征。
1.独特性
“世界上没有两片相同的雪花”，世界上也不存在两个人拥有完全一样的声音，每一个人的声音都有其独特性。由于发声器官与共鸣器官在不同个体间存在细微到显著的差异，如大小、形状和位置的不同，因此在发声时气流经过各部位所产生的共振效应自然就有所变化，从而形成了个人之间迥异的声音特质。就像“指纹”一样，通过技术处理，每个人都可以拥有自己的“声纹”，这是每个人声音独特性的象征。
2.可识别性
自然人声音的可识别性是指在他人反复多次或长期聆听的基础上，通过该声音特征能识别出特定自然人。[1]《红楼梦》中未见其人，先闻其声的王熙凤让贾府“个个皆敛声屏气，恭肃严整如此”，就是声音具有可识别性的一个例子。由于每个人的声音都不尽相同，这就允许大家通过根据其音色、音高、音质和音强等要素，关联到他本人。这是声音最为显著的一个特征，也正因此它才会被《民法典》纳入保护。人工智能时代，有些用户利用人的声音可识别性的特征，使大众误认声音的主人，这有着巨大的法律隐患。
3.经济性
通过声音的独特来识别一个人，这是声音的人格利益属性，除此之外，声音还蕴含了巨大的经济价值。有配音演员因其独特的嗓音而饱受喜欢，也有歌手因为声带受损而退出歌坛。这是声音经济性的体现，独特的声音能带来与之对应的经济价值。
从法律层面来看，声音是每个自然人人格的组成要素，彰显了个人的人格尊严，是每个人作为人格主体的重要特征，并可以用来识别每个自然人的身份。[2]
也因此，在2021年生效的《民法典》中明确规定了声音权益的保护：第1023条第二款明确规定了对自然人声音的保护参照适用肖像权保护的规定。
二、声音权益的主体
1. 自然人是声音权益的主体
正如上文所言，《民法典》关于声音权益的保护限定于对自然人的保护，而在现实生活中存在着几类特殊的自然人：胎儿，与死者。
对于胎儿而言，《民法典》规定了胎儿在遗产继承等涉及胎儿利益保护的情况时，胎儿视为具有民事权利能力。但鉴于胎儿的发声器官未完成发育，其也不能发出其独特的声音，故声音权益的主体应当不包括胎儿。
关于死者的声音保护，现今AI复活亲属、名人屡见不鲜，这些“数字生命”需要利用到死者的声音。而《民法典》944条规定了，死者的肖像等受到侵害时，死者的近亲属有权请求行为人承担民事责任。因为声音权益的保护参照适用肖像权，所以死者的声音权益同样受保护，若上述行为存在侵权，死者的近亲属可以主张行为人承担民事责任。
此外，关于自然人使用变声器而发出的声音，其权益是否应当得到保护？根据声音的属性，笔者认为只要该声音能让听者识别出声音发出者，其声音权益就应受到保护。例如有些主播利用变声器打造专属于自己的独特声音，该声音与主播强关联，用户能通过该声音准确识别主播，此种情况下，应当保护主播的声音权益。
2. 人工智能及其背后主体无法享有声音权益
在一个人工智能飞速发展的时代，除了自然人能发出声音之外，许多软件提供了虚拟人声、亦或是合成人声。根据民法典的规定，显然除了自然人的声音权益之外一概不保护，也就是说人工智能及其背后主体无法享有声音权益。以采样于日本声优的“初音未来”为例，“初音未来”这一虚拟歌手形象在网络中拥有众多粉丝，但其本质是一款语音软件，且其生成声音不可识别到某一自然人，因此“初音未来”发出的“声音”并非民法保护的声音权益，其无法成为声音权益的主体，其制作公司也不享有基于该形象而产生的声音权益。类似此种声音或许可以通过著作权法或者反不正当竞争法受到保护，但不能通过民法上的声音权益而受到保护。
三、声音权益的侵权场景
《民法典》对于声音权益的保护没有采取详细列举的做法，而是规定了参照适用肖像权保护的规定。具体来说，声音的许可使用可以参照适用《民法典》第1021条、第1022条关于肖像许可使用合同的规定。声音权益的保护可以参照《民法典》第1019条关于禁止他人擅自制作、使用、公开肖像权人的肖像的规定。另外，声音的合理使用可以参照《民法典》第1020条所规定的肖像合理使用规则。综合案例与生活实际，侵害声音权益的行为大多存在于以下场景。
1. 公开他人录音
声音具有标识个人身份的作用，在自然人不愿意对其本人录音进行公开的情况下，不可随意公开他人录音。具体来说，如果一方未取得另一方关于公开录音的许可，公开他人声音，侵害了当事人的声音权益，构成声音侵权。如果录音的内容还涉及个人隐私，未经当事人同意而公开录音，将构成声音侵权和隐私权侵权的责任竞合。
2. 使用他人声音
自然人通过许可第三人对自己的声音使用，可以获得财产利益。例如，导航软件受当事人许可使用名人的声音为使用者提供服务，配音演员许可影视制作公司使用其声音来获取报酬。但当行为人未经许可就使用他人声音则可能构成侵权，将承担民事责任。
在成都互联网法庭开庭审理的全国首例影视剧台词声音权纠纷案中，合议庭认为，被告开发、发布的游戏未经原告同意也未取得相应授权，使用其参演的影视剧经典桥段中的台词声音，构成对原告声音权益的侵犯。法庭判决被告向原告赔礼道歉，赔偿经济损失。[3]
3.模仿他人声音
模仿他人声音可以被认为是使用他人声音的一种特殊情况，对其是否侵权需要具体情况具体分析。总的来说，应区分是公开表明模仿还是故意进行混淆，若是公开表明模仿，不会对被模仿者造成精神或财产上的损害，也就不存在侵权的可能性。而若故意进行混淆，又在听众众多的情况下、以营利为目的、模仿的是名人声音的情况下，被认定侵权的可能性较大。当然，模仿他人声音需要达到一定的相似度，起码达到容易使听众产生混淆的程度。
而若模仿者恶搞性地模仿他人声音，造成被模仿者名誉和声望的受损，无论其公开表明模仿还是故意进行混淆，都将落入丑化、污损他人声音权益的范围。
4.伪造他人声音
人工智能技术的发展，让伪造他人声音变得极为简单，且极为真实，以至于公众很容易误以为是当事人本人发出的声音，若未经许可，就会对声音权益构成侵害。参照不可伪造他人肖像，他人的声音也不可伪造。利用人工智能手段伪造声音是一种频发且典型的声音侵权形态。
在北京互联网法院宣判的全国首例AI生成声音人格权侵权案中，原告殷某是一名配音师，经朋友告知，发现他人利用其配音制作的作品在多个知名APP广泛流传。经声音筛选和溯源，发现上述作品中的声音来自于某一被告运营的平台中的文本转语音产品。而原告曾接受另一被告的委托录制录音制品，其声音经过多个被告多道程序被AI化处理后用于盈利。法院认为当AI声音与特定自然人的音色、语调、发音风格等具有高度一致性，能够引起一般人产生与该自然人有关的思想或感情活动，能够将该声音联系到声音本人，进而识别出自然人的主体身份，在具备可识别性的前提下，自然人声音权益的保护范围可及于AI生成声音。[4]
四、声音权益的救济
综合《民法典》的各项规定，对于声音权益的救济存在以下途径。根据《民法典》第1182条，对于侵害人格利益造成财产损失的，按照被侵权人受到的损失或侵权人的获利进行赔偿，如果两者难以确定而被侵权人和侵权人无法协商一致的，由法院根据实际情况确定赔偿数额。这也是法院目前裁判使用较多的做法，上述两个典型案例均判决侵权方支付经济赔偿。而法院对于精神损害赔偿均未认定，此救济途径可能需要法律进一步的发展，和声音权益案件的实践发展。
注释
[1] 参见北京互联网法院公众号文章全国首例AI生成声音人格权侵权案一审宣判.
[2] 王利明.论声音权益的法律保护模式[J].财经法学,2024,(01):3-20.DOI:10.16823/j.cnki.10-1281/d.2024.01.012.
[3] 参见成铁第一法院公众号文章成都互联网法庭宣判全国首例影视剧台词声音权纠纷案.
[4] 同引用1.