人和人律师事务所实务文章

声音权益保护的发展及人工智能合成声音的合规使用

来源：岳阳分所发布时间：2024-12-19 点击量：

引言

近年我国人工智能核心产业规模稳步增长，人工智能新技术不断萌发与完善。人工智能技术已经能够通过采集、分析特定自然人的声纹，最终模仿出可以以假乱真的特定自然人的人声，这项技术目前已被大众触手可及，但在人们享受该技术带来的新鲜感的同时，自然人声音权益被侵犯的情形愈发严峻。此前《民法典》的生效彰显出个人声音权益得到了空前重视，后《个人信息保护法》《互联网信息服务深度合成管理规定》都间接推动了立法对个人声音权益的保护。但人工智能生成声音的出现使声音权益的保护再次引起讨论，对法律固有的滞后性提出了新的挑战。

一、人工智能生成声音的基本概念

人工智能生成声音是指通过人工智能技术，模拟或合成特定人的声音。如在bilibili等短视频平台中随处可见的“麦克阿瑟”“雷军”等配音均由人工智能经过训练后生成，这种技术可用于多种场景，不限于目前常见的语音助手、虚拟主播、娱乐内容制作等。

网友通过人工智能合成人声制作的短视频不知何时席卷了网络娱乐平台，引起了人工智能模拟人声滥用的热潮，若对现象作出深究，这些行为都面临着侵权隐患。以目前热度较高的雷军配音为例，网络上充斥着以“雷军锐评×××”为题的短视频，网友通过人工智能分析雷军的外貌和说话声音，再给予指定的文案，即可以假乱真地生成一段雷军讲话的视频，由于视频偏娱乐向，文案也多半涉及宣泄情绪的不雅词汇，使观众对雷军形成一种反差的印象，并误以为这些不雅的言论确由雷军作出。然而雷军本人事实上早已呼吁网友不要再这样，这类视频虽然具有“鬼畜”的趣味性且收获了点击率，但代价则无疑是在未经雷军知情并许可的情况下使用了雷军的外貌与人声，多半扭曲了雷军的形象，尤其对于不太了解人工智能的观众而言，他们或许并不会怀疑音频的真实性，视频可能直接误导他们对雷军的认知，进而对雷军的形象造成不良影响。滥用人工智能模仿人声的行为本质上可能构成对受害人的丑化，让他人错误认定受害人的形象，从而损害受害人的名誉权、肖像权等。

二、声音权益保护制度的发展

（一）声音权益的传统保护形式

以《民法典》为声音权益的传统和现有保护形式的分界点，《民法典》的发布使立法对声音权益的保护升格到了新的高度，自然人声音权益的保护得到了空前重视，并在后续立法中起到指导作用。然而在《民法典》时代前，声音主要在《商标法》《著作权法》中被明确为知识产权的客体来保护，因为在当时人工智能技术并未发展到如今的程度，借助当时的技术水平模仿他人的声音难以实质对他人人格权构成侵害，且大众对人格权保护的意识并不强烈，在立法上，与自然人声音权益密切相关的人格权保护制度，也仅在《民法通则》中零散分布，其中第一百零一条规定了名誉权保护制度，公民、法人享有名誉权，公民的人格尊严受法律保护，禁止用侮辱、诽谤等方式损害公民、法人的名誉。若以事后的眼光来看，名誉作为一种社会评价，可以理解为社会或他人对特定自然人、法人及非法人组织的品德、才干、信誉、资历、声望和形象等方面的客观评判，如果认为声音也被视为特定自然人的一种标表特征，并作为他人评判特定自然人品德的一个方面，那么模仿他人的声音并予以丑化，理论上则构成侵害他人名誉权，然而此前这类判例极为少见，声音更多地被认为只具经济价值，而并未被赋予人身属性，不被直接作为人格权的客体予以保护。

自然人作为社会的基本组成部分，其声音权益作为其标表特征之一，相比非自然人理应更加得到重视，若法律仅从著作权的角度对声音权益进行保护，则保护力度显然不充分，一方面，非公众人物声音同样存在被侵权的风险，但由于价值则难以被估量，无法受到该规范的有效保护，导致民事主体平等原则面临失范的风险；另一方面，若仅对非自然人从声音角度进行名誉的保护，而作为非自然人根基的自然人的声音在名誉层面上反而得不到保护，无异于舍本逐末，背离了私法制度以人为本的立法理念。

《商标法》

第八条规定：“任何能够将自然人、法人或者其他组织的商品与他人的商品区别开的标志，包括文字、图形、字母、数字、三维标志、颜色组合和声音等，以及上述要素的组合，均可以作为商标申请注册。”如广为大众熟知的酷狗公司的“Hello Kugou”与腾讯公司的“滴滴滴滴”都已被作为声音商标注册，意味着企业在声音层面拥有法律保护，成为品牌在市场竞争中的独特标志，也可见《商标法》涉及声音权益保护的规定最终旨在保护商事主体的声音权益

《著作权法》

《著作权法》对声音权益的保护主要涉及表演作品和录音作品，如第三十九条第二款规定：“表演者对其表演享有保护表演形象不受歪曲的权利”；以及第四十二条规定：“录音录像制作者使用他人作品制作录音录像制品，应当取得著作权人许可，并支付报酬”，如游戏作品中的角色配音、电视广告中的配音都作为著作权的客体予以保护。

（二）声音权益的现有保护形式

为了填补对声音权益保护的立法缺漏，我国在民法角度效仿了其他国家对声音权益的保护模式，即采取了域外立法者扩张隐私权、肖像权等具体人格权的举措，如《魁北克民法典》第36条从隐私权的角度规定了声音权益的保护规则。[1]此种模式直接将声音纳入与其相类似的具体人格权之中，通过扩张隐私权范围的方式实现对声音的保护。我国《民法典》采取了扩张肖像权范围的方式，使声音正式被明确为肖像权的保护客体之一。除此之外，在其他与《民法典》交叉的制度中，为了顺应信息时代下立法需求的增长，也存在间接保护声音权益的规定，如《个人信息保护法》《互联网信息服务深度合成管理规定》等法律制度。

然而直至现阶段，《民法典》诞生的时间还并不长，其中诸多规定仍未得到进一步明确与落实，在实践中有待进一步酝酿，如第1023条规定中，“对自然人声音的保护，参照适用肖像权保护的有关规定”的“参照”在语义上并非完全适用，亦非类推使用，对此目前也还未有相关司法解释，诸如自然人声音权益被侵害的责任主体、归责原则、承担责任的具体标准等相关规定还有待细化[2]。

《民法典》

第一千零二十三条规定：“对自然人声音的保护，参照适用肖像权保护的有关规定。”这是自然人声音首次被立法认定为人格权的保护客体，并颠覆了肖像的传统概念，开辟了对自然人声音保护的新篇章。传统观念认为肖像权中的肖像二字，指的是人的外部形象，主要是人的外部形态。现有观点认为，除了外部形态外，具有可识别性的人体部位、肢体动作、音色若同样作为每个人独一无二的特征，可视作特定自然人外部形象的客观反映，符合肖像人身专属性的本质属性。

同时第一千零一十九条规定：“任何组织或者个人不得以丑化、污损，或者利用信息技术手段伪造等方式侵害他人的肖像权。未经肖像权人同意，不得制作、使用、公开肖像权人的肖像，但是法律另有规定的除外。”目前网络上出现的通过人工智能技术模仿他人声音并发布在网络平台的行为等同于制作、使用、公开他人肖像，已属民事侵权行为，适用相应侵权法律责任。

《个人信息保护法》

第四条规定：“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息，不包括匿名化处理后的信息。”声音作为可识别的自然人的信息，受到该法保护，同时，“个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等”，这意味着目前广泛存在的收集他人声音并通过人工智能等技术分析并篡改、使用的行为，也受到该法调整。不当使用他人声音的行为或面临罚款、记入信用档案等法律责任。与此同时，该法第十三条也规定了个人信息处理者处理个人信息的几种合法事由，如个人同意、履行约定或法定义务所必需、紧急情况以及基于公共利益合理使用的行为。

《互联网信息服务深度合成管理规定》

第六条规定：“任何组织和个人不得利用深度合成服务制作、复制、发布、传播法律、行政法规禁止的信息，不得利用深度合成服务从事危害国家安全和利益、损害国家形象、侵害社会公共利益、扰乱经济和社会秩序、侵犯他人合法权益等法律、行政法规禁止的活动。深度合成服务提供者和使用者不得利用深度合成服务制作、复制、发布、传播虚假新闻信息。转载基于深度合成服务制作发布的新闻信息的，应当依法转载互联网新闻信息稿源单位发布的新闻信息。”

第十四条规定：“深度合成服务提供者和技术支持者提供人脸、人声等生物识别信息编辑功能的，应当提示深度合成服务使用者依法告知被编辑的个人，并取得其单独同意。”在相应法律责任上，第二十二条规定：“依照有关法律、行政法规的规定处罚；造成严重后果的，依法从重处罚。构成违反治安管理行为的，由公安机关依法给予治安管理处罚；构成犯罪的，依法追究刑事责任。”

第十七条规定：“深度合成服务提供者提供以下深度合成服务，可能导致公众混淆或者误认的，应当在生成或者编辑的信息内容的合理位置、区域进行显著标识，向公众提示深度合成情况：（一）智能对话、智能写作等模拟自然人进行文本的生成或者编辑服务；（二）合成人声、仿声等语音生成或者显著改变个人身份特征的编辑服务；（三）人脸生成、人脸替换、人脸操控、姿态操控等人物图像、视频生成或者显著改变个人身份特征的编辑服务；（四）沉浸式拟真场景等生成或者编辑服务；（五）其他具有生成或者显著改变信息内容功能的服务。深度合成服务提供者提供前款规定之外的深度合成服务的，应当提供显著标识功能，并提示深度合成服务使用者可以进行显著标识。”

第十八条规定：“任何组织和个人不得采用技术手段删除、篡改、隐匿本规定第十六条和第十七条规定的深度合成标识。”

《生成式人工智能服务管理暂行办法》

暂行办法主要将适用范围限定在“提供服务”层面，主要针对于对人工智能服务提供者进行规范管理，但其中第四条也对用户提出了使用规范：“提供和使用生成式人工智能服务，应当遵守法律、行政法规，尊重社会公德和伦理道德，遵守以下规定：（一）坚持社会主义核心价值观，不得生成煽动颠覆国家政权、推翻社会主义制度，危害国家安全和利益、损害国家形象，煽动分裂国家、破坏国家统一和社会稳定，宣扬恐怖主义、极端主义，宣扬民族仇恨、民族歧视，暴力、淫秽色情，以及虚假有害信息等法律、行政法规禁止的内容；（二）在算法设计、训练数据选择、模型生成和优化、提供服务等过程中，采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视；（三）尊重知识产权、商业道德，保守商业秘密，不得利用算法、数据、平台等优势，实施垄断和不正当竞争行为；（四）尊重他人合法权益，不得危害他人身心健康，不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益；（五）基于服务类型特点，采取有效措施，提升生成式人工智能服务的透明度，提高生成内容的准确性和可靠性。”

三、人工智能合成声音的合规使用

综合上述相关制度，合法合规地使用人工智能合成声音需要参照《著作权法》《民法典》的相关规定，取得相关著作权人、声音主体自然人的合法授权或许可，否则可能面临侵犯他人的著作权或人格权益的隐患。除此之外，现阶段人工智能合成声音与自然人的个人信息以及网络安全等方面存在密切联系，在使用人工智能合成声音时还应当参照《个人信息保护法》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等制度，且国家互联网信息办公室近期起草的《人工智能生成合成内容标识办法（征求意见稿）》也预示着未来对声音权益的保护方向。对于人工智能用户个人和服务提供商而言，遵照这些制度可以有效规避在使用人工智能合成声音过程中可能造成的法律隐患。

（一）取得声音权人的许可

依据《民法典》第1023条第2款的规定，可参照适用肖像权的相关保护规则对声音进行保护。任何人未经他人许可、侵害他人声音权益的，受害人有权依照肖像权的相关保护规则主张民事责任。以及《个人信息保护法》《著作权法》中均明确了使用他人声音前需经过他人的许可事宜，除此之外，《互联网信息服务深度合成管理规定》第十四条也明确：“深度合成服务提供者和技术支持者提供人脸、人声等生物识别信息编辑功能的，应当提示深度合成服务使用者依法告知被编辑的个人，并取得其单独同意。”因而，虚拟数字人运营方在其使用的深度合成技术或其他技术需收集或以任何形式使用人声、人脸等生物识别特征时，用户和服务提供方理应履行全面告知义务并提前取得信息主体的“单独同意”。

（二）在人工智能合成声音中进行标识

《人工智能生成合成内容标识办法（征求意见稿）》指明了在对人工智能合成声音进行使用时，应尽标识义务的趋势。除此之外，《互联网信息服务深度合成管理规定》第十条明确：“深度合成服务提供者应当建立健全用于识别违法和不良信息的特征库，完善入库标准、规则和程序，记录并留存相关网络日志。深度合成服务提供者发现违法和不良信息的，应当依法采取处置措施，保存有关记录，及时向网信部门和有关主管部门报告；对相关深度合成服务使用者依法依约采取警示、限制功能、暂停服务、关闭账号等处置措施。”网络的发达使得信息的溯源难度巨大，当某一侵权行为的影响被扩散时，找到始作俑者难度巨大，故对于服务提供方而言，应施以能够有效识别、分辨并追溯某一电子数据来源的技术手段，如在生成的音频上附以特定声音水印等，并且通过这种水印，能够对使用的用户进行追踪，如发现存在违法使用他人声音的情况，则应对相关用户被采取封号等处理措施，对违法行为有效规制与惩戒。

（三）注意使用场景的合法性

对于人工智能合成声音技术，我们更应谨防窃取他人音色用以违法犯罪的行为，《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》均强调在使用生成式人工智能构成犯罪的，依法追究刑事责任。人声模仿的可行性必然意味着某些犯罪的方法将迎来革新，如利用模仿人声实施诈骗行为，或是在诉讼取证活动中，通过人工智能声音模仿技术伪造证据。如在2024年9月20日发生的三只羊公司事件中，三只羊公司报警称，网上传播三只羊卢某某的音视频不实，后调查发现王某某利用卢某某的音视频材料，使用人工智能工具训练生成了假冒卢某某的音频，且传播至网络上，引起谣言大量传播，此后王某某被采取刑事强制措施。该案例也意味着电子数据的鉴定技术迎来了更大的需求与挑战，应不断技术革新，准确证伪某段音频是否具有人为编造、篡改痕迹等，以更好地满足司法需要。

（四）注意生成内容的合法性

《互联网信息服务深度合成管理规定》第六条明确：“任何组织和个人不得利用深度合成服务制作、复制、发布、传播法律、行政法规禁止的信息，不得利用深度合成服务从事危害国家安全和利益、损害国家形象、侵害社会公共利益、扰乱经济和社会秩序、侵犯他人合法权益等法律、行政法规禁止的活动。深度合成服务提供者和使用者不得利用深度合成服务制作、复制、发布、传播虚假新闻信息。转载基于深度合成服务制作发布的新闻信息的，应当依法转载互联网新闻信息稿源单位发布的新闻信息。”因此，对于用户而言，在使用人工智能语音的过程中应当避免生成内容本身具有违法性，对于服务提供方而言，可以通过关键词检测的方式，对用户生成的内容预先审查。

结语

在人工智能技术不断发展的当下，声音权益保护越发显得尤为重要。人们在享受人工智能技术带来的乐趣的同时，也应了解相关法律制度，避免逾越法律的红线。从《互联网信息服务深度合成管理规定》的发布以及《人工智能生成合成内容标识办法（征求意见稿）》的出台中，都可以预见在未来针对人工智能领域的声音权益保护制度和实施机制将更加完善。

[1]王利明.论声音权益的法律保护模式[J].财经法学,2024(1):11.

[2]贺雄，唐飞.人工智能时代自然人声音权益的民法保护[J]，长江大学学报（社会科学版），2024，47（4）：119.

返回列表

法律视界

声音权益保护的发展及人工智能合成声音的合规使用

作者简介