目 录CONTENT

文章目录
AI

TTS 声音克隆评测

解小风
2025-05-19 / 0 评论 / 1 点赞 / 25 阅读 / 3469317 字

技术选型

模型名称-版本

音色克隆

项目地址

简评

GPT-SoVITS-V3

Few-Shot Zero-Shot

https://github.com/RVC-Boss/GPT-SoVITS

3~10秒音频零样本克隆,1分钟数据集即可训练微调模型,支持中/粤/韩/日/英跨语种推理,V3 的GPT训练集时长 7K 小时,增加支持并行推理。

CosyVoice2-0.5B

Zero-Shot

https://github.com/FunAudioLLM/CosyVoice

稳定性强、低延迟、高精度。支持跨语种/方言:中文、英文、日语、韩语、中国方言(粤语、四川话、上海话、天津话、武汉话等),最大的特色是 instruct 模型,可以自定义说话人的情感、语气、角色扮演等。

FishSpeech-V1.5

Few-Shot Zero-Shot

https://github.com/fishaudio/fish-speech

不错的推理速度和零样本声音克隆效果,支持多种语言:英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。在官方的SDK、API 或 Playground 中,可以实现细粒度的控制,比如特定单词/汉字的发音、语气词、停顿等

F5-TTS-V1

Few-Shot Zero-Shot

https://github.com/SWivid/F5-TTS

优秀的音色克隆和音质,支持微调,可并行批量推理,推理速度较快,但只支持中/英,复杂情感和语调自然度相对较弱

ChatTTS

不支持

https://github.com/2noise/ChatTTS

专注于对话式任务,能合成超自然且富有表现力的语音。支持多个说话者,可实现细粒度的控制,比如笑声、停顿和插入语。


评测方案

评测方法

评测环境

  • APU:Intel-Core-i9-12900K

  • 内存:32G

  • GPU:NVIDIA-RTX3090-24G

  • 操作系统:Ubuntu-22.04


性能评测

指标代号

指标名称

指标类型

指标描述

P01

显存占用

客观评测

训练和推理时占用的显存大小

P02

首包延迟

客观评测

音频流式合成的首包耗时

P03

实时因子 RTF

客观评测

RTF = 合成音频花费的时长 / 合成音频的时长


音频评测

指标代号

指标名称

指标类型

得分区间

指标权重

指标描述

A01

通用场景 MOS 得分

主观评测

[1.0 - 5.0]

5

使用 MOS 系统评测通用场景下的整体效果

A02

通用场景核心能力

主观评测

[1.0 - 5.0]

5

测试专业术语、多音字、数字进制、数字符号、年代时间、电话账号、特殊姓氏生僻字的表现力及可控性

A03

通用场景长文本稳定性

主观评测

[1.0 - 5.0]

4

测试长难句断句能力,以及长文本是否存在吞字、卡顿、胡言乱语的现象

A04

音色相似度

主观评测

[1.0 - 5.0]

5

测试声音克隆的音色相似度、音色稳定性、停顿节奏等音色特点还原度

A05

泛用性

主观评测

[1.0 - 5.0]

2

测试 zero-shot 场景下,给定一段音质较差的参考音频,声音克隆的表现力及可控性

A06

多情感

主观评测

[1.0 - 5.0]

4

测试开心、恐惧、厌恶、愤怒、悲伤等情绪的表现力及可控性

A07

极端情绪

主观评测

[1.0 - 5.0]

2

测试怒吼、尖叫、失声、口齿不清等极端情绪的表现力及可控性

A08

特殊语气

主观评测

[1.0 - 5.0]

2

测试 语气助词、口癖、气口音、结巴 等特殊语气的表现力及可控性

A09

跨语种

主观评测

[1.0 - 5.0]

3

测试 汉语普通话参考音频 场景下,英语、日语、韩语等语种的音频合成能力

A10

方言

主观评测

[1.0 - 5.0]

3

测试 方言参考音频 场景下,粤语、闽南语、四川话、东北话、河南话等方言的音频合成能力


MOS 系统

MOS值

总体描述

详细描述

5.0

超自然

语音达到了真人广播级水平,很难区分合成语音和真人语音的区别。从整体上来说语音清晰流畅,声音悦耳动听,非常容易理解,听音人非常乐意接受。

4.5

自然

没有明显不正常的韵律起伏,清晰流畅,容易理解,达到了人们普通对话的质量,听音人乐意接受。

4.0

一般

没有明显的分词错误和严重的语言韵律错误,有很少的一两个音节不太清晰,听音人可以没有困难的理解语音的内容,听音人多数认为可以接受。

3.5

欠自然

语音还算流畅,错误较少,偶尔有几个音节不太清晰,韵律起伏不是很自然但也算正常,多数听音人勉强可以接受。

3.0

机械音

语音不太流畅,有比较容易察觉的语言错误,韵律起伏不太正常,能感觉到机械感,一般情况下可以理解语音的内容,听音人不太愿意接受。

2.0

较差

语音不流畅,完全没有正常的韵律起伏,听起来只是把单独的音节简单堆砌到一起,整体上听音人可以勉强听懂一些内容,但是不能接受。

1.0

很差

语音毫无流畅可言,只能听懂只言片语,基本上无法理解,听音人完全不能接受。


评测语料

A01 通用场景常用语句

A0101 您好,我是您的专属客服,您在网站中看到了我们的产品信息是吗,有什么想咨询的呢?
 ​
A0102 我生命里最大的突破之一,就是我不再为别人对我的看法而担忧。此后,我真的能自由地去做我认为对自己最好的事。
 ​
A0103 人生的剧本你早在天堂看了,你之所以选择这个剧本,是因为这一生中,有你认为值得的地方。

A02 通用场景核心能力

【专业术语】
A0201 数罪并罚是指对犯两个以上罪行的犯人,就所犯各罪分别定罪量刑后,按法定的原则和刑期计算方法判决宣告执行的刑罚。
 ​
A0202 图灵奖是由美国计算机协会设立的奖项,名称取自艾伦·麦席森·图灵,旨在奖励对计算机事业作出重要贡献的个人。
 ​
A0203 高启强这一招用了调虎离山和暗度陈仓。
【多音字】
A0204 瓶子倒了,水倒了出来。
 ​
A0205 银行行长步行重走长征路,发现重量级重复数据需重新处理。
 ​
A0206 人要是行,干一行行一行,一行行行行行。
 ​
A0207 海水朝朝朝朝朝朝朝落,浮云长长长长长长长消。
 ​
A0208 今天下雨,我骑车差一点摔倒,还好我一把把把把住了。
 ​
A0209 校服上除了校徽别别别的,让你别别别的别别别的你非得别别的。
【数字进制】
A0210 宝马 4 系列的轿车需要 896500 元。
 ​
A0211 2022 年淘宝双 11 成交总金额为 5571 亿元。
 ​
A0212 我本月的话费余额还有 73.6 元。
【数字符号】
A0213 本期双色球中奖号码为 10-12-17-19-25-31-13,中奖人数较上期增长预估 3.5% ~ 4%。
 ​
A0214 班级里男女生的比例为 2:1。
 
A0215 这段录像的时长为 3h15m25s 。高铁速度是 300 km/h。
【年代时间】
A0216 秦朝建立于公元前 221 年。唐朝建立于公元 618 年。
 ​
A0217 今天是 2023 年 2 月 21 日,部门在 10:35 召开了紧急会议。
 ​
A0218 在 1994-10-25 日 15:28:32 他出生了。
【电话账号】
A0219 公司的座机号为 0724-4356333。
 ​
A0220 我的个人手机号为 +86-17372786930。
 ​
A0221 请问您是 17314494369 号码的号主吗?
【特殊姓氏生僻字】
A0222 仇老五今天找了赵泗报仇。
 ​
A0223 汩余若将不及兮,恐年岁之不吾与。朝搴阰之木兰兮,夕揽洲之宿莽。
 ​
A0224 有位姓解名为解凌的男子立志要成为解放军战士。

A03 长难句长文本

A0301 一夜没睡的困倦的他目光呆滞地借助一盏时明时暗的摇曳的残破油灯绝望地在无精打采地看着一本发黄了却保存得颇为完整的现在在市面上很难买到的名叫《准备考试的你能看懂这句不但无聊之极而且无耻之尤的话吗》的旧书。
 ​
A0302 空间与时间是组成这个世界的基础。原本我们对空间的概念,是房子概念,我们所有人都生活在房子里,房子里的一切彼此之间都有距离,从一个地方到另一个地方所需的时间,取决于之间的距离和速度。可是现在出现了能从一个点直接到另一个点的情况,这就说明,我们原先对空间的认知有误。可以猜想,空间并不是一个可以容纳物体的场所,而是物体的属性。比方说一个桃子,它有很多属性,重量、形状、表面积、颜色、密度、口感等等,其实它还有一个属性,就是空间。空间不是独立于具体物体之外的,而是和构成这个世界亿万物体紧密相联,因为它就是物体的一个属性。这种属性有点像力场,椅子有椅子的空间力场,桌子有桌子的空间力场,亿万物体的空间力场相接相融,却让我们错误地以为空间是独立于物体存在的,也有了‘距离’这个概念。平时我们走路,搬动物品,归根结底,是使用力量使我们自身或者物体的空间属性改变,但是这种属性改变是间接式的,并不是直接对空间属性起作用。就好比解开一个绳结有多种方式,我们平时所看见的物体普通移动,就好比是慢慢理清绳结的头绪一点点解开;而超距位移,就好比是用剪刀在绳结处剪一下,绳子断开,绳结自解。所以说超距位移就是用精神力直接改变物体的空间属性,属性一变,物体所在的空间位置自然就改变。
 ​
A0303 在一个遥远的星球上,有一个被蔚蓝海洋环抱的神秘国度,名为艾瑞斯利亚。这个国家隐藏在云雾缭绕的群山之后,不为外界所知。艾瑞斯利亚的居民拥有一种独特的能力,能够通过心灵感应与自然界的万物沟通,无论是轻风的低语,还是古树的沉吟,对他们来说都是日常交流的一部分。王国的中心矗立着一座宏伟的水晶宫殿,宫殿闪耀着太阳的光辉,夜晚则吸收月光,发出柔和的光芒,照亮整个国度。国王艾丹是一位英明而慈爱的统治者,他不仅精通治理国家的艺术,还对古老魔法有着深刻的理解。在他的领导下,艾瑞斯利亚迎来了前所未有的和平与繁荣。然而,和平的日子并不长久。某天,一颗陨石坠落在了王国的边境,带来了一股未知的力量,这股力量开始侵蚀大地,让肥沃的土地变得贫瘠,清澈的溪流变得浑浊。艾丹国王意识到,如果不及时阻止这股力量,艾瑞斯利亚将会面临灭顶之灾。于是,他召集了国内最勇敢的战士、最智慧的巫师和最敏锐的探索者,组成了一支探险队,踏上了寻找解决之道的旅程。他们穿越了幽暗的森林,越过了冰封的山脉,最终来到了陨石坠落的地点——一个被奇异能量扭曲了的荒芜之地。在这里,他们发现了一个秘密:陨石中囚禁着一位古老的外星生物,它的能量泄漏导致了这一切。经过一番智慧与勇气的考验,探险队与这位外星生物进行了沟通,了解到它原本并无恶意,只是因为飞船意外坠毁才造成了这一切。在艾丹国王的调解下,外星生物同意修复它带来的破坏,并传授给了艾瑞斯利亚人民先进的科技与知识,作为友好交流的象征。从此以后,艾瑞斯利亚不仅恢复了往日的美丽与和谐,还迎来了新的发展纪元,成为了宇宙中独一无二的智慧与和平的典范。而这段传奇故事,也成为了后人口耳相传的佳话,激励着一代又一代的艾瑞斯利亚人探索未知,追求和平。

A06 多情感

【开心】
A0601 既然开不开心都是一天,那不如穷开心咯!
 ​
【恐惧】
A0602 我已经好几天没合眼了...透过那面镜子...我总感觉到有人在盯着我...
 ​
【愤怒】
A0603 段坤我吃定了!耶稣也保不住!我说的!
 ​
【悲伤】
A0604 不行!说的是一辈子!差一年,一个月,一天,一个时辰,都不算一辈子。
 ​
【惊讶】
A0605 他怎么穿着内裤就跑出来了!谁能给我说说,这他妈怎么回事儿?

A07 极端情绪

【痛苦呻吟】
A0701 我实在坚持不下去了!求求你了...让我解脱吧...
 ​
【怒吼咆哮】
A0702 我活不活无所谓!我只要你死!
 ​
【失声痛哭】
A0703 妈妈!我是你的女儿啊!你看见我了吗?回答我...

A08 特殊语气

A0801 那、那个...呢...各位听好了哈!这一一这个方案嘛一一啊嚏!其实、其实就就就是...把把把数据导到云、云端对吧?哎哟喂!可是...第3页的的的折线图它它它突然就..跟预期差差差老鼻子远了!要、要不咱们先...在在在周五前重新跑跑跑一遍模型?,这这这玩意儿真真真是...要了亲命了!

A10 方言

【粤语】
A1001 呢度真係好靓,你哋快啲嚟睇下啦!
 ​
【河南话】
A1002 俺嘞亲娘嘞!你个信球,搁这儿弄啥嘞?再肉一会儿,迟到了你豆不能了!
 ​
【天津话】
A1003 今天早晨枪战啦弟弟!前边儿一辆车后边儿一辆车,倍儿刺激,不过到最后,嘛事儿没有!

评测结果

总得分

模型名称-版本

总得分

性能得分(20%)

音频得分(80%)

音量调节

语速调节

语调调节

GPT-SoVITS-V3

×

CosyVoice2-0.5B

FishSpeech-V1.5

F5-TTS-V1

ChatTTS


性能得分

模型名称

性能总得分

P01 显存占用

P02 首包延迟

P03 RTF

GPT-SoVITS-V3

CosyVoice2-0.5B

FishSpeech-V1.5

F5-TTS-V1

ChatTTS


音频得分

模型名称

音频总得分

A01 通用场景 MOS 得分

A02 通用场景核心能力

A03 通用场景长文本稳定性

A04 音色相似度

A05 泛用性

A06 多情感

A07 极端情绪

A08 特殊语气

A09 跨语种

A10 方言

GPT-SoVITS-V3

CosyVoice2-0.5B

FishSpeech-V1.5

F5-TTS-V1

ChatTTS


评测详情

详见 TTS-声音克隆评测.xlsx 文件。


1
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区