智谱上线并开源文本转语音模型 GLM-TTS:只需 3 秒语音样本即可克隆声音

12月11日讯 今日智谱正式发布工业级语音合成系统 GLM-TTS,并在 Hugging Face 和 ModelScope 上开放模型权重。GLM-TTS 目前已开源,并上线智谱开放平台(bigmodel)、智谱清言、Z.ai。

官方对 GLM-TTS 的介绍如下:

只需 3 秒语音样本,GLM‑TTS 即可学习说话人的音色和说话习惯。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人的语音。

我们希望,AI 不只是「会说话」,而是能在合适的场景下,说出既像真人、又符合情绪的声音。

为实现这一能力,GLM‑TTS 在架构上采用两阶段生成,并在训练中引入基于 GRPO 的强化学习方案,在公开评测的「字错误率」和「情感表达」上取得开源 SOTA 表现。

值得一提的是,GLM-TTS 仅使用 10w 小时训练数据,远低于行业主流商用模型。同时,GLM-TTS 也兼顾了训练成本和效果,预训练仅需要单机 4 天即可得到开源 SOTA“发音准确度”与超高“音色还原度”,精品音色 LORA 和强化学习也仅需要单机 1 天即可完成训练,远低于行业平均水平。

另外,GLM‑TTS 还以更低的价格获得了行业领先的 MOS 分数(平均主观意见分)。

声明:魔果智讯倡导尊重与保护知识产权。如发现本站文章存在版权等问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至moguoai@yeah.net!我们将及时沟通与处理。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索