智谱开源语音合成模型GLM-TTS 仅需3秒样本实现音色克隆

12 月 11, 2025 #智谱, #智谱GLM-TTS

ITCOW牛新网 12月11日消息，智谱公司今日发布并开源了工业级语音合成系统GLM-TTS。该模型突破性地实现仅需3秒语音样本即可高精度克隆说话人音色，目前已上线智谱开放平台、智谱清言及Z.ai等渠道，并在Hugging Face和ModelScope平台开放模型权重。

GLM-TTS采用两阶段生成架构，结合基于GRPO的强化学习方案，在10万小时训练数据量下实现突破。其预训练仅需单机4天即可达到开源SOTA水平，精品音色优化训练周期缩短至1天，大幅低于行业平均水平。测试数据显示，模型在字符错误率（CER）和情感表达维度均取得领先表现，其中CER指标降至0.89%，音色相似度达76.4%。

据ITCOW牛新网了解，该系统已实现多场景应用落地：在教育领域可精准处理多音字、生僻字及数学公式发音；在电子书场景支持多角色情绪化朗读；在智能客服领域生成专业自然的语音交互。通过Apache License协议，开发者可在GitHub、Hugging Face等平台获取完整开源资源，或通过API接口直接调用商用服务。

分析认为，GLM-TTS的开源将推动语音合成技术普惠化发展，其低样本要求和高效率特性尤其适合中小规模企业快速部署。随着多模态AI应用场景拓展，该技术有望在智能教育、内容创作等领域发挥重要作用。

人工智能

智谱开源语音合成模型GLM-TTS 仅需3秒样本实现音色克隆

相关文章

腾讯 SkillHub 上线引争议：被指“抄袭”数据，官方回应称是本地镜像

全球首款手机“龙虾”应用上线，百度红手指Operator打通App自动化操作

网易有道发布国内首个全开源AI智能体“有道龙虾”，主打零门槛与全本地化

更多资讯

国家工业信息安全发展研究中心发布《关于工业领域OpenClaw应用的风险预警通报》

腾讯 SkillHub 上线引争议：被指“抄袭”数据，官方回应称是本地镜像

特斯拉第三代人形机器人亮相AWE 2026，计划年底量产，成本低于2万美元

追觅手机亮相AWE 2026：标准版6872元起，高奢定制版最高超10万元