ITCOW牛新网 12月11日消息,智谱公司今日发布并开源了工业级语音合成系统GLM-TTS。该模型突破性地实现仅需3秒语音样本即可高精度克隆说话人音色,目前已上线智谱开放平台、智谱清言及Z.ai等渠道,并在Hugging Face和ModelScope平台开放模型权重。

智谱开源语音合成模型GLM-TTS

GLM-TTS采用两阶段生成架构,结合基于GRPO的强化学习方案,在10万小时训练数据量下实现突破。其预训练仅需单机4天即可达到开源SOTA水平,精品音色优化训练周期缩短至1天,大幅低于行业平均水平。测试数据显示,模型在字符错误率(CER)和情感表达维度均取得领先表现,其中CER指标降至0.89%,音色相似度达76.4%。

智谱开源语音合成模型GLM-TTS

据ITCOW牛新网了解,该系统已实现多场景应用落地:在教育领域可精准处理多音字、生僻字及数学公式发音;在电子书场景支持多角色情绪化朗读;在智能客服领域生成专业自然的语音交互。通过Apache License协议,开发者可在GitHub、Hugging Face等平台获取完整开源资源,或通过API接口直接调用商用服务。

智谱开源语音合成模型GLM-TTS

分析认为,GLM-TTS的开源将推动语音合成技术普惠化发展,其低样本要求和高效率特性尤其适合中小规模企业快速部署。随着多模态AI应用场景拓展,该技术有望在智能教育、内容创作等领域发挥重要作用。