ITCOW牛新网 12月5日消息,火山引擎今日推出豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),该版本在推理能力、多模态识别及多语言支持方面实现显著升级。新模型基于Seed混合专家大语言模型架构开发,延续了1.0版本20亿参数音频编码器的基础,并针对专有名词、人名、地名及多音字等复杂场景进行了深度优化。

据ITCOW牛新网了解,豆包语音识别模型2.0通过PPO强化学习方案提升了上下文理解能力,无需依赖历史词汇记录即可实现动态场景下的精准识别。例如在讨论历史人物时,模型能结合对话背景(如苏轼、苏辙相关话题)准确识别多音字地名“筠州”,避免误判为“云州”等同音词。

此外,模型首次引入视觉识别功能,可解析单图或多图内容,辅助用户在搜拍或图片创作场景中纠正易混淆词汇(如根据图像中的滑板鸡正确识别“滑鸡”而非“滑稽”)。
在语言支持方面,新模型采用Function Call策略,在保持中文、英文及方言识别准确度的同时,新增对日语、韩语、德语、法语等13种外语的精准识别能力。
目前,豆包语音识别模型2.0已通过火山方舟体验中心开放API服务,为多行业提供更智能的语音交互解决方案。