火山引擎发布豆包语音识别模型2.0：新增多模态视觉识别，支持13种外语精准交互

12 月 5, 2025 #Doubao-Seed-ASR-2.0, #豆包语音识别模型2.0

ITCOW牛新网 12月5日消息，火山引擎今日推出豆包语音识别模型2.0（Doubao-Seed-ASR-2.0），该版本在推理能力、多模态识别及多语言支持方面实现显著升级。新模型基于Seed混合专家大语言模型架构开发，延续了1.0版本20亿参数音频编码器的基础，并针对专有名词、人名、地名及多音字等复杂场景进行了深度优化。

据ITCOW牛新网了解，豆包语音识别模型2.0通过PPO强化学习方案提升了上下文理解能力，无需依赖历史词汇记录即可实现动态场景下的精准识别。例如在讨论历史人物时，模型能结合对话背景（如苏轼、苏辙相关话题）准确识别多音字地名“筠州”，避免误判为“云州”等同音词。

此外，模型首次引入视觉识别功能，可解析单图或多图内容，辅助用户在搜拍或图片创作场景中纠正易混淆词汇（如根据图像中的滑板鸡正确识别“滑鸡”而非“滑稽”）。

在语言支持方面，新模型采用Function Call策略，在保持中文、英文及方言识别准确度的同时，新增对日语、韩语、德语、法语等13种外语的精准识别能力。

目前，豆包语音识别模型2.0已通过火山方舟体验中心开放API服务，为多行业提供更智能的语音交互解决方案。

人工智能

火山引擎发布豆包语音识别模型2.0：新增多模态视觉识别，支持13种外语精准交互

相关文章

智谱发布AutoClaw“澳龙”：一键安装本地版OpenClaw，内置专属模型Pony-Alpha-2

阿里版“小龙虾”更名JVS Claw，大厂“养虾”大战白热化

微博接入Kimi Claw：私信即可远程操控AI“龙虾助手”

更多资讯

叮咚买菜CEO换帅：梁昌霖卸任转任主席，王松接棒掌舵

一加 15T 治愈白巧配色官宣：全白小屏机唯一选择

智谱发布AutoClaw“澳龙”：一键安装本地版OpenClaw，内置专属模型Pony-Alpha-2

阿里版“小龙虾”更名JVS Claw，大厂“养虾”大战白热化