阿里通义实验室发布Fun-ASR 1.5语音识别大模型，支持多语言方言及古诗词识别

4 月 20, 2026 #Fun-ASR 1.5

ITCOW牛新网 4月20日消息，阿里通义实验室今日发布语音识别大模型Fun-ASR 1.5。该模型已上线阿里云百炼平台，面向教育、传媒、金融等行业提供API服务，个人用户也可在魔搭社区进行体验。

基于统一的语音大模型架构，Fun-ASR 1.5 能够实现单模型覆盖30种语言及汉语的七大方言体系（包含超过20种地方口音）。其采用的混合专家（MoE）架构使其具备无需预设语种标签的自动识别与切换能力，可精准处理中英混杂等复杂语音场景。在方言识别方面，官方数据显示其平均字错误率（CER）较上一代模型降低约56.2%，并能准确识别并输出“侬”等极具地方特色的词汇。

针对特定文化应用场景，模型对以《诗经》、《楚辞》及唐宋诗词为代表的古代诗文真人吟诵音频进行了专项优化，官方称其古诗词字符级识别准确率可达97%。在输出文本的后处理上，模型集成了智能标点插入功能，并能将口语中不规范的表达，例如“五万八千块”，自动转换为“58000元”等符合书面语规范的格式，从而大幅降低会议纪要、访谈记录等场景下的后期整理成本。

人工智能头条关注

阿里通义实验室发布Fun-ASR 1.5语音识别大模型，支持多语言方言及古诗词识别

相关文章

Anthropic 发布 Claude Opus 5：性能逼近 Fable 5 但价格砍半

Anthropic 为 Claude 语音模式接入 Opus 与 Sonnet：支持 Gmail/Slack/Canva 语音调度

OpenAI 将 ChatGPT 语音功能推至 macOS/Windows 桌面端：GPT-Live 驱动开口调度 Codex 多代理

更多资讯

网信部门严管自媒体未规范标注信息来源：处置3704个账号、纠正4.8万条短视频

荣耀 Robot Phone 定档 8 月 12 日发布：全球首款机器人手机配 4DoF 钛合金云台

微软承认 Win11 原生应用与 WinUI 内存占用过高，承诺先优化框架再推新版开始菜单与通知中心

小鹏汽车官宣澳大利亚长期战略：未来6个月推5款新车，X9开放预订