ITCOW牛新网 4月20日消息,阿里通义实验室今日发布语音识别大模型Fun-ASR 1.5。该模型已上线阿里云百炼平台,面向教育、传媒、金融等行业提供API服务,个人用户也可在魔搭社区进行体验。

基于统一的语音大模型架构,Fun-ASR 1.5 能够实现单模型覆盖30种语言及汉语的七大方言体系(包含超过20种地方口音)。其采用的混合专家(MoE)架构使其具备无需预设语种标签的自动识别与切换能力,可精准处理中英混杂等复杂语音场景。在方言识别方面,官方数据显示其平均字错误率(CER)较上一代模型降低约56.2%,并能准确识别并输出“侬”等极具地方特色的词汇。

针对特定文化应用场景,模型对以《诗经》、《楚辞》及唐宋诗词为代表的古代诗文真人吟诵音频进行了专项优化,官方称其古诗词字符级识别准确率可达97%。在输出文本的后处理上,模型集成了智能标点插入功能,并能将口语中不规范的表达,例如“五万八千块”,自动转换为“58000元”等符合书面语规范的格式,从而大幅降低会议纪要、访谈记录等场景下的后期整理成本。

