ITCOW牛新网 12月23日消息,阿里巴巴集团旗下通义大模型团队今日推出新一代端到端语音交互模型Fun-Audio-Chat,该模型具备情感识别与复杂任务处理能力,在多项基准测试中表现优异。

Fun-Audio-Chat采用端到端的语音到语音(S2S)架构,无需经过传统的自动语音识别(ASR)、大语言模型(LLM)和文本到语音(TTS)多模块拼接流程,从而显著提升交互效率并降低延迟。其双分辨率设计通过共享LLM层以5Hz帧率处理基础信息,同时利用SRH模块以25Hz帧率生成高质量语音,使得GPU计算资源消耗降低约50%。

据ITCOW牛新网了解,该模型基于超过百万小时的多任务数据进行训练,覆盖音频理解、语音问答、情感分析及工具调用等实际应用场景。开发者强调,Fun-Audio-Chat能够通过分析用户语调、语速和停顿等细微特征,主动感知对话情绪,即使使用者未明确表达情感,模型亦可推断其心理状态并作出针对性回应,实现“类友人式”的自然交互体验。

此外,Fun-Audio-Chat支持通过自然语音指令调用函数工具,可完成多步骤复杂任务。目前开源版本Fun-Audio-Chat 8B已在GitHub、HuggingFace及ModelScope平台发布。官方数据显示,其在OpenAudioBench、MMAU等权威评测中均位列同规模模型榜首,综合性能超越GLM4-Voice、Kimi-Audio等竞品。
