阿里通义发布新一代端到端语音交互模型Fun-Audio-Chat，支持情感识别与智能任务处理

12 月 23, 2025 #Fun-Audio-Chat, #通义大模型

ITCOW牛新网 12月23日消息，阿里巴巴集团旗下通义大模型团队今日推出新一代端到端语音交互模型Fun-Audio-Chat，该模型具备情感识别与复杂任务处理能力，在多项基准测试中表现优异。

Fun-Audio-Chat采用端到端的语音到语音（S2S）架构，无需经过传统的自动语音识别（ASR）、大语言模型（LLM）和文本到语音（TTS）多模块拼接流程，从而显著提升交互效率并降低延迟。其双分辨率设计通过共享LLM层以5Hz帧率处理基础信息，同时利用SRH模块以25Hz帧率生成高质量语音，使得GPU计算资源消耗降低约50%。

据ITCOW牛新网了解，该模型基于超过百万小时的多任务数据进行训练，覆盖音频理解、语音问答、情感分析及工具调用等实际应用场景。开发者强调，Fun-Audio-Chat能够通过分析用户语调、语速和停顿等细微特征，主动感知对话情绪，即使使用者未明确表达情感，模型亦可推断其心理状态并作出针对性回应，实现“类友人式”的自然交互体验。

此外，Fun-Audio-Chat支持通过自然语音指令调用函数工具，可完成多步骤复杂任务。目前开源版本Fun-Audio-Chat 8B已在GitHub、HuggingFace及ModelScope平台发布。官方数据显示，其在OpenAudioBench、MMAU等权威评测中均位列同规模模型榜首，综合性能超越GLM4-Voice、Kimi-Audio等竞品。

人工智能

阿里通义发布新一代端到端语音交互模型Fun-Audio-Chat，支持情感识别与智能任务处理

相关文章

阿里云JVS Claw全面开放公测：手机“一键养虾”门槛归零，首月39元起

ChatGPT变身“超级买手”：OpenAI本周推智能体商业协议，支持直接比价与一键下单

OpenAI宣布关停Sora独立应用，视频生成服务上线仅半年即落幕

更多资讯

阿里蔡崇信西门子大会发声：AI驱动一切，云为底座，CEO不可替代

百度沈抖博鳌论道：具身智能进家庭是“最后一步”，十年未必能成

中消协警示：手机租赁暗藏“高价租、乱扣费、暗藏锁”三大陷阱

荣耀平板 X10 发布：千元级护眼学习平板，搭载 10100mAh 大电池