ITCOW牛新网 12月11日消息,阿里巴巴Qwen团队近日推出新一代原生全模态大模型Qwen3-Omni-Flash-2025-12-01。该模型在Qwen3-Omni基础上实现全面升级,支持文本、图像、音视频的无缝输入与实时流式输出,能够同步生成高质量文本与自然语音,显著提升了多模态交互的流畅度与拟人化水平。

据ITCOW牛新网了解,新模型重点优化了口语化场景的智能表现,彻底解决了以往语音生成中语速拖沓、机械呆板的问题。通过自适应调节算法,模型可根据文本内容动态调整语速、停顿与韵律,其语音自然度已逼近真人水平。在功能层面,团队全面开放了System Prompt自定义权限,用户可精细设定“甜妹”、“御姐”、“日系”等特定人设风格,并可调整口语化表达偏好及回复长度。
性能测试数据显示,新模型在逻辑推理任务(ZebraLogic)上得分提升5.6,代码生成(LiveCodeBench-v6)能力提升9.3,多学科视觉问答(MMMU)表现提升4.7。此外,模型支持119种文本语言交互、19种语音识别语言及10种语音合成语言,确保了跨语言场景下的响应准确性。

行业分析认为,该模型的推出标志着全模态AI技术进入实用化新阶段,其可定制化人设功能将为智能助手、内容创作、跨语言服务等领域带来更丰富的应用场景。目前该模型已面向开发者开放,预计将加速AI技术在多元化场景中的落地进程。