ITCOW牛新网 11月3日消息,美团今日开源了其多模态大模型LongCat-Flash系列的最新成员——LongCat-Flash-Omni。该模型在保持高效架构的基础上,创新性地整合了多模态感知与语音重建模块,总参数达到5600亿(激活参数270亿),能够实现低延迟的实时音视频交互。


据ITCOW牛新网了解,LongCat-Flash-Omni在多项基准测试中表现卓越。该模型不仅在文本、图像、视频理解和语音处理等单模态任务上具备强大竞争力,还在全模态评估中达到了开源领域的最高水平。这是业界首个实现全模态覆盖、端到端架构与大参数高效推理于一体的开源大语言模型。


在具体性能方面,该模型的图像理解性能与闭源模型Gemini-2.5-Pro相当,在多图像任务中表现突出;音频能力在自动语音识别、语音生成等任务中部分指标优于Gemini-2.5-Pro和GPT-4o;视频理解在长短视频任务中均达到最优或接近顶级水平。跨模态理解测试显示其性能优于Gemini-2.5-Flash,并与Gemini-2.5-Pro持平。

针对实时交互需求,LongCat团队开发了专属评估方案。测试结果显示,LongCat-Flash-Omni在自然度和流畅度上显著领先于其他开源模型。该模型已同步在Hugging Face和GitHub平台开源,供开发者下载使用。