美团开源多模态大模型LongCat-Flash-Omni，实现全模态覆盖与高效推理

11 月 3, 2025 #LongCat-Flash-Omni, #美团

ITCOW牛新网 11月3日消息，美团今日开源了其多模态大模型LongCat-Flash系列的最新成员——LongCat-Flash-Omni。该模型在保持高效架构的基础上，创新性地整合了多模态感知与语音重建模块，总参数达到5600亿（激活参数270亿），能够实现低延迟的实时音视频交互。

据ITCOW牛新网了解，LongCat-Flash-Omni在多项基准测试中表现卓越。该模型不仅在文本、图像、视频理解和语音处理等单模态任务上具备强大竞争力，还在全模态评估中达到了开源领域的最高水平。这是业界首个实现全模态覆盖、端到端架构与大参数高效推理于一体的开源大语言模型。

在具体性能方面，该模型的图像理解性能与闭源模型Gemini-2.5-Pro相当，在多图像任务中表现突出；音频能力在自动语音识别、语音生成等任务中部分指标优于Gemini-2.5-Pro和GPT-4o；视频理解在长短视频任务中均达到最优或接近顶级水平。跨模态理解测试显示其性能优于Gemini-2.5-Flash，并与Gemini-2.5-Pro持平。

针对实时交互需求，LongCat团队开发了专属评估方案。测试结果显示，LongCat-Flash-Omni在自然度和流畅度上显著领先于其他开源模型。该模型已同步在Hugging Face和GitHub平台开源，供开发者下载使用。

人工智能头条关注

美团开源多模态大模型LongCat-Flash-Omni，实现全模态覆盖与高效推理

相关文章

Anthropic封杀OpenClaw：订阅额度不再支持第三方工具

谷歌 AI Pro 订阅存储空间提至 5TB，功能生态再扩容

阿里发布 Qwen3.6-Plus 模型编码智能体能力跃升性价比领先同级别产品

更多资讯

途观L Pro新增入门版：搭载1.5T动力，21.38万元起

一汽丰田2026款亚洲龙星耀版上市：黑化外观，17.98万元起

小米物流大件“当日达”服务覆盖50城，上午下单当日必达

北京警方预警：iMessage“贷款逾期”诈骗频发，涉案金额已近27万元