商汤发布全球首个原生多模态架构NEO，开源2B/9B模型突破数据效率极限

12 月 2, 2025 #商汤科技, #多模态架构NEO

ITCOW牛新网 12月2日消息，商汤科技今日联合南洋理工大学S-Lab推出全球首个原生多模态模型架构NEO，并宣布开源2B与9B参数规格的模型。该架构突破传统“视觉编码器+投影器+语言模型”的拼凑式设计，从底层实现视觉与语言的深度融合，在多项基准测试中达到顶尖水平，且训练数据量仅为同类模型的十分之一。

据ITCOW牛新网了解，NEO架构通过三大核心技术实现突破：

原生图块嵌入技术：摒弃传统图像分词器，通过连续映射层直接构建像素到词元的关联，显著提升图像细节捕捉能力；
三维旋转位置编码：解耦视觉高频与文本低频信号，适配多模态数据结构，为视频处理预留扩展空间；
混合注意力机制：在统一框架下同步支持文本自回归注意力与视觉双向注意力，增强空间关系推理能力。

测试数据显示，NEO仅需3.9亿图像文本示例（相当于行业十分之一数据量）即可在MMMU、MMStar等多项评测中追平Qwen2-VL等顶级模型。其采用的Pre-Buffer & Post-LLM双阶段训练策略，在保留语言模型核心能力的同时构建视觉感知，解决传统跨模态训练中语言能力退化难题。目前开源的2B/9B模型在边缘设备部署场景优势显著。

人工智能

商汤发布全球首个原生多模态架构NEO，开源2B/9B模型突破数据效率极限

相关文章

OpenAI Codex编程工具登陆JetBrains IDE 支持云端与本地智能体并行编程

百度文心5.0正式版发布：2.4万亿参数全模态大模型上线

字节跳动豆包AI入驻上海浦东美术馆成国际大展官方智能讲解员

更多资讯

奇瑞2025年SUV销量突破231万辆蝉联中国品牌全球销量冠军

商业航天公司中科宇航完成IPO辅导，冲刺上市

特斯拉Model 3推出新春购车优惠最高享8000元保险补贴与7年超低息方案

英伟达CEO黄仁勋现身上海菜市场体验市井生活