ITCOW牛新网 12月2日消息,商汤科技今日联合南洋理工大学S-Lab推出全球首个原生多模态模型架构NEO,并宣布开源2B与9B参数规格的模型。该架构突破传统“视觉编码器+投影器+语言模型”的拼凑式设计,从底层实现视觉与语言的深度融合,在多项基准测试中达到顶尖水平,且训练数据量仅为同类模型的十分之一。

据ITCOW牛新网了解,NEO架构通过三大核心技术实现突破:
- 原生图块嵌入技术:摒弃传统图像分词器,通过连续映射层直接构建像素到词元的关联,显著提升图像细节捕捉能力;
- 三维旋转位置编码:解耦视觉高频与文本低频信号,适配多模态数据结构,为视频处理预留扩展空间;
- 混合注意力机制:在统一框架下同步支持文本自回归注意力与视觉双向注意力,增强空间关系推理能力。


测试数据显示,NEO仅需3.9亿图像文本示例(相当于行业十分之一数据量)即可在MMMU、MMStar等多项评测中追平Qwen2-VL等顶级模型。其采用的Pre-Buffer & Post-LLM双阶段训练策略,在保留语言模型核心能力的同时构建视觉感知,解决传统跨模态训练中语言能力退化难题。目前开源的2B/9B模型在边缘设备部署场景优势显著。
