ITCOW牛新网 1月30日消息,商汤科技昨日宣布开源其多模态自主推理模型SenseNova-MARS,该模型提供8B和32B两个参数版本,首次实现动态视觉推理与图文搜索技术的深度融合。据官方介绍,SenseNova-MARS是当前首个具备Agentic能力的视觉语言模型,能够自主规划步骤并调用工具处理复杂任务,使AI真正获得执行能力。

SenseNova-MARS

此次开源的SenseNova-MARS在多模态搜索与推理的核心基准测试中获得69.74分的成绩,超越Gemini-3-Pro(69.06分)和GPT-5.2(67.64分)。在MMSearch、HR-MMSearch、FVQA等专业测试中,该模型不仅取得开源模型的SOTA成绩,更超越了多款顶级闭源模型的表现。模型的核心突破在于实现了动态视觉推理机制,可自主调用图像裁剪、文本/图像搜索等工具完成多步骤任务。

SenseNova-MARS

据ITCOW牛新网了解,SenseNova-MARS在多项实际应用场景中展现出强大能力。在面对识别赛车服微小logo、查询公司成立年份、匹配车手出生年月及计算差值等复杂任务时,模型能够自主调用工具链,无需人工干预即可完成闭环解答。该模型还能从产品和行业峰会照片中识别企业标志,快速搜集产品信息及细节要素,辅助行业分析。官方提供的案例显示,模型可轻松处理超长步骤的多模态推理和超过三种工具调用,自动裁剪分析细节并搜索相关数据验证假设。

SenseNova-MARS

目前,SenseNova-MARS的完整代码和模型权重已在GitHub和Hugging Face平台开放下载。

SenseNova-MARS