商汤科技开源多模态自主推理模型SenseNova-MARS

1 月 30, 2026 #SenseNova-MARS, #商汤科技

ITCOW牛新网 1月30日消息，商汤科技昨日宣布开源其多模态自主推理模型SenseNova-MARS，该模型提供8B和32B两个参数版本，首次实现动态视觉推理与图文搜索技术的深度融合。据官方介绍，SenseNova-MARS是当前首个具备Agentic能力的视觉语言模型，能够自主规划步骤并调用工具处理复杂任务，使AI真正获得执行能力。

此次开源的SenseNova-MARS在多模态搜索与推理的核心基准测试中获得69.74分的成绩，超越Gemini-3-Pro（69.06分）和GPT-5.2（67.64分）。在MMSearch、HR-MMSearch、FVQA等专业测试中，该模型不仅取得开源模型的SOTA成绩，更超越了多款顶级闭源模型的表现。模型的核心突破在于实现了动态视觉推理机制，可自主调用图像裁剪、文本/图像搜索等工具完成多步骤任务。

据ITCOW牛新网了解，SenseNova-MARS在多项实际应用场景中展现出强大能力。在面对识别赛车服微小logo、查询公司成立年份、匹配车手出生年月及计算差值等复杂任务时，模型能够自主调用工具链，无需人工干预即可完成闭环解答。该模型还能从产品和行业峰会照片中识别企业标志，快速搜集产品信息及细节要素，辅助行业分析。官方提供的案例显示，模型可轻松处理超长步骤的多模态推理和超过三种工具调用，自动裁剪分析细节并搜索相关数据验证假设。

目前，SenseNova-MARS的完整代码和模型权重已在GitHub和Hugging Face平台开放下载。

人工智能

商汤科技开源多模态自主推理模型SenseNova-MARS

相关文章

谷歌Gemini将登陆香港，网页版先行开放

智谱发布全球首个“龙虾”模型GLM-5-Turbo，专为OpenClaw场景深度优化

Blockcell v0.1.4 发布：国产高性能 OpenClaw 龙虾替代品，更稳更快

更多资讯

谷歌Gemini将登陆香港，网页版先行开放

追觅科技发布“空天陆”三栖战略：2027年CES将展出商飞X919并开通中美航线

京东携Joybuy“当日达”杀入欧洲六国，重资产模式硬刚亚马逊

智谱发布全球首个“龙虾”模型GLM-5-Turbo，专为OpenClaw场景深度优化