DeepSeek 识图模式全面铺开：视觉原语框架重塑多模态推理，效率领先竞品 10 倍

5 月 9, 2026 #DeepSeek

ITCOW牛新网 5月9日消息，DeepSeek 的“视觉革命”已进入大规模实战阶段。自 4 月底开启灰度测试后，其“识图模式”目前已在几乎所有测试账号中开放入口，用户可在输入框上方直接切换至该模式。尽管界面仍标注为“图片理解功能内测中”，但这标志着 DeepSeek 正式从纯文本模型跨入具备深度视觉理解能力的多模态时代。

DeepSeek 识图模式

实测表现：从文物鉴定到代码还原

与简单的 OCR 文字提取不同，DeepSeek 的识图能力展现出极强的通用性。在文物鉴赏场景中，它能通过纹理细节推断出“痕都斯坦风格”玉器；在逻辑挑战中，即便面对高难度的空间拼合题，开启“深度思考”后也能在约 4 分钟内给出正解。更令人印象深刻的是其“网感”与生产力：它能精准识别特朗普与动漫角色鲁路修的合成梗图，解读表情包情绪；更能将网页或 UI 界面截图直接“逆向工程”，还原出可交互的 HTML 代码结构。

底层架构：用“坐标”思考，破解指代鸿沟

支撑这一能力的核心是 DeepSeek 公布的 “Thinking with Visual Primitives”（以视觉原语思考） 框架。传统模型在推理时只能用模糊的自然语言（如“左边那个大的”）描述物体，导致注意力漂移。DeepSeek 的创新在于将点坐标、边界框等空间元素直接作为思维链的基本单元，让模型像人用手指着图说话一样，边想边“指”，彻底解决了复杂场景下的指代歧义问题。

DeepSeek 识图模式

效率与局限：极致压缩下的能力边界

这一架构在算力效率上极具优势。处理一张 800×800 图片时，DeepSeek 仅消耗约 90 个 tokens，而 GPT、Claude 等主流模型通常需要 870–1100 个 tokens，效率提升超 10 倍。不过，初代“睁眼”模型仍有明显短板：知识库存在滞后性（如误判 2025 年底发布的新机型号），且在复杂计数、视错觉题目上稳定性不足。需明确的是，当前版本仅为纯视觉理解，暂不支持图像生成或视频理解。

相关文章

DeepSeek悄然上线聊天记录搜索功能开启灰度测试助力高效回溯

人工智能头条关注

宇树发布全球首款量产载人变形机甲 GD01：390 万元起，支持双形态切换

MiniMax 启动“10x Team”计划：邀全球专家共建垂直领域大模型，提供无限 Token 与股票激励

更多资讯

腾讯收购喜马拉雅案终获放行：监管设五道“红线”，严禁独家版权与搭售

2026年 5月 12日

小米华为同步上架初音未来官方授权主题鸿蒙6定价6元澎湃OS全免费

2026年 5月 12日

豆包输入法 macOS 版正式上架：一键语音转文字，AI 引擎智能切换场景

2026年 5月 12日

三星 OneUI 8.5 国行版正式推送：S25 系列领衔首批适配，AI 深度整合与跨设备互联成亮点

2026年 5月 12日