ITCOW牛新网 5月9日消息,DeepSeek 的“视觉革命”已进入大规模实战阶段。自 4 月底开启灰度测试后,其“识图模式”目前已在几乎所有测试账号中开放入口,用户可在输入框上方直接切换至该模式。尽管界面仍标注为“图片理解功能内测中”,但这标志着 DeepSeek 正式从纯文本模型跨入具备深度视觉理解能力的多模态时代。

实测表现:从文物鉴定到代码还原
与简单的 OCR 文字提取不同,DeepSeek 的识图能力展现出极强的通用性。在文物鉴赏场景中,它能通过纹理细节推断出“痕都斯坦风格”玉器;在逻辑挑战中,即便面对高难度的空间拼合题,开启“深度思考”后也能在约 4 分钟内给出正解。更令人印象深刻的是其“网感”与生产力:它能精准识别特朗普与动漫角色鲁路修的合成梗图,解读表情包情绪;更能将网页或 UI 界面截图直接“逆向工程”,还原出可交互的 HTML 代码结构。
底层架构:用“坐标”思考,破解指代鸿沟
支撑这一能力的核心是 DeepSeek 公布的 “Thinking with Visual Primitives”(以视觉原语思考) 框架。传统模型在推理时只能用模糊的自然语言(如“左边那个大的”)描述物体,导致注意力漂移。DeepSeek 的创新在于将点坐标、边界框等空间元素直接作为思维链的基本单元,让模型像人用手指着图说话一样,边想边“指”,彻底解决了复杂场景下的指代歧义问题。

效率与局限:极致压缩下的能力边界
这一架构在算力效率上极具优势。处理一张 800×800 图片时,DeepSeek 仅消耗约 90 个 tokens,而 GPT、Claude 等主流模型通常需要 870–1100 个 tokens,效率提升超 10 倍。不过,初代“睁眼”模型仍有明显短板:知识库存在滞后性(如误判 2025 年底发布的新机型号),且在复杂计数、视错觉题目上稳定性不足。需明确的是,当前版本仅为纯视觉理解,暂不支持图像生成或视频理解。