ITCOW牛新网 5月29日消息,国产大模型开发商深度求索(Deepseek)昨日在其官方用户交流群中发布最新进展,宣布开放新模型小版本 DeepSeek-R1-0528 的用户测试。据初步反馈,该模型在代码生成、前端设计和复杂任务处理方面表现出色,其整体能力已逼近甚至部分超越 OpenAI 最新 o3 模型。

DeepSeek-R1-0528

新版本 R1-0528 相比初代 DeepSeek-R1 模型实现了显著升级,尤其在编程能力方面,表现尤为亮眼。无论是基于简单提示生成高质量代码,还是对复杂指令的理解与执行,R1-0528 都展现了强劲实力。测试平台 Live CodeBench 上的数据显示,其性能表现与 OpenAI o3(High)版持平,成为国产模型中的佼佼者。

DeepSeek-R1-0528

据 ITCOW牛新网了解,在语言推理测试 Extended NYT Connections 上,R1-0528 模型获得了 49.8 分 的成绩,相比初代 R1 模型的 38.6 分有大幅提升。该基准测试基于《纽约时报》的 Connections 谜题游戏,增加了额外词汇和复杂度,用以全方位考察语言模型的理解力和推理能力,具有高度参考价值。

DeepSeek-R1-0528

风格层面,R1-0528 也对标国际主流模型。其响应格式与 OpenAI o3 模型高度一致,例如箭头、星号的使用方式,以及在答案末尾的 “why it works” 解释机制都提升了整体专业性与说服力。

DeepSeek-R1-0528

除了编程与语言理解,R1-0528 在 代码补全、审美设计和前端页面生成 等任务上也展现出色表现,能够精准理解复杂用户意图,生成结构合理、美观实用的页面和动画内容。在实际体验中,相较于 OpenAI 的 o3 和 o4-mini,R1-0528 显著缩短了推理时间,提供更加流畅高效的交互体验。

深度求索正持续邀请用户参与新版本模型测试,未来有望在更多垂直领域落地应用。随着国产模型不断追赶并突破海外同类产品,人工智能产业的全球格局或将迎来新一轮重构。