ITCOW牛新网 1月21日消息,据开发者社区最新发现,DeepSeek在GitHub代码库中更新了涉及FlashMLA架构的114个文件,其中28处提及未知的“MODEL1”大模型标识符。这一发现正值DeepSeek-R1发布一周年之际,引发业界对新一代AI模型DeepSeek V4的广泛期待。

DeepSeek V4模型即将发布 GitHub代码泄露新架构线索​

在GitHub提交记录中,“MODEL1”标识符与现有模型“V32”(即DeepSeek-V3.2)被并列提及,但关键技术实现存在明显差异。代码分析显示,新架构在键值缓存布局、稀疏性处理方式及FP8数据格式解码支持等方面均有创新,表明其可能在内存优化和计算效率上进行了重要改进。这些更新与此前The Information报道的“DeepSeek将在2月中旬农历新年期间推出新旗舰模型”的消息相互印证。

据ITCOW牛新网了解,DeepSeek研究团队近期连续发布了两篇关键技术论文,分别介绍了名为“优化残差连接”的新训练方法,以及受生物学启发的“AI记忆模块”。技术社区推测,正在开发中的V4模型很可能会整合这些最新研究成果,特别是在代码生成能力方面将有明显提升。

此次代码更新还显示,新模型可能采用不同于V3.2的底层架构设计,这将是DeepSeek在短短一年内实现的又一次技术迭代。