DeepSeek V4模型即将发布 GitHub代码泄露新架构线索

1 月 21, 2026 #DeepSeek, #DeepSeek V4

ITCOW牛新网 1月21日消息，据开发者社区最新发现，DeepSeek在GitHub代码库中更新了涉及FlashMLA架构的114个文件，其中28处提及未知的“MODEL1”大模型标识符。这一发现正值DeepSeek-R1发布一周年之际，引发业界对新一代AI模型DeepSeek V4的广泛期待。

在GitHub提交记录中，“MODEL1”标识符与现有模型“V32”（即DeepSeek-V3.2）被并列提及，但关键技术实现存在明显差异。代码分析显示，新架构在键值缓存布局、稀疏性处理方式及FP8数据格式解码支持等方面均有创新，表明其可能在内存优化和计算效率上进行了重要改进。这些更新与此前The Information报道的“DeepSeek将在2月中旬农历新年期间推出新旗舰模型”的消息相互印证。

据ITCOW牛新网了解，DeepSeek研究团队近期连续发布了两篇关键技术论文，分别介绍了名为“优化残差连接”的新训练方法，以及受生物学启发的“AI记忆模块”。技术社区推测，正在开发中的V4模型很可能会整合这些最新研究成果，特别是在代码生成能力方面将有明显提升。

此次代码更新还显示，新模型可能采用不同于V3.2的底层架构设计，这将是DeepSeek在短短一年内实现的又一次技术迭代。

人工智能

DeepSeek V4模型即将发布 GitHub代码泄露新架构线索

相关文章

Cursor推出Automations工具，实现AI智能体编程“自动驾驶”

浪潮开源“源Yuan3.0 Ultra”万亿参数多模态大模型，聚焦企业级智能体应用

OpenAI发布GPT-5.4：原生操控电脑与“思考过程预览”重塑人机交互

更多资讯

小鹏G6超级增程上市：18.68万起，续航1704km，算力2250TOPS

东风日产NX8官宣即将预售，20万级大五座SUV搭载800V平台

携程将下线“AI生意助手”，成行业首个叫停自动调价工具平台

传音Tecno发布全球首款全金属一体化5G手机，联名兰博基尼