ITCOW牛新网 3月18日消息,今日,MiniMax(稀宇科技)发布新一代Agent旗舰大模型M2.7。此次发布的核心亮点并非单纯的性能提升,而是首次展示了“模型自我进化”的技术路径。该模型通过构建Agent Harness体系,深度参与自身的训练与优化流程,在部分研发场景中可承担约30%-50%的工作量,标志着AI研发正从“人工喂养”向“自主迭代”迈进。

据ITCOW牛新网了解,M2.7在编程等核心能力上已追平国际一线模型。在涵盖多种编程语言的SWE-Pro基准测试中,M2.7以56.22%的正确率追平GPT-5.3-Codex;在更贴近真实工程场景的Repo级代码生成基准VIBE-Pro上,M2.7得分55.6%,几乎与Opus 4.6持平。这一表现意味着国产大模型在代码生成与工程理解上已具备国际顶级竞争力。

技术突破:AI开始“自我进化”

M2.7最引人注目的特性是其“自我进化”能力。MiniMax构建了一套以Agent为核心的自我进化系统,让模型不再仅仅是执行任务的工具,而是成为研发流程的一部分。

  • 深度参与研发:在内部研发实践中,M2.7能够构建强化学习Harness中的复杂技能,更新记忆,驱动模型自身的强化学习,并基于结果优化训练过程。
  • 自主优化闭环:在内部测试中,M2.7全程自主运行,执行“分析失败轨迹→规划改动→修改代码→运行评测→对比结果”的迭代循环超过100轮,自主发现采样参数最优组合、设计工作流指引等优化策略,最终在内部评测集上实现约30%的效果提升。
  • 实战能力验证:在MLE Bench Lite的22个机器学习任务测试中,M2.7取得了66.6%的平均得牌率,仅次于Opus 4.6和GPT-5.4,与Gemini 3.1持平。
MiniMax发布M2.7大模型
MiniMax发布M2.7大模型

软件工程:从代码生成到系统运维

在软件工程领域,M2.7不仅擅长代码生成,更具备真实生产环境下的运维与排障能力。

  • 端到端项目交付:在VIBE-Pro测试中,M2.7表现出色,意味着无论是Web、Android还是iOS开发,模型都能完成端到端的完整项目交付。
  • 生产环境排障:面对真实的生产环境告警,M2.7能关联监控指标与部署时间线进行因果推理,主动连接数据库验证根因,甚至提出“非阻塞建索引先止血”的工程级解决方案。MiniMax表示,基于M2.7,已多次将线上生产系统故障的恢复时间缩短至3分钟以内。
  • 复杂系统理解:在Terminal Bench 2测试中,M2.7得分57.0%,证明其能深入理解复杂软件系统的运行逻辑。
MiniMax发布M2.7大模型

办公与多智能体协作

除了编程,M2.7在办公及多智能体协作场景也展现了强大实力。

  • 专业办公:在GDPval-AA评测中,M2.7的ELO得分为1495(开源最高)。模型能基于模板生成Word、Excel、PPT文件,并支持多轮高保真编辑。
  • Agent Teams(多智能体协作):M2.7原生支持多智能体协作,模型能在多个角色之间稳定锚定身份,进行对抗性推理与协同决策,这被视为Agent应用从单点能力走向复杂系统的重要标志。
  • 互动娱乐:M2.7加强了人设保持和高情商对话能力,并推出了名为OpenRoom的开源Agent交互系统,将AI互动置入可视化的Web空间,探索“对话即界面”的新交互范式。
MiniMax发布M2.7大模型

目前,MiniMax M2.7已在MiniMax Agent与开放平台上全量上线。随着开发者与企业用户的接入,其在真实场景中的表现将成为检验“自我进化模型”商业价值的关键。