ITCOW牛新网 1月16日消息,美团旗下LongCat团队今日发布并开源新一代人工智能模型LongCat-Flash-Thinking-2601。该模型作为LongCat-Flash-Thinking系列的升级版本,在智能体搜索、工具调用及交互推理等核心评测中均达到开源模型的领先水平,其工具调用泛化能力尤为突出。

美团开源LongCat-Flash-Thinking-2601模型

美团技术团队介绍,新模型采用创新的“重思考模式”架构,将复杂问题的解决过程分解为并行思考与总结归纳两个阶段。在并行思考环节,模型会同步生成多条独立推理路径,确保思维多样性;在归纳阶段则对多路径结果进行整合优化,形成闭环迭代推理机制。此外,团队还专门设计了强化学习环节,针对性提升模型的归纳总结能力,实现“先思考后行动”的决策逻辑。

据ITCOW牛新网了解,在多项专业评测中,LongCat-Flash-Thinking-2601展现出全面优势。数学推理方面,在开启重思考模式后,该模型在AIME-25评测中获得满分,IMO-AnswerBench中更是以86.8分创下当前最优成绩。智能体工具调用领域,其在τ²-Bench和VitaBench评测中分别取得88.2分和29.3分,均达到开源模型最高水平。特别值得关注的是,在依赖工具调用的随机复杂任务中,其性能已超越Claude模型,且能大幅降低新工具的适配训练成本。

美团开源LongCat-Flash-Thinking-2601模型

为更准确评估智能体模型的泛化能力,美团还推出了一套创新的自动化任务合成评测方法。该方法支持基于关键词为任意场景生成随机复杂任务,并配备相应工具集与可执行环境。测试结果表明,LongCat-Flash-Thinking-2601在绝大多数随机生成任务中保持领先性能,印证了其强大的环境适应能力。

目前,该模型已同步上线GitHub、Hugging Face和ModelScope等开源平台,并提供在线体验服务。