美团开源LongCat-Flash-Thinking-2601模型智能体工具调用能力超越Claude

ITCOW牛新网 1月16日消息，美团旗下LongCat团队今日发布并开源新一代人工智能模型LongCat-Flash-Thinking-2601。该模型作为LongCat-Flash-Thinking系列的升级版本，在智能体搜索、工具调用及交互推理等核心评测中均达到开源模型的领先水平，其工具调用泛化能力尤为突出。

美团技术团队介绍，新模型采用创新的“重思考模式”架构，将复杂问题的解决过程分解为并行思考与总结归纳两个阶段。在并行思考环节，模型会同步生成多条独立推理路径，确保思维多样性；在归纳阶段则对多路径结果进行整合优化，形成闭环迭代推理机制。此外，团队还专门设计了强化学习环节，针对性提升模型的归纳总结能力，实现“先思考后行动”的决策逻辑。

据ITCOW牛新网了解，在多项专业评测中，LongCat-Flash-Thinking-2601展现出全面优势。数学推理方面，在开启重思考模式后，该模型在AIME-25评测中获得满分，IMO-AnswerBench中更是以86.8分创下当前最优成绩。智能体工具调用领域，其在τ²-Bench和VitaBench评测中分别取得88.2分和29.3分，均达到开源模型最高水平。特别值得关注的是，在依赖工具调用的随机复杂任务中，其性能已超越Claude模型，且能大幅降低新工具的适配训练成本。

为更准确评估智能体模型的泛化能力，美团还推出了一套创新的自动化任务合成评测方法。该方法支持基于关键词为任意场景生成随机复杂任务，并配备相应工具集与可执行环境。测试结果表明，LongCat-Flash-Thinking-2601在绝大多数随机生成任务中保持领先性能，印证了其强大的环境适应能力。

目前，该模型已同步上线GitHub、Hugging Face和ModelScope等开源平台，并提供在线体验服务。

美团开源LongCat-Flash-Thinking-2601模型智能体工具调用能力超越Claude

相关文章

银河通用机器人完成25亿元融资，春晚“真干活”获资本青睐

阿里巴巴AI品牌统一为“千问”，春节DAU暴涨940%成国民级应用

阿里通义发布语音双模型：一句话自由生成，支持多语种复刻与场景化音频

更多资讯

苹果iPhone 17e正式发布：A19芯片加持，起售价4499元

小鹏第二代VLA发布：端到端架构重构智驾范式，大众成首发客户

OpenAI疑似收购GPT.com域名，重定向至ChatGPT官网

联想发布2026款ThinkPad T系列：AI算力升级，轻薄与可维修性并重