ITCOW牛新网 10月9日消息,蚂蚁集团今日发布了其万亿参数规模的通用语言模型Ling-1T,该模型作为蚂蚁百灵大模型Ling 2.0系列的首款旗舰产品,现已全面开源。据测评数据显示,Ling-1T在多项关键性能指标上位居开源模型榜首。

蚂蚁集团万亿参数大模型Ling-1T

据ITCOW牛新网了解,Ling-1T在有限输出Token条件下,于多项复杂推理基准测试中取得SOTA(State of the Art)表现,展现出在高效思考与精确推理之间的卓越平衡能力。在代码生成、软件开发、竞赛数学、专业数学和逻辑推理等高难度基准测试中,该模型均取得领先成绩。

蚂蚁集团万亿参数大模型Ling-1T

以竞赛数学榜单AIME 25为例,Ling-1T以平均4000+ Token的消耗实现了70.42%的准确率,优于Gemini-2.5-Pro的表现(平均5000+ Token,准确率70.10%),显示出在推理精度和思考效率方面的综合优势。

蚂蚁集团万亿参数大模型Ling-1T

该模型沿用Ling 2.0架构,在20T+tokens高质量、高推理浓度的语料上完成预训练,支持最高128K上下文窗口。通过”中训练+后训练”的演进式思维链(Evo-CoT)技术,显著提升了模型的高效思考和精准推理能力。

研发过程中,团队观察到模型规模扩大与推理能力强化带来了出乎意料的跨领域泛化表现。在智能体工具调用任务BFCL V3上,Ling-1T虽未在中训练阶段引入大量操作轨迹,仅通过少量指令微调即可达到约70%的调用准确率,展现出卓越的推理迁移与泛化能力。

蚂蚁集团万亿参数大模型Ling-1T

蚂蚁百灵团队同时指出了模型当前存在的局限性:基于GQA的attention架构在超长上下文和复杂推理任务中表现稳定但推理成本偏高;智能体能力在多轮交互、长期记忆和复杂工具使用等方面仍需强化;部分场景下可能出现指令执行偏差或角色混淆问题。

未来版本将继续在架构、推理与对齐层面迭代,通过引入混合注意力架构、提升工具理解与使用能力,以及强化身份对齐与安全微调来改进模型。Ling-1T已开源,相关资源可通过HuggingFace、ModelScope、GitHub等平台获取。