美团于9月22日正式发布高效推理模型LongCat-Flash-Thinking,这是继9月1日开源LongCat-Flash-Chat后,其大模型技术体系的又一次重要升级。新模型在保持前代产品高速推理能力的同时,强化了逻辑、数学、代码及智能体任务的专项性能,成为国内首个兼具“深度思考+工具调用”与“非形式化+形式化”双轨推理能力的大语言模型。
技术架构方面,LongCat-Flash-Thinking采用领域并行强化学习训练方法,通过解耦STEM、代码和智能体任务的优化过程,实现多领域能力均衡提升。其异步弹性共卡系统(DORA)支持万卡规模集群的稳定运行,在大规模异步强化学习阶段仅需预训练20%的算力投入即可完成性能优化。实测数据显示,该模型在AIME25框架下的智能体工具调用任务中,较传统方法节省64.5%的Token消耗,同时维持90%的准确率。
性能表现上,模型在ARC-AGI基准测试中以50.3分超越多款国际顶尖闭源模型,HMMT和AIME数学评测成绩与Qwen3-235B-A22B-Thinking等领先开源模型持平。部分复杂任务表现接近闭源标杆GPT5-Thinking,尤其在形式化定理证明等高难度领域展现显著优势。
目前,LongCat-Flash-Thinking已在Hugging Face和GitHub全面开源,用户可通过官网体验实时推理。此次发布是美团AI战略的重要落子,与其近期推出的AI Agent产品小美App、垂直场景工具NoCode等形成技术协同,进一步巩固其在智能本地生活服务领域的技术壁垒。
© 版权声明
文章版权归作者所有,未经允许请勿转载。