小红书技术团队近日在深度思考模型优化领域取得突破性进展。6月19日,该团队通过官方技术博客发布研究成果,提出名为”Think When You Need”的强化学习训练新范式,成功解决了当前深度思考模型中存在的冗余计算问题。
研究显示,传统深度思考模型采用Test-Time Scaling技术虽然提升了推理能力,但伴随产生了大量无效思考。Hi Lab团队创新性地引入动态CoT(Chain-of-Thought)机制,通过强化学习实现思考时长的智能调控。实验数据表明,该方法在保持模型性能的前提下,可将平均思考长度显著缩短,且该优化效果在推理与非推理任务中均具有普适性。
值得注意的是,团队在研究中发现一个反直觉现象:参数量更大的”更聪明”模型,在相同任务中所需的思考长度反而更短。这一发现与当前主流深度思考模型的表现规律相悖,却与人类认知特征高度吻合。该现象为未来模型架构设计提供了新的研究方向。
此次技术突破建立在团队前期研究成果基础上。今年2月,小红书已申请相关专利(公开号CN120068988A),其核心技术在于优化强化学习过程中的资源调度机制,通过分时复用推理阶段的机器资源,显著降低训练门槛。此前3月公布的PPO算法优化成果也为本次研究奠定了基础,当时团队通过流线型流水线机制将训练耗时缩短近70%。
据悉,该技术有望应用于小红书多模态大模型系统,其RL-COT(基于因果推理的强化学习)理念的实践,标志着AI模型向更高效、更类人认知方向迈出重要一步。团队表示,将继续深化在深度流水线调度和算法优化方面的探索,推动强化学习技术在工业场景的落地应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。