DeepSeek发布mHC架构突破大模型训练稳定性难题,信号放大降至1.6倍

2026年1月1日,人工智能领域迎来一项重要突破。国内大模型研发企业DeepSeek在元旦当天发布题为《mHC: Manifold-Constrained Hyper-Connections》的研究论文,提出了一种名为流形约束超连接(mHC)的新型神经网络架构。该研究由DeepSeek创始人兼CEO梁文锋与核心研究人员解振达、韦毅轩、曹焕琪等共同完成,旨在解决大规模模型训练中的稳定性难题。

研究背景显示,随着模型规模向百亿、千亿参数迈进,传统残差连接架构的信息传输带宽瓶颈日益凸显。近年来兴起的超连接(HC)技术通过拓宽残差流宽度和多样化连接模式,虽显著提升了模型表达能力,却因彻底破坏恒等映射特性,导致信号传播过程中出现高达3000倍的放大效应,引发梯度爆炸与训练崩溃等问题。

mHC架构的核心创新在于引入几何约束机制。研究团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形流形空间(双随机矩阵集合),使信号传播转变为特征的凸组合。这一设计在数学上确保了两个关键特性:一是严格保持信号能量守恒,二是完整保留经典残差连接的恒等映射基线。为抵消计算开销,团队同步开发了内核融合、选择性重计算及扩展DualPipe通信优化策略。

在27B参数模型的实证研究中,mHC展现出显著优势:训练稳定性方面,信号放大倍数从HC的3000倍降至1.6倍,梯度范数波动减少83%;性能表现上,在BBH、DROP等8项复杂推理任务中平均提升2.2%;效率方面,仅增加6.7%训练时间开销即实现上述改进。值得注意的是,该架构在更大规模模型中展现出更强的扩展潜力。

行业分析指出,mHC突破了大模型研发的”跷跷板困境”——既保留超连接的性能增益,又恢复传统架构的稳定性。这一进展有望降低企业训练超大规模模型的硬件门槛,并为多模态系统、工业级决策模型等复杂场景落地提供底层支持。DeepSeek在论文中强调,mHC不仅是一项工程解决方案,更为理解神经网络拓扑结构与优化性能的关系提供了新视角,可能推动架构设计从经验驱动向理论驱动转型。

此次成果是DeepSeek继2025年持续迭代模型能力后,在基础架构领域的又一次重要突破。据业内人士观察,该研究或为其下一代大模型版本的核心升级奠定理论基础。随着论文细节的持续披露,学界正密切关注这一架构在更大参数规模下的表现及其对Transformer基础范式的潜在影响。

© 版权声明

相关文章