上海人工智能实验室于7月19日正式发布DeepLink超大规模跨域混训技术方案,标志着全球首次实现长距离跨域异构智能算力的高效整合。该技术已在中国联通、中国电信等合作伙伴的网络中完成多个项目落地,成功将相隔1500公里的上海与济南智算中心互联,完成千亿参数大模型训练,等效算力达单芯片单集群算力的95%以上。
技术突破方面,DeepLink创新采用“3D并行+PS”高内聚低耦合架构,通过算法优化显著降低对网络带宽的依赖,仅需普通专线即可支持千公里级跨域训练。其核心创新包括:动态任务分发机制减轻网络负担,异构流水线并行策略解决芯片差异导致的负载不均衡问题,以及高可靠容错设计确保单节点故障不影响整体训练。基于中国电信息壤算网的测试显示,在不足10G带宽条件下,北京、上海、贵州三地混训仍能保持90%以上的等效算力利用率。
该方案直击当前算力资源碎片化痛点。随着国内智算中心大规模建设,区域间存在算力分布不均、硬件架构多样化等问题。DeepLink通过标准化接口和动态调度技术,实现“1个平台+N种芯片+X个地域”的稳定运行模式,有效盘活西部闲置算力资源,降低对特定高算力芯片的依赖。实验室青年科学家王辉指出,这种“以算法换带宽”的设计理念,为应对可能的芯片供应链风险提供了技术兜底。
产业合作层面,该技术已深度集成至联通AINET、电信信息壤算网及商汤、仪电等智算平台。今年2月,实验室联合十余家单位在上海建成跨域混训原型集群,完成千亿模型20天不间断训练,为此次长距离互联奠定基础。中国联通研究院表示,此举为全国算力一体化布局提供核心动能,未来可支持数千公里范围内的动态算力整合。
行业分析认为,DeepLink的实用化验证开辟了AI算力供给新路径:既避免超大型智算中心的重复建设,又能通过异构组合突破单集群性能上限。随着10万亿参数级模型时代的临近,该技术或将成为平衡算力成本与效能的关键基础设施。
© 版权声明
文章版权归作者所有,未经允许请勿转载。