AMD、IBM与AI初创公司Zyphra近日联合宣布,成功基于AMD硬件生态训练出全球首个大型混合专家(MoE)基础模型ZAYA1。这一突破性成果标志着AMD在AI算力领域的技术实力获得关键验证,也为异构计算生态提供了新的行业范例。
全栈式技术协同
三方合作构建的专用计算集群由128个节点组成,每个节点搭载8块AMD Instinct MI300X GPU,通过InfinityFabric互联实现1024块GPU的协同运算,峰值算力达750PFLOPs。Zyphra开发的定制化训练框架使集群在数月训练中保持99.9%以上的可用性,结合Pensando网络架构与ROCm软件平台,形成从芯片到算法的深度优化体系。
模型性能与创新架构
ZAYA1的预训练数据规模达14万亿tokens,采用渐进式课程学习策略:初期通过通用网络文本构建基础能力,中期引入数学公式与代码库强化逻辑推理,后期融合科学文献提升专业领域理解。基准测试显示,其基础版本在MMLU-Redux、GSM-8K等测试中性能比肩行业标杆Qwen3系列,在STEM任务上更接近Qwen3专业版水平。
技术突破核心在于两项创新:
1. CCA注意力机制:将卷积操作嵌入传统注意力模块,降低40%计算复杂度与35%显存占用,显著提升长序列处理效率;
2. 动态路由算法:改进MoE模型专家负载均衡,使专家模块专业化程度提升60%,稀疏性达70%时仍保持高利用率。
商业化与生态意义
AMD表示,此次合作验证了其硬件在超大规模MoE训练中的可行性,计划2026年实现与英伟达解决方案的成本对等。Zyphra透露,指令微调与RLHF版本将于2026年第一季度发布,届时将开放API与权重下载。IBM则强调,该成果为其量子计算算法在经典芯片的部署提供了新思路。
行业观察人士指出,ZAYA1的诞生不仅填补了纯AMD生态训练大模型的空白,更可能重塑AI算力市场竞争格局。随着AMD近期完成对MK1等AI技术公司的收购,其全栈AI能力正加速完善,为挑战英伟达的行业主导地位增添重要筹码。
© 版权声明
文章版权归作者所有,未经允许请勿转载。