AMD联手IBM与Zyphra成功训练全球首个大型MoE模型ZAYA1，AI算力格局生变

AMD、IBM与AI初创公司Zyphra近日联合宣布，成功基于AMD硬件生态训练出全球首个大型混合专家（MoE）基础模型ZAYA1。这一突破性成果标志着AMD在AI算力领域的技术实力获得关键验证，也为异构计算生态提供了新的行业范例。

全栈式技术协同
三方合作构建的专用计算集群由128个节点组成，每个节点搭载8块AMD Instinct MI300X GPU，通过InfinityFabric互联实现1024块GPU的协同运算，峰值算力达750PFLOPs。Zyphra开发的定制化训练框架使集群在数月训练中保持99.9%以上的可用性，结合Pensando网络架构与ROCm软件平台，形成从芯片到算法的深度优化体系。

模型性能与创新架构
ZAYA1的预训练数据规模达14万亿tokens，采用渐进式课程学习策略：初期通过通用网络文本构建基础能力，中期引入数学公式与代码库强化逻辑推理，后期融合科学文献提升专业领域理解。基准测试显示，其基础版本在MMLU-Redux、GSM-8K等测试中性能比肩行业标杆Qwen3系列，在STEM任务上更接近Qwen3专业版水平。

技术突破核心在于两项创新：
1. CCA注意力机制：将卷积操作嵌入传统注意力模块，降低40%计算复杂度与35%显存占用，显著提升长序列处理效率；
2. 动态路由算法：改进MoE模型专家负载均衡，使专家模块专业化程度提升60%，稀疏性达70%时仍保持高利用率。

商业化与生态意义
AMD表示，此次合作验证了其硬件在超大规模MoE训练中的可行性，计划2026年实现与英伟达解决方案的成本对等。Zyphra透露，指令微调与RLHF版本将于2026年第一季度发布，届时将开放API与权重下载。IBM则强调，该成果为其量子计算算法在经典芯片的部署提供了新思路。

行业观察人士指出，ZAYA1的诞生不仅填补了纯AMD生态训练大模型的空白，更可能重塑AI算力市场竞争格局。随着AMD近期完成对MK1等AI技术公司的收购，其全栈AI能力正加速完善，为挑战英伟达的行业主导地位增添重要筹码。

文章版权归作者所有，未经允许请勿转载。

AMD联手IBM与Zyphra成功训练全球首个大型MoE模型ZAYA1，AI算力格局生变

灵心巧手完成数亿元A+轮融资，全球灵巧手市场份额超80%

森马集团发布AI聚合力平台“大森3.0”，全业务场景智能化赋能正式落地

相关文章

Meta与依视路联合发布Oakley Meta HSTN智能眼镜，专业运动市场迎来新突破

MiQ Sigma正式发布：AI驱动的程序化广告平台引领智能决策新纪元

科大讯飞AI学习机2025暑期重磅升级：15项新功能引领个性化教育新时代

X平台全面升级Grok AI推荐系统，内容分发效率将提升40%

最新资讯

热门AI工具

热门资讯