浪潮信息近日宣布,其元脑企智一体机已率先完成对Kimi K2万亿参数大模型的适配支持,并实现单用户70 tokens/s的流畅输出速度。这一技术突破为企业客户高效部署大模型应用提供了高性能处理能力和完善的软件工具平台支持。
Kimi K2是由月之暗面推出的开源万亿参数大模型,创新性地采用了MuonClip优化器进行训练,显著提升了模型的学习效率。该模型总参数量达到1万亿,其中激活参数为320亿。K2在代码生成、数学推理和Agent多步骤任务上展现出领先能力,评测指标达到业界领先水平。自发布以来,K2在开发者和研究社区引起广泛关注,并迅速应用于编码辅助和Agent驱动自动化任务中。
为满足K2模型对计算系统的严苛要求,元脑企智一体机采用元脑服务器NF5688G7作为算力底座。该服务器搭载FP8计算引擎,配备1128GB HBM3e高速显存,单台服务器即可支持K2万亿参数全量模型部署。通过900GB/s的GPU P2P带宽,为Kimi K2提供了专家间高速并行通信,最大化并行效率。此外,服务器还支持3200Gbps的RDMA扩展网络,为预填充-解码分离部署和大规模专家并行预留了充足的扩展空间。
在性能优化方面,基于SGLang推理框架,通过减少MoE对齐块大小内核的小批量模式开销和fused_moe的内存消耗,并复用deepGEMM等高效算子,实现了单用户并发下输出速度超过70 tokens/s,25用户并发时每用户输出速度超过25 tokens/s。这种优化后的计算性能保证了用户在复杂任务中能够获得流畅、低延迟的交互体验。
元脑企智一体机还支持64K上下文长度和多路用户实时并发访问,为企业用户提供了一套软硬件协同优化、开箱即用的端到端大模型私有化部署解决方案。通过元脑企智平台,企业可利用低代码、可视化界面,便捷地进行数据准备、模型微调、知识检索和智能体构建。
目前,元脑企智一体机已成功部署于金融、制造、能源、医疗等多个关键行业,帮助企业快速、安全、经济地构建专属大模型应用,加速产业智能化转型步伐。这一技术突破不仅展示了浪潮信息在AI计算领域的技术实力,也为各类AI应用的落地提供了有力支持。
© 版权声明
文章版权归作者所有,未经允许请勿转载。