近日,EXO Labs展示了其“分布式推理”技术的最新成果,通过组合苹果M3 Ultra Mac Studio与双英伟达DGX Spark设备,在AI大语言模型推理测试中实现了2.8倍的性能提升。这一突破性进展为解决硬件选择难题提供了新思路,即通过智能协同异构设备来扩展算力,而非依赖单一高性能加速器。
在具体测试中,研究团队采用Meta Llama-3.1 8B模型进行基准测试。结果显示,DGX Spark在预填充任务上的速度比Mac Studio快3.8倍,而Mac Studio凭借高带宽优势在生成任务上又比DGX Spark快3.4倍。这种互补性使得混合架构的整体性能显著超越单独使用Mac Studio的方案。技术实现上,系统通过逐层传输模型的KV缓存数据,使不同设备能够并行工作,而非传统方案的串行等待。
该技术基于EXO Labs开发的开源框架EXO,其核心在于将工作负载智能分配到不同硬件设备上,形成类似Mesh网络的分布式计算环境。值得注意的是,这种理念与英伟达新一代Rubin CPX平台的设计思路不谋而合,两者都强调通过专业化分工来提升整体效率。
目前EXO仍处于研究阶段,最新开源版本为0.0.15-alpha,预计后续版本将加入自动调度、KV流式传输等优化功能。虽然该技术尚未达到消费级产品的成熟度,但其展示的分布式推理架构为低成本扩展AI算力提供了可行路径,特别是在避免建设大型数据中心的场景下具有重要应用潜力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。