摩尔线程近日正式推出Torch-MUSA v2.7.0版本,这是其专为PyTorch深度学习框架打造的MUSA扩展库在一个月内的第二次重大更新。此次升级聚焦AI模型训练与推理功能的强化,通过计算加速、内存优化及算子扩展三大方向实现技术突破。
在计算架构方面,新版本深度整合muFFT快速傅里叶变换库与muSolver线性求解器库,显著提升复杂数学运算效率。针对边缘计算场景,创新性地在Arm架构SoC设备中实现统一内存管理(UMM),采用UMA技术使GPU与CPU共享物理内存空间。经测试,该技术可消除30%以上的内存冗余分配,减少主机与设备间数据拷贝频次,并允许GPU直接访问CPU内存区域。
算子体系迎来全面扩容,新增ilshift位运算、replication_pad1d_bwd序列填充、ctcLossTensor语音识别等十余类算子,同时扩展CSR格式稀疏矩阵操作与量化算子支持范围。目前专属算子总量已突破1050个,覆盖深度学习全流程需求。性能优化方面,var/std统计计算、3D卷积等核心操作效率提升15%-20%,reduce_sum操作新增对uint8输入与int64输出的兼容。
系统层面同步实现多项增强:版本号策略调整为与PyTorch主版本对齐,支持MUSA SDK 4.2.0-4.3.0工具链;新增torch.musa.mccl.version接口便于版本查询;修复torch.norm形状计算等关键缺陷。值得关注的是,新版本引入动态双精度转换功能,支持通过环境变量灵活配置Float64到float32的转换策略,并优化分布式检查点机制,实现多进程并行加载模型。
此次更新延续了摩尔线程快速迭代的技术路线,距v2.5.0版本发布仅间隔四周。官方透露,下一版本v2.9.0将适配PyTorch 2.9.0框架,持续强化对大模型训练的支持能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。