香港城大与华为联合开源低成本视频生成模型Pusa V1.0,训练成本仅500美元

香港城市大学华为香港研究所联合研发的低成本视频生成模型Pusa V1.0近日正式开源,该模型以500美元超低训练成本实现多项视频生成任务的性能突破,技术指标达到行业领先水平。研究团队通过创新的向量时间步适应(VTA)机制重构传统视频扩散范式,在保留预训练模型核心能力的同时,显著降低了数据与算力需求。

技术突破:非破坏性微调与跨任务泛化
Pusa V1.0基于开源大模型Wan-T2V-14B进行轻量化微调,仅使用3860段视频-文本配对数据(约为常规需求的1/2500)即完成训练。其核心创新VTA机制将时间步长从标量扩展为矢量,使每帧画面获得独立的时间演化路径,解决了传统标量时间步长导致的运动失真问题。实验显示,该模型在图像转视频(I2V)任务中超越原基础模型,并涌现出零样本执行视频扩展、首尾帧插值、文本指令编辑等能力。例如输入9帧起始画面与12帧结束画面,模型可自主生成中间60帧过渡视频。

低成本高效益的工程实践
相较于需百万美元级训练的行业标杆模型,Pusa项目将单次训练成本压缩至500美元级别。团队通过开源完整代码库、训练数据集及微调方案,推动技术民主化进程。华为香港研究所技术负责人刘睿表示,该成果验证了向量化时间步理论在工业场景的可行性,后续将探索480p至720p分辨率的升级路径。

目前Pusa V1.0已支持文生视频、图生视频、帧插值等八类视频生成任务,其技术框架可适配Mochi、Hunyuan Video等多种底层模型。项目代码及论文均已在GitHub平台开放,研究团队呼吁行业共同优化这一低成本视频生成方案。

© 版权声明

相关文章