香港城大与华为联合开源低成本视频生成模型Pusa V1.0，训练成本仅500美元

AI产品动态3个月前发布 AI视野

香港城市大学与华为香港研究所联合研发的低成本视频生成模型Pusa V1.0近日正式开源，该模型以500美元超低训练成本实现多项视频生成任务的性能突破，技术指标达到行业领先水平。研究团队通过创新的向量时间步适应（VTA）机制重构传统视频扩散范式，在保留预训练模型核心能力的同时，显著降低了数据与算力需求。

技术突破：非破坏性微调与跨任务泛化
Pusa V1.0基于开源大模型Wan-T2V-14B进行轻量化微调，仅使用3860段视频-文本配对数据（约为常规需求的1/2500）即完成训练。其核心创新VTA机制将时间步长从标量扩展为矢量，使每帧画面获得独立的时间演化路径，解决了传统标量时间步长导致的运动失真问题。实验显示，该模型在图像转视频（I2V）任务中超越原基础模型，并涌现出零样本执行视频扩展、首尾帧插值、文本指令编辑等能力。例如输入9帧起始画面与12帧结束画面，模型可自主生成中间60帧过渡视频。

低成本高效益的工程实践
相较于需百万美元级训练的行业标杆模型，Pusa项目将单次训练成本压缩至500美元级别。团队通过开源完整代码库、训练数据集及微调方案，推动技术民主化进程。华为香港研究所技术负责人刘睿表示，该成果验证了向量化时间步理论在工业场景的可行性，后续将探索480p至720p分辨率的升级路径。

目前Pusa V1.0已支持文生视频、图生视频、帧插值等八类视频生成任务，其技术框架可适配Mochi、Hunyuan Video等多种底层模型。项目代码及论文均已在GitHub平台开放，研究团队呼吁行业共同优化这一低成本视频生成方案。

AI产品动态 # AI # VTA机制 # 低成本训练 # 华为 # 开源模型 # 视频生成 # 香港城市大学

文章版权归作者所有，未经允许请勿转载。

香港城大与华为联合开源低成本视频生成模型Pusa V1.0，训练成本仅500美元

特斯拉全球首家超级充电餐厅即将开业：Optimus机器人引领餐饮科技革命

万兴科技发布首款AI Agent产品“万兴超媒Agent”，开启音视频创作智能化新时代

相关文章

Mistral AI推出Mistral Compute云平台，进军AI基础设施市场

瑞士推出国家级开源大语言模型Apertus，推动AI透明与多语言创新

Anthropic收购Humanloop核心团队，强化企业级AI服务能力

腾讯企点营销云发布Magic Agent智能体，AI驱动全链路营销升级

最新资讯

热门AI工具

热门资讯