阿里与浙大联合开源OmniAvatar模型:音频驱动全身视频生成技术取得突破

阿里旗下夸克技术团队与浙江大学近日联合开源了音频驱动全身视频生成模型OmniAvatar,该技术突破标志着视频生成领域取得重要进展。这一创新模型仅需输入单张图片和音频片段,即可生成具有高度自然感的动态视频,尤其在唇形同步精度和全身动作流畅性方面表现突出。

技术层面,OmniAvatar采用基于像素的音频嵌入策略,通过将音频特征直接融入模型潜在空间,实现像素级的动作协调。其多层级音频嵌入架构使DiT模块在不同阶段保持独立学习路径,有效解决了长视频生成中的人物一致性难题。实验数据显示,模型在播客、歌唱、交互等场景下均能保持面部表情、肢体动作与音频的高度匹配。

区别于传统仅聚焦面部驱动的技术方案,OmniAvatar通过提示词控制系统实现了对人物姿势、情绪及场景要素的精准调控。该功能显著提升了创作自由度,用户可通过文本指令调整生成内容细节。团队特别优化的参考图像嵌入策略与帧重叠技术,确保了长时间序列视频的时空连贯性。

目前项目已在开源平台发布完整模型架构(Wan2.1-T2V-14B基础模型结合LoRA微调方案)、技术文档及测试案例。教育领域专家指出,该技术在个性化教学内容制作、学生创意表达等方面具有潜在应用价值。研发团队同时强调,将同步推进技术伦理规范建设,确保创新成果的负责任应用。

© 版权声明

相关文章