阿里与浙大联合开源OmniAvatar模型：音频驱动全身视频生成技术取得突破

AI产品动态5个月前发布 AI视野

阿里旗下夸克技术团队与浙江大学近日联合开源了音频驱动全身视频生成模型OmniAvatar，该技术突破标志着视频生成领域取得重要进展。这一创新模型仅需输入单张图片和音频片段，即可生成具有高度自然感的动态视频，尤其在唇形同步精度和全身动作流畅性方面表现突出。

技术层面，OmniAvatar采用基于像素的音频嵌入策略，通过将音频特征直接融入模型潜在空间，实现像素级的动作协调。其多层级音频嵌入架构使DiT模块在不同阶段保持独立学习路径，有效解决了长视频生成中的人物一致性难题。实验数据显示，模型在播客、歌唱、交互等场景下均能保持面部表情、肢体动作与音频的高度匹配。

区别于传统仅聚焦面部驱动的技术方案，OmniAvatar通过提示词控制系统实现了对人物姿势、情绪及场景要素的精准调控。该功能显著提升了创作自由度，用户可通过文本指令调整生成内容细节。团队特别优化的参考图像嵌入策略与帧重叠技术，确保了长时间序列视频的时空连贯性。

目前项目已在开源平台发布完整模型架构（Wan2.1-T2V-14B基础模型结合LoRA微调方案）、技术文档及测试案例。教育领域专家指出，该技术在个性化教学内容制作、学生创意表达等方面具有潜在应用价值。研发团队同时强调，将同步推进技术伦理规范建设，确保创新成果的负责任应用。

文章版权归作者所有，未经允许请勿转载。

阿里与浙大联合开源OmniAvatar模型：音频驱动全身视频生成技术取得突破

科大讯飞星火X1升级版发布：国产大模型技术迈入新阶段

饿了么发布首款AI智能头盔X3，助力骑手配送效率与安全双提升

相关文章

快手可灵AI数字人技术重大升级：突破60秒长视频生成，实现精准表情动作控制

蚂蚁集团开源全球首个万亿参数推理大模型Ring-1T-preview，多项测试超越GPT-5

xAI开源Grok 2.5大模型：代码/数据全面开放，同步预告Grok 3突破性能力

腾讯AI工作台ima升级：新增AI播客生成等四项核心能力，提升内容创作效率

最新资讯

热门AI工具

热门资讯