字节跳动发布OmniHuman-1.5视频生成模型：语音驱动多角色动画技术突破

AI产品动态4个月前发布 AI视野

字节跳动近日正式发布视频生成模型 OmniHuman-1.5，该技术通过结合多模态大语言模型与扩散Transformer架构，实现了基于单张图像和语音输入生成高动态角色动画视频的能力。模型创新性地模拟人类认知的两种思维模式——缓慢深思的规划与迅捷直觉的反应，使生成视频时长突破一分钟，并具备流畅镜头运动、复杂多角色互动及高动态动作表现等特性。

据技术文档显示，OmniHuman-1.5可精准匹配语音节奏、韵律及语义内容，生成富有表现力的角色动画。用户可通过文本提示进一步优化输出效果，其新增的情感感知功能能根据音频情绪自动调整人物面部表情与肢体动作。值得注意的是，该版本首次实现双人音频驱动，支持多人场景的精准交互，适用于演讲视频、音乐MV等复杂应用场景。

行业分析指出，该技术在真实感、泛化能力和多风格覆盖方面较前代有显著提升。实际测试表明，系统不仅能处理真人图像，对卡通形象、动漫角色等非人类形象同样有效。研究团队采用的”全方位条件训练”方法突破了传统依赖高质量音频-视频配对数据的限制，通过同时学习文字描述、音频、动作姿态等多重控制信号，大幅提升了模型的适应能力。

目前，该技术已在影视制作、虚拟主播、教育培训等领域展开应用测试。市场观察人士认为，OmniHuman-1.5的发布标志着AI驱动的内容创作门槛进一步降低，其商业化应用前景值得期待。字节跳动尚未公布该模型的具体落地计划，但技术社区已在GitHub等平台发现相关代码库更新。

文章版权归作者所有，未经允许请勿转载。

字节跳动发布OmniHuman-1.5视频生成模型：语音驱动多角色动画技术突破

联想发布百应智能体2.0：国内首款L3级企业AI服务智能体，破解中小企业数字化转型痛点

阿里巴巴瓴羊推出行业首款数据分析Agent系统，10秒响应20分钟生成专业报告

相关文章

全国首个机器人博士诞生！上戏录取具身智能机器人“学霸01”

阿里云通义千问发布多模态模型Qwen VLo，实现图像与文本高质量协同创作

Manus AI推出Windows桌面应用程序，智能自动化服务无需邀请码

Suno AI发布V4.5+版本：分层生成与多模态融合技术突破

最新资讯

热门AI工具

热门资讯