字节跳动近日正式发布视频生成模型OmniHuman-1.5,该技术通过结合多模态大语言模型与扩散Transformer架构,实现了基于单张图像和语音输入生成高动态角色动画视频的能力。模型创新性地模拟人类认知的两种思维模式——缓慢深思的规划与迅捷直觉的反应,使生成视频时长突破一分钟,并具备流畅镜头运动、复杂多角色互动及高动态动作表现等特性。
据技术文档显示,OmniHuman-1.5可精准匹配语音节奏、韵律及语义内容,生成富有表现力的角色动画。用户可通过文本提示进一步优化输出效果,其新增的情感感知功能能根据音频情绪自动调整人物面部表情与肢体动作。值得注意的是,该版本首次实现双人音频驱动,支持多人场景的精准交互,适用于演讲视频、音乐MV等复杂应用场景。
行业分析指出,该技术在真实感、泛化能力和多风格覆盖方面较前代有显著提升。实际测试表明,系统不仅能处理真人图像,对卡通形象、动漫角色等非人类形象同样有效。研究团队采用的”全方位条件训练”方法突破了传统依赖高质量音频-视频配对数据的限制,通过同时学习文字描述、音频、动作姿态等多重控制信号,大幅提升了模型的适应能力。
目前,该技术已在影视制作、虚拟主播、教育培训等领域展开应用测试。市场观察人士认为,OmniHuman-1.5的发布标志着AI驱动的内容创作门槛进一步降低,其商业化应用前景值得期待。字节跳动尚未公布该模型的具体落地计划,但技术社区已在GitHub等平台发现相关代码库更新。
© 版权声明
文章版权归作者所有,未经允许请勿转载。