AI视频生成技术重大突破:Pika Labs发布音频驱动表演模型

AI产品动态19小时前发布 AI视野

近日,AI视频生成领域迎来重大突破。Pika Labs于8月11日正式发布”音频驱动表演模型”(Audio-Driven Performance Model),该技术通过结合静态图像与用户上传的音频文件,可生成具有精确口型同步、自然表情变化及流畅肢体动作的视频内容,彻底革新传统视频制作流程。

实测显示,用户仅需提供任意静态图片(如自拍)和音频片段(包括语音、音乐或说唱),系统平均6秒即可输出720p高清视频。在技术演示案例中,当输入马保国”年轻人不讲武德”的音频时,生成的人物视频不仅实现精准唇部同步,连眉部微表情都与音频节奏高度吻合。值得注意的是,该模型对多语言适配表现优异,有效解决了AI视频常见的”假唱”问题。

目前该功能暂限于iOS端邀请制测试,但已展现出强大的应用潜力。从用户生成的测试视频可见,AI演员能根据音频节奏自动调整表演细节,如说唱停顿时的自然神态过渡。不过仍存在部分肢体动作不够自然的技术局限,如手部细节处理尚待优化。

此次技术突破标志着AI视频生成从”画面驱动”迈入”音画智能联动”新阶段。相比此前需专业特效团队耗时数周的制作流程,该技术将复杂的面部捕捉与动作合成压缩至秒级完成。Pika Labs官方表示,1080p高清版本已面向付费用户开放网页端测试,移动端功能扩展正在推进中。

© 版权声明

相关文章