快手可灵AI数字人技术重大升级:突破60秒长视频生成,实现精准表情动作控制

AI产品动态10小时前发布 AI视野

近日,快手旗下可灵AI团队正式推出新一代数字人功能升级,重点优化了面部表情与口型同步精度,并突破性实现单次60秒的长视频生成能力。该技术于9月15日开启公测,相关技术报告《Kling-Avatar》已在arXiv平台公开发布。

此次升级的核心在于多模态大语言模型驱动的两阶段生成框架。与传统仅实现基础口型同步的技术不同,新系统能根据音频内容自动生成细腻的面部微表情和肢体动作。例如,在音乐场景中,数字人可随旋律自然扬起嘴角,或在说唱段落中配合节奏做出肩部摆动等连贯动作。测试显示,系统能在长达1分钟的视频中保持动作自然度与画面流畅性。

技术报告指出,该方案通过多模态理解模块将用户指令转化为可执行的故事线,再经由生成模块实现精准的表情与动作控制。公开演示视频显示,数字人已能完成跨语种演唱、多画风切换等复杂任务,尤其在音乐视频场景中表现突出。目前该功能已在可灵AI创作平台逐步开放,支持用户通过提示词对表情动作进行部分调控。

值得注意的是,这是可灵AI继7月发布”灵动画布”功能后的又一次重大更新。据官方数据,其全球创作者数量已突破4500万,二季度收入环比增长达66%。此次数字人技术的突破,将进一步拓展其在短剧制作、虚拟直播等领域的应用空间。

© 版权声明

相关文章