快手可灵AI数字人技术重大升级：突破60秒长视频生成，实现精准表情动作控制

近日，快手旗下可灵AI团队正式推出新一代数字人功能升级，重点优化了面部表情与口型同步精度，并突破性实现单次60秒的长视频生成能力。该技术于9月15日开启公测，相关技术报告《Kling-Avatar》已在arXiv平台公开发布。

此次升级的核心在于多模态大语言模型驱动的两阶段生成框架。与传统仅实现基础口型同步的技术不同，新系统能根据音频内容自动生成细腻的面部微表情和肢体动作。例如，在音乐场景中，数字人可随旋律自然扬起嘴角，或在说唱段落中配合节奏做出肩部摆动等连贯动作。测试显示，系统能在长达1分钟的视频中保持动作自然度与画面流畅性。

技术报告指出，该方案通过多模态理解模块将用户指令转化为可执行的故事线，再经由生成模块实现精准的表情与动作控制。公开演示视频显示，数字人已能完成跨语种演唱、多画风切换等复杂任务，尤其在音乐视频场景中表现突出。目前该功能已在可灵AI创作平台逐步开放，支持用户通过提示词对表情动作进行部分调控。

值得注意的是，这是可灵AI继7月发布”灵动画布”功能后的又一次重大更新。据官方数据，其全球创作者数量已突破4500万，二季度收入环比增长达66%。此次数字人技术的突破，将进一步拓展其在短剧制作、虚拟直播等领域的应用空间。

文章版权归作者所有，未经允许请勿转载。

快手可灵AI数字人技术重大升级：突破60秒长视频生成，实现精准表情动作控制

魅族发布Flyme Auto 2车载系统：AI读心术+生态整合重塑智能出行体验

万兴科技全球首发万兴超媒Agent，一句话生成视频效率提升60倍

相关文章

马斯克xAI再推AI男友Valentine，加速布局情感陪伴赛道

京东AI购App内测启动：言犀大模型驱动，打造会思考的购物助手

ChatGPT语音交互重大升级！语音模式全面整合至主界面，多模态体验再进化

ChatGPT推出格式化块功能：AI对话变身集成化办公工具

最新资讯

热门AI工具

热门资讯