昆仑万维发布SkyReels-A3模型:音频驱动视频生成技术实现突破

AI产品动态7小时前发布 AI视野

8月11日,昆仑万维科技股份有限公司正式启动为期五天的SkyWork AI技术发布周,首日推出音频驱动视频生成模型SkyReels-A3。该模型基于DiT(Diffusion Transformer)视频扩散技术,结合插帧延展、强化学习动作优化及可控运镜模块,可实现全模态音频驱动的数字人创作,单分镜视频生成时长突破60秒,多分镜支持无限时长输出。

技术架构上,SkyReels-A3通过ControlNet结构实现帧级精准运镜控制,预设8种运镜参数(含推拉、摇移等),支持0-100%强度调节。针对直播带货等场景,模型通过特定数据集优化了商品交互动作的自然度与口型同步精度。测试数据显示,其在A-Bench基准测评中,唇同步指标(Sync-C/D)、画面质量(IQA)及人脸相似度(ID similarity)均达到行业领先水平。

实际应用中,用户仅需上传静态人像图片和音频,即可生成数字人演讲、歌唱或带货视频。模型还支持通过文本Prompt控制表演状态,或对现有视频进行台词替换并自动匹配新口型。昆仑万维表示,该技术已应用于广告制作、虚拟直播及教育内容创作领域,显著降低专业级视频制作门槛。

此次技术发布周后续将陆续推出世界模型、智能体模型等产品。市场分析指出,SkyReels-A3在长视频一致性上的突破,为影视级数字人应用提供了商业化落地的技术基础。

© 版权声明

相关文章