昆仑万维发布SkyReels-A3模型：音频驱动视频生成技术实现突破

AI产品动态10个月前发布 AI视野

8月11日，昆仑万维科技股份有限公司正式启动为期五天的SkyWork AI技术发布周，首日推出音频驱动视频生成模型SkyReels-A3。该模型基于DiT（Diffusion Transformer）视频扩散技术，结合插帧延展、强化学习动作优化及可控运镜模块，可实现全模态音频驱动的数字人创作，单分镜视频生成时长突破60秒，多分镜支持无限时长输出。

技术架构上，SkyReels-A3通过ControlNet结构实现帧级精准运镜控制，预设8种运镜参数（含推拉、摇移等），支持0-100%强度调节。针对直播带货等场景，模型通过特定数据集优化了商品交互动作的自然度与口型同步精度。测试数据显示，其在A-Bench基准测评中，唇同步指标（Sync-C/D）、画面质量（IQA）及人脸相似度（ID similarity）均达到行业领先水平。

实际应用中，用户仅需上传静态人像图片和音频，即可生成数字人演讲、歌唱或带货视频。模型还支持通过文本Prompt控制表演状态，或对现有视频进行台词替换并自动匹配新口型。昆仑万维表示，该技术已应用于广告制作、虚拟直播及教育内容创作领域，显著降低专业级视频制作门槛。

此次技术发布周后续将陆续推出世界模型、智能体模型等产品。市场分析指出，SkyReels-A3在长视频一致性上的突破，为影视级数字人应用提供了商业化落地的技术基础。

文章版权归作者所有，未经允许请勿转载。

昆仑万维发布SkyReels-A3模型：音频驱动视频生成技术实现突破

国产大模型GLM-4.5系列发布：推理、编码与智能体能力原生融合

阿里巴巴达摩院开源三款具身智能核心组件，推动行业标准化与商业化落地

相关文章

谷歌开源T5Gemma 2模型系列：多模态与长上下文处理的编码器-解码器新突破

腾讯元宝AI写作模式上线，一键生成万字小说，覆盖全平台免费使用

腾讯发布AI程序员Ada：全天候智能编程工具重构软件开发范式

智象未来发布全能AI创作助手vivago2.0，开启AI创作新纪元

最新资讯

热门AI工具

热门资讯