快手可灵AI发布2.6音画同出模型:AI视频生成进入音画同步时代

快手旗下可灵AI于12月3日正式发布可灵2.6音画同出模型,标志着AI视频生成技术进入音画同步的新阶段。该模型通过单次生成即可同步输出画面、自然语音、匹配音效及环境氛围,实现”音”与”画”的深度融合。

技术架构上,2.6版本采用扩散变换器与3D时空联合注意力机制,带来三项显著提升:复杂指令理解能力提高15%,跨镜头角色一致性达到行业最高水平(SOTA),在盲测对比中较竞品Seedance 1.0取得285%的胜率。特别值得注意的是,模型支持中英双语对白生成、歌唱演绎及环境音效同步输出,有效解决了传统AI视频”哑巴电影”的痛点。

创作路径方面提供两种模式:”文生音画”支持从文本生成完整音视频,”图生音画”可使静态图像实现动态化并配以语音。应用场景覆盖四大类:单人独白(商品展示/Vlog/新闻播报)、旁白解说(赛事/纪录片)、多人对白(短剧/访谈)、音乐表演(演唱/乐器演奏)。

在商业化布局上,快手选择优先接入Artlist等专业创作平台,提供API接口瞄准影视制作、广告创意等B端市场。技术指标显示,1080P视频生成效率较前代提升30%,每5秒视频仅消耗25积分,显著降低创作门槛。

目前该模型已通过官方渠道开放体验,用户反馈显示其能大幅减少后期制作时间,尤其受到非专业创作者的青睐。业内观察认为,这一技术突破或将重塑短视频、直播等内容生产模式,推动AI工具从”玩具”向”生产力工具”的转型。

© 版权声明

相关文章