近日,腾讯混元大模型团队宣布开源视频音效生成模型HunyuanVideo-Foley,该技术能够根据输入的视频内容和文字描述,自动生成高质量的电影级音效。这一开源项目已在GitHub平台发布,引发AI音视频生成领域广泛关注。
据腾讯官方技术博客披露,HunyuanVideo-Foley基于扩散模型架构,通过多模态对齐技术实现视频画面与音效的精准匹配。开发者只需输入任意视频片段及文字提示词,系统即可生成包括环境音、动作音效在内的多种专业级音频。测试数据显示,在枪战、风雨等复杂场景中,生成音效的同步准确率达到85%以上。
行业分析指出,该技术将显著降低影视后期制作成本。传统音效制作需要专业录音和人工剪辑,而AI方案可将制作周期缩短90%。目前已有包括映宇宙、秒影工场在内的十余家影视科技公司接入测试。
值得注意的是,这是腾讯混元系列模型在多模态领域的又一重要突破。今年4月,该团队曾推出文本生成视频模型Hunyuan-Video-Generator。此次开源的音效模型支持与视频生成模型串联使用,形成完整的AI影视生产管线。
开源社区反馈显示,模型在GitHub发布24小时内即获得超过500次星标。开发者普遍关注其在游戏开发、短视频制作等场景的应用潜力。腾讯方面表示,后续将推出适配消费级显卡的轻量化版本,并计划在7月底更新音乐生成功能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。