腾讯混元开源视频音效生成模型HunyuanVideo-Foley，AI驱动影视音效制作变革

AI产品动态9个月前发布 AI视野

近日，腾讯混元大模型团队宣布开源视频音效生成模型HunyuanVideo-Foley，该技术能够根据输入的视频内容和文字描述，自动生成高质量的电影级音效。这一开源项目已在GitHub平台发布，引发AI音视频生成领域广泛关注。

据腾讯官方技术博客披露，HunyuanVideo-Foley基于扩散模型架构，通过多模态对齐技术实现视频画面与音效的精准匹配。开发者只需输入任意视频片段及文字提示词，系统即可生成包括环境音、动作音效在内的多种专业级音频。测试数据显示，在枪战、风雨等复杂场景中，生成音效的同步准确率达到85%以上。

行业分析指出，该技术将显著降低影视后期制作成本。传统音效制作需要专业录音和人工剪辑，而AI方案可将制作周期缩短90%。目前已有包括映宇宙、秒影工场在内的十余家影视科技公司接入测试。

值得注意的是，这是腾讯混元系列模型在多模态领域的又一重要突破。今年4月，该团队曾推出文本生成视频模型Hunyuan-Video-Generator。此次开源的音效模型支持与视频生成模型串联使用，形成完整的AI影视生产管线。

开源社区反馈显示，模型在GitHub发布24小时内即获得超过500次星标。开发者普遍关注其在游戏开发、短视频制作等场景的应用潜力。腾讯方面表示，后续将推出适配消费级显卡的轻量化版本，并计划在7月底更新音乐生成功能。

AI产品动态 # AI音效生成 # 多模态AI # 开源模型 # 影视科技 # 腾讯混元 # 视频生成技术

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

腾讯推出智能问答框架WeKnora，助力企业级文档问答场景

腾讯推出智能问答框架WeKnora，助力企业级文档问答场景

AI产品动态 # WeKnora # 企业级应用 # 大语言模型

10个月前

Neuralink脑机接口技术重大突破：手术效率提升10倍，植入针成本骤降95%

Neuralink脑机接口技术重大突破：手术效率提升10倍，植入针成本骤降95%

AI产品动态 # Neuralink # 人工智能 # 医疗科技

6个月前

Anthropic为Claude推出记忆功能：被动触发模式提升项目连续性

Anthropic为Claude推出记忆功能：被动触发模式提升项目连续性

AI产品动态 # AI # Anthropic # Claude

10个月前

Meta发布SAM 3模型：实现自然语言驱动的精准图像分割，性能提升一倍

Meta发布SAM 3模型：实现自然语言驱动的精准图像分割，性能提升一倍

AI产品动态 # AI模型 # Meta # SAM3

6个月前