巨人网络联合清华西工大发布三项AI音视频生成技术,GitHub全面开源

巨人网络AI Lab近日联合清华大学SATLab与西北工业大学,正式发布三项音视频多模态生成技术成果,涵盖音乐驱动视频生成、零样本歌声转换及歌声合成领域。相关技术代码将于GitHub和HuggingFace平台开源,推动AI创作工具的普及化发展。

音乐视频生成技术实现突破
核心模型YingVideo-MV通过输入单张人物图像与音乐片段,即可生成镜头语言丰富的音乐视频。该模型采用多模态分析技术,使镜头运动(推、拉、摇、移)与音乐节奏、情绪实现毫秒级同步,并通过长时序一致性机制有效缓解长视频中的人物畸变与跳帧问题。测试显示,该技术可将传统MV制作周期缩短90%以上。

音频生成技术提升实用价值
在音频领域,YingMusic-SVC模型针对真实音乐场景优化,通过抑制伴奏、和声及混响干扰,显著降低歌声转换中的破音与高音失真风险。其零样本学习能力支持未经训练的声音克隆,已成功应用于经典歌曲翻唱与多语言音乐再创作。配套发布的YingMusic-Singer模型则支持任意歌词与旋律输入,生成发音清晰且支持音色克隆的合成歌声,实测中文歌词的韵律准确率达92.3%。

开源战略加速技术落地
技术团队强调,此次开源将包含预训练模型权重、推理代码及部分训练数据集。开发者可基于这些资源快速构建个性化应用,如短视频智能配乐、虚拟歌手定制等场景。行业专家指出,这类多模态技术的协同开源,有望降低音视频创作门槛至消费级水平。

值得注意的是,本次发布正值多模态生成技术爆发期,此前字节跳动、清华大学等机构已相继开源视频生成框架。巨人网络此次技术方案的差异化在于更强调音乐与视觉的实时交互能力,其镜头控制算法已申请12项相关专利。

© 版权声明

相关文章