Sand.ai发布GAGA-1音画同步视频模型：影视级AI生成技术实现突破

人工智能领域近日迎来重要突破，由Sand.ai公司研发的音画同步视频模型GAGA-1于10月10日凌晨正式上线。该模型由知名学者曹越团队主导开发，主打影视级人物表演生成能力，目前通过官网gaga.art向所有用户开放免费体验。

技术研发方面，GAGA-1的开发周期达六个月，远超团队最初设定的两个月目标。其核心技术突破在于实现了台词驱动下的动态画面与语音的精准同步，测试显示该模型在短视频、互动影游场景中表现优异，部分功能可满足电视剧制作需求。模型采用固定16:9画幅，支持5秒和10秒两种视频时长生成，用户通过”图片+文字描述”的组合方式输入，平均3-4分钟即可完成渲染。

功能表现上，GAGA-1展现出多项创新特性：能够精准捕捉失望、愤怒等复杂情绪，实现双人互动场景的同步演绎；可识别外籍人物特征并生成带口音的普通话对话；支持基础歌唱功能及特定文化背景的形象生成。语言处理方面，中英文台词生成效果突出，但日语支持存在异常情况。

实际应用测试表明，该模型在声音与画面同步生成方面表现优异，即使是侧面唇形也能做到精准匹配。用户可通过AI生成或上传图片作为首帧，系统会自动完成后续的语音、表情和动作生成。有测试者反馈，模型能良好理解提示词中不同人物的语音特征，支持多语言混合输出。

不过技术团队也坦承存在若干技术局限：复杂动作易导致肢体变形，长文本提示可能出现信息丢失，暂不支持自定义音频导入和固定音色功能。内置的Banana绘图模块在亚洲人像渲染方面表现欠佳，建议配合Seedream 4.0使用。目前视频分辨率最高支持720p，在电影级细腻表现上仍有提升空间。

该模型的推出被视为AI视频领域的重要进展，其”音画同出”的技术路线改变了传统先画后音的割裂流程，为低成本影视创作提供了新选择。Sand.ai表示将持续优化模型性能，未来可能扩展更多实用功能。

文章版权归作者所有，未经允许请勿转载。

Sand.ai发布GAGA-1音画同步视频模型：影视级AI生成技术实现突破

Anthropic推出Claude Code插件系统：AI编程工具进入生态化时代

Lovart正式接入Sora 2：AI视频生成成本降至传统制作1/250，24小时内完成商业内容

相关文章

谷歌Gemini 3.0即将发布：多模态突破与代码生成能力直指GPT-5

腾讯搜狗输入法联手混元大模型推出AI表情生成功能，社交沟通再升级

生数科技Vidu Q1视频大模型：多元素同框与零分镜生成技术颠覆视频制作

华为开源盘古7B稠密模型与盘古Pro MoE 72B混合专家模型，加速AI技术创新与产业落地

最新资讯

热门AI工具

热门资讯