生数科技Vidu Q1视频大模型：多元素同框与零分镜生成技术颠覆视频制作

生数科技近日推出的Vidu Q1视频大模型参考生功能引发行业广泛关注。该功能通过支持上传最多7张参考图，实现了多元素同框、角色一致性强化及零分镜视频生成，标志着AI视频技术进入商业化应用新阶段。

技术层面，参考生功能突破了传统AI视频生成对分镜脚本的重度依赖。用户仅需一次性上传人物、场景、道具等素材图，系统即可自动理解元素间互动关系，生成包含多镜头切换、多人互动的连贯视频。实测显示，该功能可将角色一致性提升至接近100%，同时支持复杂场景下七个主体的稳定同框。某测试案例中，六张风格迥异的人物参考图成功合成了具有电影质感的互动场景。

商业应用方面，该技术显著降低了专业视频制作门槛。据官方数据，5秒1080P视频生成成本不足0.9元，仅为传统版权素材价格的1/30；制作48分钟电视剧素材仅需约1000元。目前该功能已在电商广告、影视动漫等领域展开内测，某广告公司反馈制作周期缩短70%以上。

行业专家指出，Vidu Q1的创新不仅体现在技术参数上，更重构了视频生产范式。传统流程中占比超50%的分镜制作环节被彻底省略，取而代之的是”参考图-成片”的单步生成模式。这种AI原生工作流使单个创作者可快速完成多角色、多场景的复杂叙事，有望推动短视频、影视预制等领域的产能革新。

值得注意的是，该功能在保持高一致性的同时，仍存在生成时长受分辨率影响、复杂动态场景细节需优化等技术挑战。生数科技表示，将持续升级动画风格适配、AI音效同步等配套功能，预计三季度末推出4K分辨率支持方案。

文章版权归作者所有，未经允许请勿转载。

生数科技Vidu Q1视频大模型：多元素同框与零分镜生成技术颠覆视频制作

Hugging Face发布轻量级大语言模型SmolLM3，30亿参数实现性能突破

vivo发布端侧多模态模型BlueLM-2.5-3B，突破GUI理解与能效比极限

相关文章

影目科技发布INMO GO3 AI智能眼镜，开启“AI+AR”时尚生态新纪元

腾讯在2025WAIC展示AI全景图：混元3D世界模型与Tairos平台引领技术革新

Perplexity Patents革新专利检索：自然语言AI工具免费开放公测

硅基流动发布DeepSeek-V3.1大模型：混合推理架构与160K上下文窗口实现突破

最新资讯

热门AI工具

热门资讯