字节跳动于2025年12月1日正式发布Vidi2多模态大模型,该模型凭借120亿参数规模与突破性时空定位技术,显著提升了长视频理解与自动化编辑能力。作为专为视频理解设计的AI系统,Vidi2可处理长达数小时的原始素材,通过解析情节脉络实现叙事逻辑的自动重构,目前已深度集成至TikTok创作生态。
技术架构方面,Vidi2采用Gemma-3作为主干网络,结合创新的自适应标记压缩技术,在保证处理效率的同时维持视觉细节完整性。其核心突破在于精细时空定位(STG)功能,能以每秒为单位输出时间索引与物体边界框的组合数据,实现复杂场景中特定对象的持续追踪。在VUE-TR-V2开放式时间检索基准测试中,模型总体IoU达48.75,超长视频任务性能领先主流商业方案17.5个百分点;时空定位任务vIoU与tIoU分别达到32.57和53.19,均创行业新高。
实际应用层面,字节跳动基于Vidi2开发了系列工具:Smart Split功能可自动分割长视频并智能重构画面构图,AI Outline工具通过简短提示生成包含标题、分镜大纲的完整创作方案。这些能力已落地TikTok平台,支持从原始素材到平台适配内容的自动化转换。
行业分析指出,Vidi2标志着视频创作范式向”去技能化”演进,其将非结构化视频数据转化为机器可读代码的能力,为内容智能检索与自动化再生产奠定基础。目前该模型仍处于研究阶段,但公开Demo版本即将发布,其技术突破或将对专业视频编辑行业产生结构性影响。
© 版权声明
文章版权归作者所有,未经允许请勿转载。