字节跳动发布Vidi2多模态大模型：120亿参数突破时空定位，重塑视频创作生态

AI产品动态2个月前发布 AI视野

字节跳动于2025年12月1日正式发布Vidi2多模态大模型，该模型凭借120亿参数规模与突破性时空定位技术，显著提升了长视频理解与自动化编辑能力。作为专为视频理解设计的AI系统，Vidi2可处理长达数小时的原始素材，通过解析情节脉络实现叙事逻辑的自动重构，目前已深度集成至TikTok创作生态。

技术架构方面，Vidi2采用Gemma-3作为主干网络，结合创新的自适应标记压缩技术，在保证处理效率的同时维持视觉细节完整性。其核心突破在于精细时空定位（STG）功能，能以每秒为单位输出时间索引与物体边界框的组合数据，实现复杂场景中特定对象的持续追踪。在VUE-TR-V2开放式时间检索基准测试中，模型总体IoU达48.75，超长视频任务性能领先主流商业方案17.5个百分点；时空定位任务vIoU与tIoU分别达到32.57和53.19，均创行业新高。

实际应用层面，字节跳动基于Vidi2开发了系列工具：Smart Split功能可自动分割长视频并智能重构画面构图，AI Outline工具通过简短提示生成包含标题、分镜大纲的完整创作方案。这些能力已落地TikTok平台，支持从原始素材到平台适配内容的自动化转换。

行业分析指出，Vidi2标志着视频创作范式向”去技能化”演进，其将非结构化视频数据转化为机器可读代码的能力，为内容智能检索与自动化再生产奠定基础。目前该模型仍处于研究阶段，但公开Demo版本即将发布，其技术突破或将对专业视频编辑行业产生结构性影响。

文章版权归作者所有，未经允许请勿转载。

字节跳动发布Vidi2多模态大模型：120亿参数突破时空定位，重塑视频创作生态

阶跃星辰开源GELab-Zero项目：4B参数GUI Agent模型突破移动端智能体技术

字节跳动与中兴通讯联合研发AI原生手机12月发布，首批备货3万台

相关文章

Anthropic双Agent架构突破：实现90%性能提升与无限对话能力

DeepSeek突发服务中断1小时44分钟，年内第四次宕机引关注

腾讯混元开源3D世界模型1.0-Lite版：显存需求降低35%，适配消费级显卡

OpenAI视频生成应用Sora登陆安卓平台，北美开启预注册，AI社交新范式引关注

最新资讯

热门AI工具

热门资讯