MiniMax海螺视频团队于2025年12月22日正式开源其视觉分词器预训练框架VTP(Visual Tokenizer Pre-training),这一突破性成果首次揭示了视觉分词器在生成系统中的Scaling Law(缩放定律),解决了长期困扰行业的“训练悖论”问题。该框架已在GitHub及ModelScope等平台发布,引发AI视觉生成领域广泛关注。
传统两阶段生成框架中,视觉分词器(如VAE)负责将原始图像压缩至潜在空间,再由扩散模型(如DiT)进行生成还原。然而,业界长期面临一个矛盾现象:分词器的重建能力(如rFID指标)随训练提升,但生成质量(如gFID指标)反而下降。海螺团队通过实验证明,问题根源在于传统分词器过度优化像素级重建,忽视了高层语义理解。其数据显示,传统方法在消耗10%总算力后即陷入性能停滞,继续投入甚至导致生成效果劣化。
VTP的创新性体现在三方面:
1. 架构革新:采用ViT(Vision Transformer)替代CNN,通过两阶段训练策略规避生成不稳定性——预训练阶段联合优化L1 Loss与感知损失,微调阶段冻结分词器主体并引入GAN Loss提升画质;
2. 目标重构:将训练重点从“精确还原”转向“语义理解”,使压缩后的潜在表征更利于下游生成模型学习;
3. 可扩展性验证:实验证实分词器的参数规模、数据量与生成性能呈明确正相关,打破“算力投入无效”的行业认知。实际测试中,仅替换VTP即可使下游模型生成性能提升2-3倍,且无需调整主模型配置。
该成果对行业具有双重意义:技术层面,为视觉生成系统提供新的性能优化路径;商业层面,其开源属性显著降低高质量视频生成的技术门槛。目前,海螺AI已基于VTP迭代至Hailuo2.3版本,在动态表现力与风格化处理上持续领先。团队表示,VTP的Scaling Law发现仅是开端,未来将进一步探索多模态生成框架的协同缩放规律。
© 版权声明
文章版权归作者所有,未经允许请勿转载。