字节跳动开源4D视频生成框架EX-4D:单目视频转高质量多视角4D序列

字节跳动近日正式开源其创新性4D视频生成框架EX-4D,该技术实现了从单目视频到高质量多视角4D视频序列的突破性转换。这一由Pico团队研发的框架通过深度防水网格(DW-Mesh)表示方法,显式建模可见与被遮挡区域,即使在±90°极端视角下仍能保持几何结构的一致性与物理合理性。

技术核心方面,EX-4D采用两项关键设计:其一是通过预训练深度预测构建全密闭网格结构,自动标记遮挡面片以生成连续遮挡mask;其二是独创渲染mask与跟踪mask双策略,仅依赖单目视频即可模拟多视角训练数据,有效解决行业长期面临的数据稀缺难题。测试数据显示,在包含150个网络视频的数据集上,EX-4D的FID、FVD和VBench指标全面超越现有开源方案,极端视角下的细节还原度提升尤为显著。用户调研中,70.7%的参与者认为其物理一致性表现优于同类技术。

值得注意的是,该框架集成轻量级LoRA视频扩散适配器,在保持计算效率的同时确保时间连贯性,可避免视角切换时的视觉伪影。目前所有代码及技术文档已发布于GitHub,为虚拟现实、沉浸式影视等领域提供新的技术路径。行业专家指出,这项技术不仅降低4D内容制作成本,更为构建动态世界模型提供了重要工具基础。

© 版权声明

相关文章