10月27日,美团LongCat团队正式发布并开源LongCat-Video视频生成模型,该模型以统一架构实现文生视频、图生视频及视频续写三大核心任务,在开源领域达到SOTA(最先进水平)性能。其创新性技术方案与分钟级长视频生成能力,标志着美团在AI视频生成技术上的重要突破。
技术架构与核心能力
LongCat-Video基于Diffusion Transformer(DiT)架构,通过“条件帧数量”机制区分任务类型:文生视频无需条件帧输入,图生视频支持单帧参考图,视频续写则依托多帧前序内容。这一设计原生支持多任务闭环,无需额外模型适配。在文生视频任务中,模型可生成720p、30fps高清视频,对文本指令中的物体、场景、风格等细节解析精准;图生视频任务严格保留参考图像的主体属性与物理合理性;视频续写能力则通过预训练实现跨帧时序一致性,支持5分钟级连贯长视频生成,突破传统模型时长与质量难以兼顾的瓶颈。
性能优化与开源价值
为提升效率,模型采用块稀疏注意力(BSA)与条件token缓存机制,显著降低长序列推理冗余。经测试,其视频推理速度提升至10.1倍,136亿参数的基座模型在VBench等公开基准中综合表现优异。开源策略旨在吸引开发者共同优化技术生态,推动视频生成技术的应用创新。
战略意义与未来规划
美团将LongCat-Video视为探索“世界模型”的关键一步,未来计划将其融入自动驾驶、具身智能等业务场景,强化数字世界与物理世界的交互能力。团队表示,模型对物理规律和时空演化的建模能力,将为公司技术布局提供重要支撑。
此次发布正值全球AI视频生成技术竞争加剧之际,美团通过开源与性能突破,进一步确立了在生成式AI领域的技术影响力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。