美团开源LongCat-Video视频生成模型：统一架构实现文生视频、图生视频与视频续写

AI产品动态2个月前发布 AI视野

10月27日，美团LongCat团队正式发布并开源LongCat-Video视频生成模型，该模型以统一架构实现文生视频、图生视频及视频续写三大核心任务，在开源领域达到SOTA（最先进水平）性能。其创新性技术方案与分钟级长视频生成能力，标志着美团在AI视频生成技术上的重要突破。

技术架构与核心能力
LongCat-Video基于Diffusion Transformer（DiT）架构，通过“条件帧数量”机制区分任务类型：文生视频无需条件帧输入，图生视频支持单帧参考图，视频续写则依托多帧前序内容。这一设计原生支持多任务闭环，无需额外模型适配。在文生视频任务中，模型可生成720p、30fps高清视频，对文本指令中的物体、场景、风格等细节解析精准；图生视频任务严格保留参考图像的主体属性与物理合理性；视频续写能力则通过预训练实现跨帧时序一致性，支持5分钟级连贯长视频生成，突破传统模型时长与质量难以兼顾的瓶颈。

性能优化与开源价值
为提升效率，模型采用块稀疏注意力（BSA）与条件token缓存机制，显著降低长序列推理冗余。经测试，其视频推理速度提升至10.1倍，136亿参数的基座模型在VBench等公开基准中综合表现优异。开源策略旨在吸引开发者共同优化技术生态，推动视频生成技术的应用创新。

战略意义与未来规划
美团将LongCat-Video视为探索“世界模型”的关键一步，未来计划将其融入自动驾驶、具身智能等业务场景，强化数字世界与物理世界的交互能力。团队表示，模型对物理规律和时空演化的建模能力，将为公司技术布局提供重要支撑。

此次发布正值全球AI视频生成技术竞争加剧之际，美团通过开源与性能突破，进一步确立了在生成式AI领域的技术影响力。

文章版权归作者所有，未经允许请勿转载。

美团开源LongCat-Video视频生成模型：统一架构实现文生视频、图生视频与视频续写

国产AI新突破！MiniMax开源大模型M2登顶全球前五，成本仅为GPT-5的14%

昆仑万维Skywork AI推出网页复刻功能，数分钟快速生成网页原型

相关文章

理想汽车自研智能驾驶芯片M100突破性进展，2026年量产装车在即

DeepSeek-V3.1重磅发布：国产AI芯片适配突破，算力效率提升300%

阿里千问App月活增速149%登顶全球，中国AI应用创下载量破千万纪录

AI医疗新突破：Delphi-2M可预测千种疾病20年风险，登《自然》期刊

最新资讯

热门AI工具

热门资讯