美团开源LongCat-Image图像生成模型:6B参数实现SOTA性能,中文渲染与编辑能力领先

美团LongCat团队于2025年12月8日正式开源其最新研发的LongCat-Image图像生成模型,该模型以6B参数规模在文生图与图像编辑任务上达到开源领域的SOTA水平。作为轻量化大模型,LongCat-Image通过创新架构设计和高效率训练策略,在保持紧凑参数规模的同时,性能逼近百亿级头部闭源模型。

技术架构上,模型采用文生图与图像编辑同源的混合骨干架构(MM-DiT+Single-DiT),整合视觉语言模型条件编码器,实现生成与编辑任务的无缝切换。训练过程中,团队构建全流程质控体系:预训练阶段引入千万量级合成文字数据,SFT阶段采用人工精筛数据对齐审美标准,RL阶段创新使用AIGC检测器作为奖励模型,显著提升物理纹理与光影质感表现。

在核心能力方面,LongCat-Image展现出三大突破:一是图像生成响应速度提升40%,达到摄影棚级质感;二是中文渲染精准度超越同类开源模型;三是图像编辑功能支持15类任务,包括物体增删、风格迁移等,在GEdit-Bench等基准测试中刷新开源记录。实测显示,其连续改图能力和材质细节表现突出,但在复杂中文排版场景仍存在优化空间。

同步升级的LongCat APP新增图生图功能和24个零门槛模板,支持用户一键生成电商海报、精修人像等。开发者可通过GitHub和Hugging Face获取开源代码,模型遵循MIT协议允许商业应用。美团此次开源不仅为中文AIGC生态提供重要基础设施,也为其本地生活业务的智能化升级储备技术能力。

© 版权声明

相关文章