美团开源5600亿参数多模态大模型LongCat-Flash-Omni,实现全模态实时交互突破

AI产品动态9小时前发布 AI视野

11月3日,美团宣布其LongCat-Flash系列模型完成重要升级,正式推出并开源全新成员LongCat-Flash-Omni。该模型在保持系列原有高效架构设计(采用Shortcut-Connected MoE结构,含零计算专家)的基础上,创新性整合了多模态感知与语音重建模块,实现了全模态实时交互能力的突破。尽管模型总参数规模达5600亿(激活参数270亿),仍能稳定维持低延迟的音视频交互性能,为开发者提供更高效的多模态应用解决方案。

此次发布的LongCat-Flash-Omni是美团继9月开源LongCat-Flash-Chat和LongCat-Flash-Thinking后的又一技术迭代。据官方介绍,该模型在一体化框架中同时支持离线多模态理解与实时交互功能,其语音通话能力已通过配套发布的LongCat官方App实现落地。技术指标显示,模型在物理规律遵循、运动连贯性等关键性能上达到行业领先水平,尤其在处理高动态范围音视频内容时表现出显著优势。

美团技术团队表示,此次开源旨在降低多模态AI应用的开发门槛,目前相关代码及技术文档已通过GitHub平台向开发者开放。市场观察人士指出,该技术的商业化应用可能率先在电商直播、远程协作等领域展开,其开源策略或将加速行业生态的协同创新。

© 版权声明

相关文章