蚂蚁集团与Inclusion AI开源多模态模型Ming-Omni，支持图像、音视频全模态处理

2025年6月16日，蚂蚁集团与Inclusion AI共同发布开源多模态大模型Ming-Omni，该模型可统一处理图像、文本、音频及视频输入，并具备跨模态生成能力，成为全球首个在功能上与GPT-4o对标且完全开源的多模态模型。

技术架构创新：统一框架实现高效多模态融合
Ming-Omni采用专用编码器提取不同模态的标记（tokens），通过混合专家架构（MoE）“Ling”模块进行处理，其核心创新在于引入模态专用路由器。这一设计使模型无需针对任务调整结构或额外训练子模型，即可在单一框架内完成多模态数据的融合与推理。例如，模型可同时解析语音指令和图像输入，生成符合上下文的文本回复或编辑后的图像。

突破传统限制：支持音视频生成与方言交互
区别于传统多模态模型，Ming-Omni新增音频与图像生成功能。通过集成高性能音频解码器，模型可输出自然语音，并支持方言理解与语音克隆；图像生成模块“Ming-Lite-Uni”则能实现高质量图像编辑及文本到图像的转换。测试显示，用户输入方言文本后，模型可生成对应方言的语音回复，显著提升人机交互的自然度。

开源策略推动行业应用
蚂蚁集团与Inclusion AI宣布全面公开Ming-Omni的代码及模型权重，旨在降低多模态技术研发门槛。业界认为，该模型的开源将加速智能客服、无障碍交互、内容创作等场景的落地。例如，开发者可基于其音频生成能力快速搭建语音助手，或利用图像编辑功能优化设计流程。

行业影响与潜在挑战
Ming-Omni的发布被视为对闭源多模态模型生态的重要补充。不过，专家提示需关注语音克隆等技术可能引发的合规风险，建议企业在应用中加强数据隐私保护。目前，模型已吸引多家科技公司参与测试，预计将在未来三个月内涌现首批商业化案例。

文章版权归作者所有，未经允许请勿转载。

蚂蚁集团与Inclusion AI开源多模态模型Ming-Omni，支持图像、音视频全模态处理

MiniMax发布M1推理模型：突破百万Token上下文极限，成本效率双提升

Anthropic发布多智能体研究系统，效率提升90.2%并实现多场景应用

相关文章

谷歌Chrome浏览器推出AI模式按钮，Gemini深度搜索新增多语言支持

国产GPU新突破！龙芯中科首款GPGPU芯片9A1000流片成功，集成AI与图形双重能力

Neuralink脑机芯片植入突破：12名患者累计使用1.5万小时，瘫痪患者实现意念操控

百度发布自研视频生成模型MuseSteamer及平台“绘想”，AIGC领域再添重磅创新

最新资讯

热门AI工具

热门资讯