阿里云开源全球首个原生端到端全模态AI模型Qwen3-Omni，突破多模态技术瓶颈

AI产品动态2个月前发布 AI视野

阿里云于9月23日深夜正式发布并开源全球首个原生端到端全模态AI模型Qwen3-Omni，标志着多模态技术迈入全新阶段。该模型突破传统多模态模型需在不同能力间权衡的局限，首次实现文本、图像、音频、视频的同步处理与实时流式输出，支持文本及自然语音交互。

Qwen3-Omni采用创新的MoE架构与“思考者-表达者”双体设计，其中30B参数的Thinker模块负责多模态理解与推理，3B参数的Talker模块专攻低延迟语音生成。通过多码本技术，其语音首包延迟可压至理论234毫秒，在36项音视频基准测试中，22项达到全球最新水平（SOTA），32项位列开源模型榜首，语音识别能力对标Gemini 2.5 Pro。模型覆盖119种文本语言、19种语音输入及10种语音输出（含粤语等方言），同步开源的专用音频描述模型Qwen3-Omni-30B-A3B-Captioner填补了开源社区在细节描述与低幻觉率音频生成的技术空白。

此次同期发布的还有语音生成模型Qwen3-TTS（支持17种多语言表达）及图像编辑工具Qwen-Image-Edit-2509。斑马智行已宣布将Qwen3-Omni应用于智能座舱解决方案Auto Omni，基于高通骁龙8397芯片平台实现端侧部署，计划于9月26日云栖大会展示实车体验。业界认为，该模型的推出将加速全模态技术在自动驾驶、内容生成等场景的落地进程。

文章版权归作者所有，未经允许请勿转载。

阿里云开源全球首个原生端到端全模态AI模型Qwen3-Omni，突破多模态技术瓶颈

IBM发布轻量级文档AI模型Granite-Docling-258M，开源助力企业文档智能化转型

鸿蒙生态迈入AI新阶段：HarmonyOS 5设备破1700万，天工计划投10亿支持AI创新

相关文章

腾讯混元3D Studio 1.1发布：AI生成3D资产进入专业生产级新阶段

腾讯元宝AI编程模式上线：双栏实时交互，多语言零配置运行

OpenAI紧急修复ChatGPT高危隐私漏洞，深度研究功能曾致用户Gmail数据泄露

Netflix全面投入AI开发：赋能创作者而非替代，特效制作与后期流程成应用重点

最新资讯

热门AI工具

热门资讯