阿里云开源全球首个原生端到端全模态AI模型Qwen3-Omni,突破多模态技术瓶颈

阿里云于9月23日深夜正式发布并开源全球首个原生端到端全模态AI模型Qwen3-Omni,标志着多模态技术迈入全新阶段。该模型突破传统多模态模型需在不同能力间权衡的局限,首次实现文本、图像、音频、视频的同步处理与实时流式输出,支持文本及自然语音交互。

Qwen3-Omni采用创新的MoE架构与“思考者-表达者”双体设计,其中30B参数的Thinker模块负责多模态理解与推理,3B参数的Talker模块专攻低延迟语音生成。通过多码本技术,其语音首包延迟可压至理论234毫秒,在36项音视频基准测试中,22项达到全球最新水平(SOTA),32项位列开源模型榜首,语音识别能力对标Gemini 2.5 Pro。模型覆盖119种文本语言、19种语音输入及10种语音输出(含粤语等方言),同步开源的专用音频描述模型Qwen3-Omni-30B-A3B-Captioner填补了开源社区在细节描述与低幻觉率音频生成的技术空白。

此次同期发布的还有语音生成模型Qwen3-TTS(支持17种多语言表达)及图像编辑工具Qwen-Image-Edit-2509。斑马智行已宣布将Qwen3-Omni应用于智能座舱解决方案Auto Omni,基于高通骁龙8397芯片平台实现端侧部署,计划于9月26日云栖大会展示实车体验。业界认为,该模型的推出将加速全模态技术在自动驾驶、内容生成等场景的落地进程。

© 版权声明

相关文章