阿里巴巴发布Qwen3-ASR-Flash语音识别模型:抗噪性能提升40%,支持11种语言

阿里巴巴集团于2025年9月8日正式发布新一代语音识别模型Qwen3-ASR-Flash,该模型基于通义千问(Qwen)大模型体系开发,在抗噪性能、多语言支持及实时响应等方面实现技术突破。作为当前全球领先的自动语音识别(ASR)系统,其核心能力已通过ModelScope、HuggingFace及阿里云百炼平台向公众开放体验。

技术突破与性能表现
Qwen3-ASR-Flash采用多模态动态降噪架构,通过融合音频时频特征与环境声纹指纹,构建自适应噪声抑制引擎。实验室数据显示,在信噪比低至0dB的地铁环境或-2dB的餐厅场景中,其字错率(WER)较主流模型降低40%以上,极端条件下识别准确率仍保持92%以上。模型支持中文、英语、法语等11种语言及多种方言变体,具备自动语种检测功能,7秒内可完成跨语言切换识别。值得注意的是,其对英文说唱等高速连读内容的识别错误率控制在8%以下,显著优于谷歌Gemini-2.5-Pro(12%)与OpenAI GPT-4o-Transcribe(13%)。

场景化应用落地
实际测试中,模型展现出极强的环境适应性:
1. 复杂声学场景:在混有鞭炮声、电钻噪声的方言对话中,可精准过滤背景干扰并保留”噻”“咯”等方言语气词;
2. 专业领域识别:通过用户预置术语库(如医学术语”C6H12O6”自动转写为”葡萄糖”),专业名词识别准确率提升30%;
3. 多媒体生产:电竞解说中”TP绕后”等黑话、美剧原声带背景BGM的台词,时间轴对齐误差小于0.3秒;
4. 多说话人分离:会议录音可自动区分发言者并标记语句归属。

工程化创新
该模型通过参数压缩技术将体积缩减至原版本的1/5,在800MHz CPU移动设备上实现200ms内响应,功耗低于0.5W。目前提供按量付费服务,单价约0.00192美元/分钟(折合人民币0.01元/分钟),较传统人工听译成本下降99%以上。

阿里达摩院透露,Qwen3-ASR-Flash的训练数据覆盖千万小时级真实场景语音,包含办公、工业等12大类声学环境。其开放策略预计将加速语音技术在直播字幕、智能客服等领域的普及,同时推动方言保护、无障碍服务等社会应用。

© 版权声明

相关文章