Meta公司于2025年11月11日正式发布Omnilingual ASR系统,这一突破性语音识别技术可自动转录1600余种人类语言,其中包括500种此前从未被任何AI系统支持的语种。该系统通过开源方式向全球开发者开放,并引入创新性的少样本学习机制,显著提升了语音技术的包容性与可及性。
技术性能方面,Omnilingual ASR在78%的测试语言中实现字符错误率(CER)低于10%的实用标准。对于拥有10小时以上训练数据的语种,该比例提升至95%;即便对音频资源不足10小时的低资源语言,仍有36%达到同等精度。这一表现远超行业现有水平——作为对比,OpenAI的Whisper模型仅支持99种语言。
系统核心采用自监督预训练的wav2vec 2.0语音编码器架构,结合CTC与Transformer双解码策略。其最具革新性的”自带语言”功能借鉴了大语言模型的上下文学习技术,用户仅需提供5-10段目标语言的音频-文本配对样本,即可在推理阶段实现新语言的即时适配,理论上可将支持范围扩展至5400余种有文字记录的语言。
为促进技术普惠,Meta同步开源了包含350种低资源语言的Omnilingual ASR语料库,采用CC-BY许可协议。模型代码基于Apache 2.0许可证发布,提供从3亿到70亿参数的多规模版本适配不同应用场景。开发过程中,Meta与Mozilla Common Voice等组织合作,通过社区共创模式收集了大量稀缺语言样本。
该系统的推出直接回应了全球语言资源失衡问题。据统计,现存7000余种活跃语言中仅不到10%曾获得AI技术支持。Omnilingual ASR不仅为非洲部落、亚马逊原住民等边缘语言群体提供数字接入可能,其开源策略更赋予各地开发者定制本土化解决方案的能力,对濒危语言保护、跨文化教育等领域具有深远意义。
© 版权声明
文章版权归作者所有,未经允许请勿转载。