智谱AI发布GLM-ASR系列语音识别模型与AI输入法,支持多语种与隐私保护

智谱AI于2025年12月10日正式发布GLM-ASR系列语音识别模型,并同步推出桌面端“智谱AI输入法”。此次开源的GLM-ASR-2512云端模型在多语种、多口音及复杂环境测试中展现出行业领先性能,字符错误率(CER)低至0.0717,支持实时语音转文本。同时发布的GLM-ASR-Nano-2512端侧模型仅含15亿参数,在开源语音识别领域达到SOTA水平,兼顾本地部署的隐私保护与低延迟优势。

新推出的智谱AI输入法深度融合大模型能力,除基础语音转写外,还支持翻译、文本改写及个性化风格切换。其创新功能“Vibe Coding”允许开发者通过语音指令直接完成编程任务,实现“语音即指令”的交互模式。输入法针对办公场景优化,可识别轻声语音并过滤环境噪声,目前已开放Windows和macOS版本下载。

技术文档与模型资源已通过Hugging Face、ModelScope等平台开源,开发者可访问智谱官方API文档获取接口详情。此次发布标志着语音识别技术从云端向端侧应用的延伸,为高效办公与隐私敏感场景提供了新的解决方案。

© 版权声明

相关文章