语音识别

OpenAI移动端布局加速：ChatGPT应用全面覆盖iOS与Android平台，语音识别与跨设备同步成亮点

OpenAI近期在移动端取得突破，ChatGPT应用全面覆盖iOS和Android平台，集成Whisper语音识别支持中文等多语种，登顶应用商店榜单。本文详细解读其功能亮点、市场表现及未来技术迭代，涵...

5个月前

通义大模型开源语音AI双升级：Fun-CosyVoice3实现3秒音色克隆，Fun-ASR嘈杂环境识别率达93%

通义大模型团队开源语音AI双模型Fun-CosyVoice3与Fun-ASR完成重大升级。Fun-CosyVoice3实现首包延迟降低50%、中英混说错误率下降56.4%，支持多语言方言与情感控制，其...

AI产品动态 # AI工具 # Fun-ASR # Fun-CosyVoice3

5个月前

阿里巴巴开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型，语音技术实现音色克隆与轻量化识别突破

阿里巴巴通义大模型团队开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型，实现3秒音色克隆、多语言情感控制及轻量化高精度识别，降低延迟50%，支持实时场景与创意产业应用，加速语音...

AI产品动态 # AI开源 # Fun-ASR-Nano # Fun-CosyVoice

5个月前

智谱AI发布GLM-ASR系列语音识别模型与AI输入法，支持多语种与隐私保护

2025年12月，智谱AI发布GLM-ASR系列语音识别模型及AI输入法。云端模型CER低至0.0717，支持多语种实时转写；端侧模型仅15亿参数，实现隐私保护与低延迟。输入法集成翻译、文本改写及语音...

AI产品动态 # AI输入法 # GLM-ASR # VibeCoding

6个月前

阿里云百炼平台语音识别模型SenseVoice-V1将于2026年3月终止服务

阿里云百炼平台宣布SenseVoice-V1语音识别模型将于2026年3月9日终止服务。本文提供完整的模型迁移方案，包括推荐替代模型Fun-ASR、QWen3-ASR-Flash的性能优势及迁移指南...

AI产品动态 # AI模型 # Fun-ASR # QWen3-ASR-Flash

7个月前

Meta发布Omnilingual ASR系统：支持1600种语言的突破性语音识别技术

Meta发布突破性Omnilingual ASR语音识别系统，支持1600余种语言转录，包含500种首次获AI支持语种。采用开源策略和少样本学习，字符错误率低于10%，为边缘语言群体提供数字接入解决方...

AI产品动态 # AI技术 # Meta # 人工智能

7个月前

阿里云开源全球首个原生端到端全模态AI模型Qwen3-Omni，突破多模态技术瓶颈

阿里云正式开源全球首个原生端到端全模态AI模型Qwen3-Omni，实现文本、图像、音频、视频同步处理，22项基准测试达SOTA水平，支持119种语言，将推动自动驾驶、智能座舱等场景技术落地。

AI产品动态 # AI技术 # Qwen3-Omni # 人工智能

8个月前

全球首个完全开源语音大模型LLaSO发布，支持87种语言精准识别

深度逻辑智能发布全球首个完全开源语音大模型LLaSO，支持87种语言高精度识别，噪声环境准确率提升23%，适用于智能家居、车载交互及医疗金融领域，推动语音AI技术协同创新与产业生态发展。

AI产品动态 # AI技术 # LLaSO框架 # 人工智能

8个月前

OpenAI Evals重大更新：原生音频评估功能上线，语音模型测试效率提升40%

OpenAI Evals推出原生音频评估功能，支持直接上传音频文件进行端到端测试，消除转录失真，提升40%评估可信度。适用于语音助手、语音识别及AI语音生成的质量监控，加速语音AI产品迭代。

AI产品动态 # AI测试工具 # OpenAI # 多模态AI

8个月前

阿里巴巴发布Qwen3-ASR-Flash语音识别模型：抗噪性能提升40%，支持11种语言

阿里巴巴2025年发布Qwen3-ASR-Flash语音识别模型，支持11种语言，极端噪声环境下识别准确率超92%，功耗低于0.5W，适用于直播、客服、会议等多场景，现已在ModelScope开放体验...

AI产品动态 # AI模型 # ASR技术 # Qwen3

9个月前

OpenAI移动端布局加速：ChatGPT应用全面覆盖iOS与Android平台，语音识别与跨设备同步成亮点

通义大模型开源语音AI双升级：Fun-CosyVoice3实现3秒音色克隆，Fun-ASR嘈杂环境识别率达93%

阿里巴巴开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型，语音技术实现音色克隆与轻量化识别突破

智谱AI发布GLM-ASR系列语音识别模型与AI输入法，支持多语种与隐私保护

阿里云百炼平台语音识别模型SenseVoice-V1将于2026年3月终止服务

Meta发布Omnilingual ASR系统：支持1600种语言的突破性语音识别技术

阿里云开源全球首个原生端到端全模态AI模型Qwen3-Omni，突破多模态技术瓶颈

全球首个完全开源语音大模型LLaSO发布，支持87种语言精准识别

OpenAI Evals重大更新：原生音频评估功能上线，语音模型测试效率提升40%

阿里巴巴发布Qwen3-ASR-Flash语音识别模型：抗噪性能提升40%，支持11种语言

热门AI工具

最新资讯