通义大模型开源语音AI双升级:Fun-CosyVoice3实现3秒音色克隆,Fun-ASR嘈杂环境识别率达93% 通义大模型团队开源语音AI双模型Fun-CosyVoice3与Fun-ASR完成重大升级。Fun-CosyVoice3实现首包延迟降低50%、中英混说错误率下降56.4%,支持多语言方言与情感控制,其... AI产品动态# AI工具# Fun-ASR# Fun-CosyVoice3 2个月前
Mistral AI开源多模态推理模型Magistral Small 1.2:240亿参数支持视觉与多语言处理 深度解析Mistral AI最新开源推理模型Magistral Small 1.2的技术特性:240亿参数规模、多模态输入支持、可验证推理架构及商业应用场景,助力开发者构建下一代企业级AI解决方案。 AI产品动态# AI技术# MistralAI# 人工智能 4个月前
微软发布VibeVoice-Realtime-0.5B:5亿参数实现300ms实时语音合成,支持中英文与多角色对话 微软最新开源轻量级实时文本转语音模型VibeVoice-Realtime-0.5B,以仅5亿参数实现300毫秒首音延迟,支持中英文双语合成与4角色自然对话,适用于智能客服、数字人、电商直播等场景,推动... AI产品动态# AI语音模型# TTS# VibeVoice 2个月前
上海AI实验室开源全球首个科学多模态大模型Intern-S1,推动AI驱动科研新范式 上海AI实验室在2025世界人工智能大会上开源全球首个科学多模态大模型Intern-S1,首创跨模态科学解析引擎,性能超越顶尖闭源模型,推动AI驱动科研新范式,降低科研AI部署成本,加速全球科学协作。 AI产品动态# 上海AI实验室# 人工智能# 多模态大模型 6个月前
阿里与浙大联合开源OmniAvatar模型:音频驱动全身视频生成技术取得突破 阿里巴巴夸克团队与浙江大学联合开源的OmniAvatar模型实现音频驱动全身视频生成技术突破,支持单图+音频输入生成高精度唇形同步与流畅肢体动作视频,提供文本调控功能,适用于教育、创意等领域。 AI产品动态# AI视频生成# OmniAvatar# 开源模型 6个月前
腾讯混元团队发布SRPO技术:解决AI文生图皮肤过油问题,真实感提升3倍 腾讯混元团队发布SRPO技术,通过语义相对偏好优化解决Flux模型人像生成皮肤过油问题,真实感提升3倍,训练效率达75倍提升。代码已开源,推动AI生成内容在影视游戏领域应用。 AI产品动态# AI生成图像# SRPO# 图像优化 5个月前
阿里开源通义千问AI编程大模型Qwen3-Coder,性能对标国际顶尖水平 阿里巴巴开源通义千问Qwen3-Coder AI编程大模型,采用MoE架构,性能超越GPT-4.1等闭源模型,支持256K上下文窗口,显著提升编程效率,免费获取使用。 AI产品动态# AI编程# Qwen3-Coder# 开源模型 6个月前