微软发布VibeVoice-Realtime-0.5B:5亿参数实现300ms实时语音合成,支持中英文与多角色对话 微软最新开源轻量级实时文本转语音模型VibeVoice-Realtime-0.5B,以仅5亿参数实现300毫秒首音延迟,支持中英文双语合成与4角色自然对话,适用于智能客服、数字人、电商直播等场景,推动... AI产品动态# AI语音模型# TTS# VibeVoice 2个月前
华为发布医疗AI数据平台,推动医疗智能体规模化应用 华为在成都发布医疗AI数据平台,基于OceanStor A800存储系统,整合知识生成、记忆萃取与UCM推理加速三大技术,推动医疗智能体规模化应用。平台联合华西医院推出“睿宾2”智能体,实现全病程管理... AI产品动态# AI技术# AI数据平台# 医疗AI 2个月前
美团开源LongCat-Image图像生成模型:6B参数实现SOTA性能,中文渲染与编辑能力领先 美团LongCat团队开源LongCat-Image图像生成模型,6B参数规模在文生图与图像编辑任务上达到开源SOTA水平。模型采用混合骨干架构,支持15类编辑任务,中文渲染精准度领先,响应速度提升4... AI产品动态# AI开源# LongCat-Image# SOTA模型 2个月前
快手可灵AI推出O1主体库与对比模板,AI创作效率与灵活性再升级 快手可灵AI最新推出O1主体库与对比模板功能,支持最多10个主体自由组合与创作过程可视化对比,提升AI图片、视频创作效率。了解本次更新如何与音画同出、数字人2.0协同构建全链条AI生态,助力内容创作者... AI产品动态# AI图片生成# AI视频创作# 主体库 2个月前
阿里通义实验室发布Qwen3-TTS:49种高保真音色+多语言方言,语音合成自然度行业领先 阿里巴巴通义实验室发布Qwen3-TTS文本转语音模型,具备49种高保真音色、多语言方言支持及行业领先的语音自然度(MOS 4.53分)。模型覆盖中英文等10种语言及9种方言,适用于教育、商业等场景... AI产品动态# AI语音合成# Qwen3-TTS# TTS模型 2个月前
华为发布首款鸿蒙电脑企业版擎云HM740,全栈自主可控与AI办公革新 华为于12月11日发布首款鸿蒙电脑企业版擎云HM740,基于HarmonyOS 6打造,实现全栈自主可控。专为政企用户设计,具备零感部署、端侧AI能力、双空间安全隔离等核心功能,提升办公效率与数据安全... AI产品动态# AI办公# HarmonyOS6# PC产业 2个月前
智元机器人第5000台灵犀X2下线,具身机器人迈入规模商用新阶段 智元机器人宣布第5000台灵犀X2通用具身机器人下线,实现规模化量产,标志具身机器人行业进入商用新阶段。文章详解其自研技术、量产能力及未来规划,为AI与机器人领域提供最新进展。 AI产品动态# AI机器人# 具身机器人# 商业化 2个月前
智谱AI开源GLM-4.6V多模态大模型:原生Function Call实现视觉到行动闭环,API成本降50% 智谱AI于2025年12月开源GLM-4.6V系列多模态大模型,原生支持视觉Function Call实现感知-理解-执行闭环,128K上下文窗口,视觉精度领先。提供106B云端版与9B免费本地版,A... AI产品动态# AI成本降低# FunctionCall# GLM-4.6V 2个月前
中国首款藏语AI智能鼠标发布,藏汉英三语交互实现关键突破 中国首款藏语AI数字产品——觉罗智能AI鼠标正式发布,基于DeepZang藏语大模型,实现藏汉英三语语音识别、实时翻译与智能交互。产品覆盖卫藏、康巴、安多方言,适用于政务、教育、文化等多领域,推动藏语... AI产品动态# AI鼠标# 人工智能# 多语言交互 2个月前
谷歌发布Gemini Nano Banana 2 Flash轻量AI模型,图像生成成本降低30% 谷歌新一代轻量级AI模型Gemini Nano Banana 2 Flash正式推出,在图像生成与编辑领域实现显著突破,支持1M token上下文处理,运营成本降低30%,响应速度提升1.7倍。本文深... AI产品动态# AI图像生成# AI成本优化# AI技术突破 2个月前