美团开源SOTA虚拟人视频生成模型LongCat-Video-Avatar,实现动作拟真与情感表达突破 美团最新开源虚拟人视频生成模型LongCat-Video-Avatar实现三大技术突破:支持文本/图片/视频多模式生成、5分钟长视频稳定生成、情感化动作表达。本文详解其解耦无条件引导、跨片段隐空间拼接... AI产品动态# AI# LongCat# SOTA技术 7小时前
阶跃星辰发布Step-GUI系列AI Agent,开启图形界面智能体规模化应用时代 阶跃星辰发布Step-GUI系列AI Agent,实现图形界面智能体规模化应用。技术包含云端模型、端侧开源模型及MCP协议,支持200+应用,10分钟手机部署,已与荣耀、OPPO等厂商合作,推动终端设... AI产品动态# AIAgent# MCP协议# Step-GUI 1天前
通义大模型开源语音AI双升级:Fun-CosyVoice3实现3秒音色克隆,Fun-ASR嘈杂环境识别率达93% 通义大模型团队开源语音AI双模型Fun-CosyVoice3与Fun-ASR完成重大升级。Fun-CosyVoice3实现首包延迟降低50%、中英混说错误率下降56.4%,支持多语言方言与情感控制,其... AI产品动态# AI工具# Fun-ASR# Fun-CosyVoice3 3天前
蚂蚁技术研究院发布LLaDA2.0系列扩散大模型,参数突破百亿颠覆传统架构 蚂蚁技术研究院2025年发布LLaDA2.0离散扩散大语言模型,参数规模突破千亿,采用WSD训练策略降低90%成本,推理速度达535 tokens/s,在代码生成与数学推理任务中超越传统模型。模型已开... AI产品动态# AI大模型# LLaDA2.0# 人工智能技术 4天前
智谱科技发布工业级文本转语音模型GLM-TTS:3秒音色克隆、10万小时低数据训练,开源语音合成新标杆 智谱科技发布开源工业级文本转语音模型GLM-TTS,实现3秒音色克隆、10万小时低数据训练需求,字错误率低至0.89%。模型已应用于教育、客服等场景,训练成本降低50%以上,助力语音合成技术普惠化。 AI产品动态# AI技术# GLM-TTS# 多模态大模型 1周前
智谱开源全球首个手机操作AI Agent模型AutoGLM,推动AI手机生态开放化 智谱正式开源全球首个具备手机操作能力的AI Agent模型AutoGLM,支持外卖、订票等复杂任务,覆盖50+中文应用。开源包含完整框架、工具链及Demo,采用MIT许可证,推动AI手机技术普及与生态... AI产品动态# AIAgent# AI手机# AutoGLM 1周前
微软发布VibeVoice-Realtime-0.5B:5亿参数实现300ms实时语音合成,支持中英文与多角色对话 微软最新开源轻量级实时文本转语音模型VibeVoice-Realtime-0.5B,以仅5亿参数实现300毫秒首音延迟,支持中英文双语合成与4角色自然对话,适用于智能客服、数字人、电商直播等场景,推动... AI产品动态# AI语音模型# TTS# VibeVoice 1周前
阿里千问App月活增速149%登顶全球,中国AI应用创下载量破千万纪录 阿里千问App以149.03%月活增速登顶全球AI应用增长榜,公测首周下载量突破1000万次。深度解析Qwen大模型技术如何超越GPT5,以及“AI规划→消费”闭环模式如何引领AI Agent商业化浪... AI产品动态# AI助手# AI应用市场# AI竞争 2周前
英伟达发布开源自动驾驶模型Alpamayo-R1,L4级具身智能迎来关键突破 英伟达在NeurIPS 2025发布开源推理视觉语言动作模型Alpamayo-R1,专为L4级自动驾驶设计,实现多模态端到端融合,提升环境感知与决策能力。性能测试显示规划准确率提高12%,碰撞率降低2... AI产品动态# AI技术# Alpamayo-R1# L4级自动驾驶 2周前
阿里开源Z-Image图像生成模型:60亿参数实现商业级画质,技术门槛大幅降低 阿里巴巴开源Z-Image图像生成模型,采用60亿参数轻量架构,通过DMD解耦技术实现8步采样出图,支持复杂指令解析与双语文字渲染,显存占用仅16GB,兼容RTX 30系列显卡,推动AI绘图技术普惠化... AI产品动态# AI图像生成# DiT架构# Z-Image 3周前