多模态大模型

港科大等开源Robust-R1多模态大模型：创新“退化感知推理”技术，解决真实场景视觉退化难题

香港科技大学与西北工业大学研究团队开源Robust-R1多模态大模型，创新提出“退化感知推理”技术，有效解决图像模糊、噪声、遮挡等真实场景退化问题，在ImageNet-C等基准测试中鲁棒性提升47...

4个月前

智谱科技发布工业级文本转语音模型GLM-TTS：3秒音色克隆、10万小时低数据训练，开源语音合成新标杆

智谱科技发布开源工业级文本转语音模型GLM-TTS，实现3秒音色克隆、10万小时低数据训练需求，字错误率低至0.89%。模型已应用于教育、客服等场景，训练成本降低50%以上，助力语音合成技术普惠化。

AI产品动态 # AI技术 # GLM-TTS # 多模态大模型

4个月前

百度地图发布新一代AI语音座舱系统，五大功能重构人机交互体验

百度地图2025年推出新一代跨模态AI语音座舱系统，基于端到端大模型实现情感交互、精准时空识别和座舱硬件控制，复合指令准确率达92%，为车企提供端云协同的智能座舱解决方案。

AI产品动态 # AI语音系统 # 多模态大模型 # 智能座舱

8个月前

国内首款多模态AI助盲眼镜发布，瞳行科技以3000元亲民价破局视障辅助市场

杭州瞳行科技发布国内首款多模态AI助盲眼镜，集成通义千问Qwen-VL与OCR技术，实现300毫秒超低延迟环境感知与实时语音导航。产品以模块化设计降低70%研发成本，定价3000元以内，致力解决170...

AI产品动态 # AI助盲眼镜 # 多模态大模型 # 瞳行科技

4个月前

万兴科技全球首发万兴超媒Agent，一句话生成视频效率提升60倍

万兴科技全球发布万兴超媒Agent，通过多模态大模型实现一句话生成视频，支持多轮对话编辑，提升创作效率60倍，成功率超95%，推动AI+创意生态发展。

AI产品动态 # AIGC # AI视频生成 # 万兴科技

7个月前

小红书开源多模态大模型dots.vlm1，性能接近国际领先水平

小红书正式开源多模态大模型dots.vlm1，基于自研NaViT视觉编码器和DeepSeek V3构建，在MMMU、MathVision等基准测试中性能接近Gemini 2.5 Pro等闭源先进模型...

AI产品动态 # AI开源 # DeepSeekV3 # dots.vlm1

8个月前

宇树科技发布Unitree R1人形机器人：起售价3.99万元，集成多模态大模型技术

宇树科技发布Unitree R1人形机器人，起售价3.99万元，集成多模态大模型技术，支持开发者定制。具备26个高自由度关节，运动控制能力突出，为消费级和行业级市场提供高性能通用平台。

AI产品动态 # AI机器人 # UnitreeR1 # 人形机器人

9个月前

中科院SolidGeo基准揭示MLLM立体几何推理短板，最优模型准确率不足50%

中科院最新SolidGeo基准测试显示：主流多模态大语言模型在立体几何推理任务中平均准确率不足50%，较人类水平差距达28%。研究深入分析3113道三维几何问题，揭示MLLM在空间折叠、多图推理等复杂...

AI新闻资讯 # SolidGeo基准 # 中科院研究 # 人工智能

10个月前

上海AI Lab与浙大联合团队突破AI视觉推理：RRVF方法验证非对称性原理

上海AI Lab与浙大团队发布AI视觉推理重大突破：RRVF方法通过验证非对称性原理实现97.83%执行率，实证验证者法则。研究揭示未来AI发展核心在于构建可验证环境，为多模态大模型提供新范式。

AI新闻资讯 # AI视觉推理 # 上海AILab # 人工智能

8个月前

快手开源多模态大模型Kwai Keye-VL-8B，视频理解与逻辑推理能力突破

快手发布并开源多模态大语言模型Kwai Keye-VL-8B，突破视频理解与逻辑推理性能，支持文本、图像、视频多模态处理，并在高考数学测试中表现优异，加速AI技术商业化进程。

AI产品动态 # AI # KwaiKeye-VL-8B # 多模态大模型

10个月前

港科大等开源Robust-R1多模态大模型：创新“退化感知推理”技术，解决真实场景视觉退化难题

智谱科技发布工业级文本转语音模型GLM-TTS：3秒音色克隆、10万小时低数据训练，开源语音合成新标杆

百度地图发布新一代AI语音座舱系统，五大功能重构人机交互体验

国内首款多模态AI助盲眼镜发布，瞳行科技以3000元亲民价破局视障辅助市场

万兴科技全球首发万兴超媒Agent，一句话生成视频效率提升60倍

小红书开源多模态大模型dots.vlm1，性能接近国际领先水平

宇树科技发布Unitree R1人形机器人：起售价3.99万元，集成多模态大模型技术

中科院SolidGeo基准揭示MLLM立体几何推理短板，最优模型准确率不足50%

上海AI Lab与浙大联合团队突破AI视觉推理：RRVF方法验证非对称性原理

快手开源多模态大模型Kwai Keye-VL-8B，视频理解与逻辑推理能力突破

热门AI工具

最新资讯