港科大等开源Robust-R1多模态大模型:创新“退化感知推理”技术,解决真实场景视觉退化难题 香港科技大学与西北工业大学研究团队开源Robust-R1多模态大模型,创新提出“退化感知推理”技术,有效解决图像模糊、噪声、遮挡等真实场景退化问题,在ImageNet-C等基准测试中鲁棒性提升47... AI新闻资讯# AI鲁棒性# Robust-R1# 医疗影像分析 1个月前
智谱科技发布工业级文本转语音模型GLM-TTS:3秒音色克隆、10万小时低数据训练,开源语音合成新标杆 智谱科技发布开源工业级文本转语音模型GLM-TTS,实现3秒音色克隆、10万小时低数据训练需求,字错误率低至0.89%。模型已应用于教育、客服等场景,训练成本降低50%以上,助力语音合成技术普惠化。 AI产品动态# AI技术# GLM-TTS# 多模态大模型 2个月前
百度地图发布新一代AI语音座舱系统,五大功能重构人机交互体验 百度地图2025年推出新一代跨模态AI语音座舱系统,基于端到端大模型实现情感交互、精准时空识别和座舱硬件控制,复合指令准确率达92%,为车企提供端云协同的智能座舱解决方案。 AI产品动态# AI语音系统# 多模态大模型# 智能座舱 5个月前
宇树科技发布Unitree R1人形机器人:起售价3.99万元,集成多模态大模型技术 宇树科技发布Unitree R1人形机器人,起售价3.99万元,集成多模态大模型技术,支持开发者定制。具备26个高自由度关节,运动控制能力突出,为消费级和行业级市场提供高性能通用平台。 AI产品动态# AI机器人# UnitreeR1# 人形机器人 6个月前
OpenAI推出ChatGPT Pro云存储连接器功能,支持Google Drive等多平台集成 OpenAI最新推出ChatGPT Pro云存储连接器功能,深度集成Google Drive、Dropbox等平台,通过MCP技术提升企业文档处理效率。了解这一企业AI解决方案如何改变知识管理方式。 AI产品动态# ChatGPT# MCP技术# OpenAI 7个月前
万兴科技全球首发万兴超媒Agent,一句话生成视频效率提升60倍 万兴科技全球发布万兴超媒Agent,通过多模态大模型实现一句话生成视频,支持多轮对话编辑,提升创作效率60倍,成功率超95%,推动AI+创意生态发展。 AI产品动态# AIGC# AI视频生成# 万兴科技 5个月前
中科院SolidGeo基准揭示MLLM立体几何推理短板,最优模型准确率不足50% 中科院最新SolidGeo基准测试显示:主流多模态大语言模型在立体几何推理任务中平均准确率不足50%,较人类水平差距达28%。研究深入分析3113道三维几何问题,揭示MLLM在空间折叠、多图推理等复杂... AI新闻资讯# SolidGeo基准# 中科院研究# 人工智能 7个月前
小红书开源多模态大模型dots.vlm1,性能接近国际领先水平 小红书正式开源多模态大模型dots.vlm1,基于自研NaViT视觉编码器和DeepSeek V3构建,在MMMU、MathVision等基准测试中性能接近Gemini 2.5 Pro等闭源先进模型... AI产品动态# AI开源# DeepSeekV3# dots.vlm1 6个月前
国内首款多模态AI助盲眼镜发布,瞳行科技以3000元亲民价破局视障辅助市场 杭州瞳行科技发布国内首款多模态AI助盲眼镜,集成通义千问Qwen-VL与OCR技术,实现300毫秒超低延迟环境感知与实时语音导航。产品以模块化设计降低70%研发成本,定价3000元以内,致力解决170... AI产品动态# AI助盲眼镜# 多模态大模型# 瞳行科技 2个月前
上海AI Lab与浙大联合团队突破AI视觉推理:RRVF方法验证非对称性原理 上海AI Lab与浙大团队发布AI视觉推理重大突破:RRVF方法通过验证非对称性原理实现97.83%执行率,实证验证者法则。研究揭示未来AI发展核心在于构建可验证环境,为多模态大模型提供新范式。 AI新闻资讯# AI视觉推理# 上海AILab# 人工智能 6个月前