多模态大模型

港科大等开源Robust-R1多模态大模型：创新“退化感知推理”技术，解决真实场景视觉退化难题

香港科技大学与西北工业大学研究团队开源Robust-R1多模态大模型，创新提出“退化感知推理”技术，有效解决图像模糊、噪声、遮挡等真实场景退化问题，在ImageNet-C等基准测试中鲁棒性提升47...

5个月前

火山引擎发布Seedance 1.5 Pro：突破音画同步技术，AI视频生成进入声画融合新阶段

2025年12月18日，字节跳动火山引擎正式发布新一代音视频创作模型Seedance 1.5 Pro。该模型突破传统AI视频生成局限，实现原生音视频联合生成，具备毫秒级音画同步精度、电影级运镜控制与增...

AI产品动态 # AI创作工具 # AI视频生成 # Seedance1.5pro

5个月前

智谱科技发布工业级文本转语音模型GLM-TTS：3秒音色克隆、10万小时低数据训练，开源语音合成新标杆

智谱科技发布开源工业级文本转语音模型GLM-TTS，实现3秒音色克隆、10万小时低数据训练需求，字错误率低至0.89%。模型已应用于教育、客服等场景，训练成本降低50%以上，助力语音合成技术普惠化。

AI产品动态 # AI技术 # GLM-TTS # 多模态大模型

6个月前

AI助手“灵光”推出科普动画生成功能，九大学科知识可视化教学

通用AI助手“灵光”推出科普动画生成功能，依托多模态大模型实现九大学科原理的三维动画转化，支持中英文双语输出。教育机构免费使用，提升课堂教学与科普传播效率，助力抽象知识直观化教学突破。

AI产品动态 # AI助手 # 人工智能应用 # 多模态大模型

6个月前

智谱AI开源GLM-4.6V多模态大模型：原生Function Call实现视觉到行动闭环，API成本降50%

智谱AI于2025年12月开源GLM-4.6V系列多模态大模型，原生支持视觉Function Call实现感知-理解-执行闭环，128K上下文窗口，视觉精度领先。提供106B云端版与9B免费本地版，A...

AI产品动态 # AI成本降低 # FunctionCall # GLM-4.6V

6个月前

国内首款多模态AI助盲眼镜发布，瞳行科技以3000元亲民价破局视障辅助市场

杭州瞳行科技发布国内首款多模态AI助盲眼镜，集成通义千问Qwen-VL与OCR技术，实现300毫秒超低延迟环境感知与实时语音导航。产品以模块化设计降低70%研发成本，定价3000元以内，致力解决170...

AI产品动态 # AI助盲眼镜 # 多模态大模型 # 瞳行科技

6个月前

全球最大开源具身多模态大模型Pelican-VL 1.0正式发布，性能超越GPT-5达15.79%

北京人形机器人创新中心正式开源Pelican-VL 1.0，这是全球规模最大的开源具身多模态大模型，性能超越GPT-5达15.79%，在物体操作、空间推理等任务中表现卓越，将加速具身智能技术商业化应用...

AI产品动态 # Pelican-VL # 人工智能 # 具身智能

7个月前

科大讯飞无锡AI加速中心启用长三角AIoT协同创新联盟启动

科大讯飞无锡AI加速中心正式运营，联合发起长三角AIoT协同创新联盟，10家企业入驻产业园，重点布局多模态大模型与生成式人工智能技术，推动长三角地区AI产业生态集聚。

AI新闻资讯 # AIoT # 人工智能 # 创新联盟

7个月前

美团开源5600亿参数多模态大模型LongCat-Flash-Omni，实现全模态实时交互突破

美团发布开源多模态大模型LongCat-Flash-Omni，具备5600亿参数并集成多模态感知能力，支持离线理解与实时音视频交互，已在电商直播、远程协作等领域实现商业化应用，助力降低多模态AI开发门...

AI产品动态 # AI开源 # LongCat-Flash-Omni # 人工智能

7个月前

巨量引擎推出自研多模态大模型，AI审核效率提升75%

巨量引擎推出自研多模态大模型，实现90%广告素材10分钟快速审核，效率提升75%。采用“以AI治AI”策略，有效治理AI广告违规问题，第三季度拦截违规素材84万条。

AI新闻资讯 # AI审核 # 商业安全 # 多模态大模型

7个月前

港科大等开源Robust-R1多模态大模型：创新“退化感知推理”技术，解决真实场景视觉退化难题

火山引擎发布Seedance 1.5 Pro：突破音画同步技术，AI视频生成进入声画融合新阶段

智谱科技发布工业级文本转语音模型GLM-TTS：3秒音色克隆、10万小时低数据训练，开源语音合成新标杆

AI助手“灵光”推出科普动画生成功能，九大学科知识可视化教学

智谱AI开源GLM-4.6V多模态大模型：原生Function Call实现视觉到行动闭环，API成本降50%

国内首款多模态AI助盲眼镜发布，瞳行科技以3000元亲民价破局视障辅助市场

全球最大开源具身多模态大模型Pelican-VL 1.0正式发布，性能超越GPT-5达15.79%

科大讯飞无锡AI加速中心启用长三角AIoT协同创新联盟启动

美团开源5600亿参数多模态大模型LongCat-Flash-Omni，实现全模态实时交互突破

巨量引擎推出自研多模态大模型，AI审核效率提升75%

热门AI工具

最新资讯