面壁智能开源多模态模型MiniCPM-V 4.0,图像理解能力超越主流模型 面壁智能开源新一代多模态模型MiniCPM-V 4.0,图像理解能力超越GPT-4.1等主流模型。该模型针对移动端优化,首token延迟低于2秒,解码速度达17 token/s以上,实现高效端侧部署。 AI产品动态# AI# MiniCPM-V4.0# 图像理解 6个月前
阿里云开源全球首个原生端到端全模态AI模型Qwen3-Omni,突破多模态技术瓶颈 阿里云正式开源全球首个原生端到端全模态AI模型Qwen3-Omni,实现文本、图像、音频、视频同步处理,22项基准测试达SOTA水平,支持119种语言,将推动自动驾驶、智能座舱等场景技术落地。 AI产品动态# AI技术# Qwen3-Omni# 人工智能 4个月前
谷歌发布开源多模态模型Gemma 3n:专为移动设备设计的AI突破 谷歌推出开源多模态模型Gemma 3n,专为移动设备优化,支持图像、音视频及文本处理,内存需求极低。采用MatFormer架构,动态调整规模,提升效率。适用于医疗、无障碍等隐私敏感场景。 AI产品动态# AI# Gemma3n# 多模态模型 7个月前
百度官宣文心大模型5.0即将发布,多模态与推理效率重大突破 百度正式宣布研发文心大模型5.0,将于8月底推出。新版本在推理效率、多模态能力及模型规模实现突破,日均调用量超15亿次。解读百度AI战略升级与行业竞争布局。 AI新闻资讯# AI技术突破# 人工智能# 多模态模型 6个月前
蚂蚁集团与Inclusion AI开源多模态模型Ming-Omni,支持图像、音视频全模态处理 蚂蚁集团与Inclusion AI共同发布开源多模态大模型Ming-Omni,该模型可统一处理图像、文本、音频及视频输入,并具备跨模态生成能力,成为全球首个在功能上与GPT-4o对标且完全开源的多模态... AI产品动态# AI开源# 多模态模型# 蚂蚁集团 8个月前
InstaDeep推出生物多模态对话智能体ChatNT,革新生物学研究范式 InstaDeep推出生物多模态对话智能体ChatNT,革新生物学研究范式。该模型通过自然语言交互即可处理DNA、RNA和蛋白质序列,显著降低了生物学家使用AI工具的技术门槛,被学界视为生物信息学领域... AI产品动态# AI# 基因研究# 多模态模型 8个月前
谷歌发布Gemini 2.5 Flash Nano Banana官方Prompt模板:六大场景标准化AI图像创作指南 谷歌发布Gemini 2.5 Flash(Nano Banana)多模态模型官方Prompt模板,详解摄影、商业设计等六大场景应用,支持低成本高效图像生成与多轮迭代优化,助力创作者标准化AI创作流程。 AI产品动态# AI图像生成# AI设计工具# GoogleAIStudio 5个月前