月之暗面开源多模态模型Kimi-VL-A3B-Thinking-2506,性能超越GPT-4o 月之暗面(Moonshot AI)开源多模态模型Kimi-VL-A3B-Thinking-2506,性能超越GPT-4o,在数学推理、视频理解等任务中表现优异,实现效率与性能双重优化。开发者可通过Hu... AI产品动态# AI# GPT-4o# Kimi-VL-A3B-Thinking-2506 4个月前
面壁智能开源多模态模型MiniCPM-V 4.0,图像理解能力超越主流模型 面壁智能开源新一代多模态模型MiniCPM-V 4.0,图像理解能力超越GPT-4.1等主流模型。该模型针对移动端优化,首token延迟低于2秒,解码速度达17 token/s以上,实现高效端侧部署。 AI产品动态# AI# MiniCPM-V4.0# 图像理解 3个月前
OpenAI重启机器人研发计划,聚焦通用机器人技术以加速AGI实现 OpenAI重启机器人研发计划,聚焦通用机器人技术开发,通过物理世界交互加速AGI实现。了解新团队目标、技术突破与行业竞争,探索AI从虚拟向物理空间的延伸。 AI新闻资讯# AGI# OpenAI# 人工智能 2个月前
谷歌发布开源多模态模型Gemma 3n:专为移动设备设计的AI突破 谷歌推出开源多模态模型Gemma 3n,专为移动设备优化,支持图像、音视频及文本处理,内存需求极低。采用MatFormer架构,动态调整规模,提升效率。适用于医疗、无障碍等隐私敏感场景。 AI产品动态# AI# Gemma3n# 多模态模型 4个月前
阿里通义千问发布Qwen3-VL 2B/32B新版本,实现全场景多模态AI覆盖 阿里巴巴通义千问团队最新发布Qwen3-VL 2B和32B版本,在STEM问答、视觉理解等多项测试中超越GPT-5 mini和Claude 4 Sonnet。32B模型仅用少量参数实现与235B模型竞... AI产品动态# AI开源# Qwen3-VL# 人工智能 2周前
腾讯混元开源全球首个800亿参数工业级多模态生图模型,开启AI图像生成新纪元 腾讯混元团队开源全球首个800亿参数工业级多模态生图模型混元图像3.0,支持1000+字符文本理解和多语言文字渲染,在Github和Hugging Face可免费下载使用,推动AI图像技术普及。 AI产品动态# AI图像生成# 人工智能# 多模态模型 1个月前
InstaDeep推出生物多模态对话智能体ChatNT,革新生物学研究范式 InstaDeep推出生物多模态对话智能体ChatNT,革新生物学研究范式。该模型通过自然语言交互即可处理DNA、RNA和蛋白质序列,显著降低了生物学家使用AI工具的技术门槛,被学界视为生物信息学领域... AI产品动态# AI# 基因研究# 多模态模型 5个月前
DeepSeek-OCR开源多模态模型发布:视觉文本压缩技术实现10倍无损压缩 DeepSeek AI发布革命性开源多模态模型DeepSeek-OCR,实现10倍无损文本压缩,显著提升OCR处理效率。模型采用创新视觉压缩技术,单卡日处理20万页文档,为大规模语言模型训练提供全新解... AI产品动态# AI开源# DeepSeek-OCR# OCR技术 2周前
LiblibAI 2.0重磅上线:首图文视频同界面创作,打造集成式AI创作生态 LiblibAI 2.0正式上线,实现图文视频同界面创作功能,整合Qwen Image、Midjourney V7等前沿模型,内置500+视觉特效工具,提升创作效率300%,服务超千万设计师的AI创作... AI产品动态# AI创作# AI工具# LiblibAI 3周前
蚂蚁集团与Inclusion AI开源多模态模型Ming-Omni,支持图像、音视频全模态处理 蚂蚁集团与Inclusion AI共同发布开源多模态大模型Ming-Omni,该模型可统一处理图像、文本、音频及视频输入,并具备跨模态生成能力,成为全球首个在功能上与GPT-4o对标且完全开源的多模态... AI产品动态# AI开源# 多模态模型# 蚂蚁集团 5个月前