多模态模型

面壁智能开源新一代多模态模型MiniCPM-V 4.0，图像理解能力超越GPT-4.1等主流模型。该模型针对移动端优化，首token延迟低于2秒，解码速度达17 token/s以上，实现高效端侧部署。

9个月前

阿里云正式开源全球首个原生端到端全模态AI模型Qwen3-Omni，实现文本、图像、音频、视频同步处理，22项基准测试达SOTA水平，支持119种语言，将推动自动驾驶、智能座舱等场景技术落地。

7个月前

谷歌推出开源多模态模型Gemma 3n，专为移动设备优化，支持图像、音视频及文本处理，内存需求极低。采用MatFormer架构，动态调整规模，提升效率。适用于医疗、无障碍等隐私敏感场景。

10个月前

蚂蚁集团与Inclusion AI共同发布开源多模态大模型Ming-Omni，该模型可统一处理图像、文本、音频及视频输入，并具备跨模态生成能力，成为全球首个在功能上与GPT-4o对标且完全开源的多模态...

10个月前

百度正式宣布研发文心大模型5.0，将于8月底推出。新版本在推理效率、多模态能力及模型规模实现突破，日均调用量超15亿次。解读百度AI战略升级与行业竞争布局。

8个月前

InstaDeep推出生物多模态对话智能体ChatNT，革新生物学研究范式。该模型通过自然语言交互即可处理DNA、RNA和蛋白质序列，显著降低了生物学家使用AI工具的技术门槛，被学界视为生物信息学领域...

10个月前

谷歌发布Gemini 2.5 Flash（Nano Banana）多模态模型官方Prompt模板，详解摄影、商业设计等六大场景应用，支持低成本高效图像生成与多轮迭代优化，助力创作者标准化AI创作流程。

8个月前