多模态模型

腾讯混元开源全球首个800亿参数工业级多模态生图模型，开启AI图像生成新纪元

腾讯混元团队开源全球首个800亿参数工业级多模态生图模型混元图像3.0，支持1000+字符文本理解和多语言文字渲染，在Github和Hugging Face可免费下载使用，推动AI图像技术普及。

7个月前

全球首个多模态工业信号基座模型FISHER发布，推动工业智能化升级

清华大学与上海交通大学联合团队发布全球首个多模态工业信号基座模型FISHER，实现异质工业信号统一处理，技术开源推动工业AI普惠化。

AI新闻资讯 # AI # FISHER # 上海交通大学

9个月前

面壁智能开源MiniCPM-V4.5：8B参数实现高刷视频理解，端侧AI迎来突破

面壁智能开源MiniCPM-V4.5多模态模型，8B参数实现高刷视频理解，性能超越72B级竞品。创新3D-Resampler技术达12倍压缩率，适用于智能座舱、工业质检等实时场景，现已在GitHub等...

AI产品动态 # 人工智能 # 多模态模型 # 开源AI

8个月前

OpenAI与Meta人才争夺战：高薪挖角VS跨学科培养，谁将主导AI未来？

深度对比OpenAI与Meta的AI人才战略：Meta斥资1亿美元挖角GPT-4o核心团队，OpenAI以21万年薪跨学科驻留计划反制。解析300万人才缺口下，两种模式如何影响AGI与多模态模型的技术...

AI新闻资讯 # AGI # Meta # OpenAI

10个月前

阿里通义千问发布Qwen3-VL 2B/32B新版本，实现全场景多模态AI覆盖

阿里巴巴通义千问团队最新发布Qwen3-VL 2B和32B版本，在STEM问答、视觉理解等多项测试中超越GPT-5 mini和Claude 4 Sonnet。32B模型仅用少量参数实现与235B模型竞...

AI产品动态 # AI开源 # Qwen3-VL # 人工智能

6个月前

昆仑万维开源Skywork UniPic多模态模型：1.5B参数实现图像生成与编辑一体化

昆仑万维开源Skywork UniPic多模态模型，1.5B轻量化参数实现图像生成、理解与编辑一体化能力，支持高分辨率细节建模，性能接近百亿参数专用模型，为开发者提供可落地的统一视觉基座。

AI产品动态 # AI开源 # SkyworkUniPic # 图像生成

9个月前

阿里云通义千问发布多模态模型Qwen VLo，实现图像与文本高质量协同创作

阿里云通义千问发布新一代多模态模型Qwen VLo，支持动态分辨率训练与生成，提升文本逻辑连贯性，适用于法律文书、学术论文等专业场景，加速AI与产业融合。

AI产品动态 # AI # QwenVLo # 多模态模型

10个月前

月之暗面开源多模态模型Kimi-VL-A3B-Thinking-2506，性能超越GPT-4o

月之暗面（Moonshot AI）开源多模态模型Kimi-VL-A3B-Thinking-2506，性能超越GPT-4o，在数学推理、视频理解等任务中表现优异，实现效率与性能双重优化。开发者可通过Hu...

AI产品动态 # AI # GPT-4o # Kimi-VL-A3B-Thinking-2506

10个月前

LiblibAI 2.0重磅上线：首图文视频同界面创作，打造集成式AI创作生态

LiblibAI 2.0正式上线，实现图文视频同界面创作功能，整合Qwen Image、Midjourney V7等前沿模型，内置500+视觉特效工具，提升创作效率300%，服务超千万设计师的AI创作...

AI产品动态 # AI创作 # AI工具 # LiblibAI

6个月前

苹果开源SlowFast-LLaVA-1.5模型：长视频理解技术突破，显存占用降30%

苹果开源SlowFast-LLaVA-1.5模型革新长视频理解技术：双流架构降低30%显存占用，1B参数超越7B模型性能，支持2小时视频分析。了解其在MLVU基准91.5%OCR准确率及商业应用潜力。

AI产品动态 # 人工智能 # 多模态模型 # 开源模型

8个月前

腾讯混元开源全球首个800亿参数工业级多模态生图模型，开启AI图像生成新纪元

全球首个多模态工业信号基座模型FISHER发布，推动工业智能化升级

面壁智能开源MiniCPM-V4.5：8B参数实现高刷视频理解，端侧AI迎来突破

OpenAI与Meta人才争夺战：高薪挖角VS跨学科培养，谁将主导AI未来？

阿里通义千问发布Qwen3-VL 2B/32B新版本，实现全场景多模态AI覆盖

昆仑万维开源Skywork UniPic多模态模型：1.5B参数实现图像生成与编辑一体化

阿里云通义千问发布多模态模型Qwen VLo，实现图像与文本高质量协同创作

月之暗面开源多模态模型Kimi-VL-A3B-Thinking-2506，性能超越GPT-4o

LiblibAI 2.0重磅上线：首图文视频同界面创作，打造集成式AI创作生态

苹果开源SlowFast-LLaVA-1.5模型：长视频理解技术突破，显存占用降30%

热门AI工具

最新资讯