多模态模型

Meta下一代AI模型Mango与Avocado曝光：2026年挑战OpenAI与谷歌的多模态革命

Meta公布2026年核心AI产品计划：多模态模型Mango可生成图像视频，对标OpenAI Sora；文本模型Avocado突破代码与环境感知。本文深度解读Meta技术路线、社交平台整合战略及对AI...

5个月前

商汤科技开源NEO原生多模态架构，引领AI进入“原生架构”时代

商汤科技于2025年12月1日开源与南洋理工大学联合研发的NEO原生多模态架构，通过原生图块嵌入、统一注意力等创新技术，实现视觉与语言的深层融合，推动多模态AI进入“原生架构”时代，加速产业级技术标准...

AI产品动态 # AI基础设施 # NEO架构 # 人工智能

6个月前

商汤科技开源空间智能大模型SenseNova-SI系列，8B版本性能超越GPT-5

2025年商汤科技开源空间智能大模型SenseNova-SI系列，8B版本以60.99分超越GPT-5和Gemini-2.5-Pro。突破空间结构理解技术短板，提供完整技术资源下载，推动自动驾驶、机器...

AI产品动态 # AI开源 # GPT-5对比 # SenseNova-SI

7个月前

阿里通义千问发布Qwen3-VL 2B/32B新版本，实现全场景多模态AI覆盖

阿里巴巴通义千问团队最新发布Qwen3-VL 2B和32B版本，在STEM问答、视觉理解等多项测试中超越GPT-5 mini和Claude 4 Sonnet。32B模型仅用少量参数实现与235B模型竞...

AI产品动态 # AI开源 # Qwen3-VL # 人工智能

7个月前

DeepSeek-OCR开源多模态模型发布：视觉文本压缩技术实现10倍无损压缩

DeepSeek AI发布革命性开源多模态模型DeepSeek-OCR，实现10倍无损文本压缩，显著提升OCR处理效率。模型采用创新视觉压缩技术，单卡日处理20万页文档，为大规模语言模型训练提供全新解...

AI产品动态 # AI开源 # DeepSeek-OCR # OCR技术

7个月前

苹果将携八篇前沿论文亮相ICCV 2025，多模态模型与视频生成技术成焦点

深度解析苹果在ICCV 2025大会发布的八篇前沿论文，涵盖MM-Spatial三维空间应用、STIV视频生成等突破性技术，揭秘这些研究如何推动AR设备和iPhone创作功能的未来发展。

AI新闻资讯 # AI研究 # AppleVisionPro # ICCV2025

8个月前

LiblibAI 2.0重磅上线：首图文视频同界面创作，打造集成式AI创作生态

LiblibAI 2.0正式上线，实现图文视频同界面创作功能，整合Qwen Image、Midjourney V7等前沿模型，内置500+视觉特效工具，提升创作效率300%，服务超千万设计师的AI创作...

AI产品动态 # AI创作 # AI工具 # LiblibAI

8个月前

腾讯混元开源全球首个800亿参数工业级多模态生图模型，开启AI图像生成新纪元

腾讯混元团队开源全球首个800亿参数工业级多模态生图模型混元图像3.0，支持1000+字符文本理解和多语言文字渲染，在Github和Hugging Face可免费下载使用，推动AI图像技术普及。

AI产品动态 # AI图像生成 # 人工智能 # 多模态模型

8个月前

全球首个ViLLA架构具身智能模型开源！智元机器人GO-1基座模型全面开放

深度解析智元机器人GO-1通用具身基座大模型的开源价值：全球首个ViLLA架构具身智能模型技术突破，配套Genie Studio开发平台降低应用门槛，推动机器人技术普惠化发展。

AI产品动态 # GenieStudio # GO-1模型 # ViLLA架构

8个月前

阿里云开源全球首个原生端到端全模态AI模型Qwen3-Omni，突破多模态技术瓶颈

阿里云正式开源全球首个原生端到端全模态AI模型Qwen3-Omni，实现文本、图像、音频、视频同步处理，22项基准测试达SOTA水平，支持119种语言，将推动自动驾驶、智能座舱等场景技术落地。

AI产品动态 # AI技术 # Qwen3-Omni # 人工智能

8个月前

Meta下一代AI模型Mango与Avocado曝光：2026年挑战OpenAI与谷歌的多模态革命

商汤科技开源NEO原生多模态架构，引领AI进入“原生架构”时代

商汤科技开源空间智能大模型SenseNova-SI系列，8B版本性能超越GPT-5

阿里通义千问发布Qwen3-VL 2B/32B新版本，实现全场景多模态AI覆盖

DeepSeek-OCR开源多模态模型发布：视觉文本压缩技术实现10倍无损压缩

苹果将携八篇前沿论文亮相ICCV 2025，多模态模型与视频生成技术成焦点

LiblibAI 2.0重磅上线：首图文视频同界面创作，打造集成式AI创作生态

腾讯混元开源全球首个800亿参数工业级多模态生图模型，开启AI图像生成新纪元

全球首个ViLLA架构具身智能模型开源！智元机器人GO-1基座模型全面开放

阿里云开源全球首个原生端到端全模态AI模型Qwen3-Omni，突破多模态技术瓶颈

热门AI工具

最新资讯