商汤科技开源NEO原生多模态架构,引领AI进入“原生架构”时代 商汤科技于2025年12月1日开源与南洋理工大学联合研发的NEO原生多模态架构,通过原生图块嵌入、统一注意力等创新技术,实现视觉与语言的深层融合,推动多模态AI进入“原生架构”时代,加速产业级技术标准... AI产品动态# AI基础设施# NEO架构# 人工智能 3周前
商汤科技开源空间智能大模型SenseNova-SI系列,8B版本性能超越GPT-5 2025年商汤科技开源空间智能大模型SenseNova-SI系列,8B版本以60.99分超越GPT-5和Gemini-2.5-Pro。突破空间结构理解技术短板,提供完整技术资源下载,推动自动驾驶、机器... AI产品动态# AI开源# GPT-5对比# SenseNova-SI 1个月前
阿里通义千问发布Qwen3-VL 2B/32B新版本,实现全场景多模态AI覆盖 阿里巴巴通义千问团队最新发布Qwen3-VL 2B和32B版本,在STEM问答、视觉理解等多项测试中超越GPT-5 mini和Claude 4 Sonnet。32B模型仅用少量参数实现与235B模型竞... AI产品动态# AI开源# Qwen3-VL# 人工智能 2个月前
DeepSeek-OCR开源多模态模型发布:视觉文本压缩技术实现10倍无损压缩 DeepSeek AI发布革命性开源多模态模型DeepSeek-OCR,实现10倍无损文本压缩,显著提升OCR处理效率。模型采用创新视觉压缩技术,单卡日处理20万页文档,为大规模语言模型训练提供全新解... AI产品动态# AI开源# DeepSeek-OCR# OCR技术 2个月前
苹果将携八篇前沿论文亮相ICCV 2025,多模态模型与视频生成技术成焦点 深度解析苹果在ICCV 2025大会发布的八篇前沿论文,涵盖MM-Spatial三维空间应用、STIV视频生成等突破性技术,揭秘这些研究如何推动AR设备和iPhone创作功能的未来发展。 AI新闻资讯# AI研究# AppleVisionPro# ICCV2025 2个月前
LiblibAI 2.0重磅上线:首图文视频同界面创作,打造集成式AI创作生态 LiblibAI 2.0正式上线,实现图文视频同界面创作功能,整合Qwen Image、Midjourney V7等前沿模型,内置500+视觉特效工具,提升创作效率300%,服务超千万设计师的AI创作... AI产品动态# AI创作# AI工具# LiblibAI 2个月前
腾讯混元开源全球首个800亿参数工业级多模态生图模型,开启AI图像生成新纪元 腾讯混元团队开源全球首个800亿参数工业级多模态生图模型混元图像3.0,支持1000+字符文本理解和多语言文字渲染,在Github和Hugging Face可免费下载使用,推动AI图像技术普及。 AI产品动态# AI图像生成# 人工智能# 多模态模型 3个月前
全球首个ViLLA架构具身智能模型开源!智元机器人GO-1基座模型全面开放 深度解析智元机器人GO-1通用具身基座大模型的开源价值:全球首个ViLLA架构具身智能模型技术突破,配套Genie Studio开发平台降低应用门槛,推动机器人技术普惠化发展。 AI产品动态# GenieStudio# GO-1模型# ViLLA架构 3个月前
阿里云开源全球首个原生端到端全模态AI模型Qwen3-Omni,突破多模态技术瓶颈 阿里云正式开源全球首个原生端到端全模态AI模型Qwen3-Omni,实现文本、图像、音频、视频同步处理,22项基准测试达SOTA水平,支持119种语言,将推动自动驾驶、智能座舱等场景技术落地。 AI产品动态# AI技术# Qwen3-Omni# 人工智能 3个月前
可灵AI 2.5版本突破微表情技术,电影级视频生成进入创作者时代 可灵AI 2.5版本实现微表情与复杂情绪突破性进展,采用多模态两阶段生成框架,支持中英日韩多语种情绪表达,已服务4500万用户,显著降低影视制作门槛。 AI产品动态# AI视频生成# 可灵AI# 多模态模型 3个月前