阿里通义千问发布Qwen3-VL 2B/32B新版本,实现全场景多模态AI覆盖 阿里巴巴通义千问团队最新发布Qwen3-VL 2B和32B版本,在STEM问答、视觉理解等多项测试中超越GPT-5 mini和Claude 4 Sonnet。32B模型仅用少量参数实现与235B模型竞... AI产品动态# AI开源# Qwen3-VL# 人工智能 2周前
DeepSeek-OCR开源多模态模型发布:视觉文本压缩技术实现10倍无损压缩 DeepSeek AI发布革命性开源多模态模型DeepSeek-OCR,实现10倍无损文本压缩,显著提升OCR处理效率。模型采用创新视觉压缩技术,单卡日处理20万页文档,为大规模语言模型训练提供全新解... AI产品动态# AI开源# DeepSeek-OCR# OCR技术 2周前
苹果将携八篇前沿论文亮相ICCV 2025,多模态模型与视频生成技术成焦点 深度解析苹果在ICCV 2025大会发布的八篇前沿论文,涵盖MM-Spatial三维空间应用、STIV视频生成等突破性技术,揭秘这些研究如何推动AR设备和iPhone创作功能的未来发展。 AI新闻资讯# AI研究# AppleVisionPro# ICCV2025 3周前
LiblibAI 2.0重磅上线:首图文视频同界面创作,打造集成式AI创作生态 LiblibAI 2.0正式上线,实现图文视频同界面创作功能,整合Qwen Image、Midjourney V7等前沿模型,内置500+视觉特效工具,提升创作效率300%,服务超千万设计师的AI创作... AI产品动态# AI创作# AI工具# LiblibAI 3周前
腾讯混元开源全球首个800亿参数工业级多模态生图模型,开启AI图像生成新纪元 腾讯混元团队开源全球首个800亿参数工业级多模态生图模型混元图像3.0,支持1000+字符文本理解和多语言文字渲染,在Github和Hugging Face可免费下载使用,推动AI图像技术普及。 AI产品动态# AI图像生成# 人工智能# 多模态模型 1个月前
全球首个ViLLA架构具身智能模型开源!智元机器人GO-1基座模型全面开放 深度解析智元机器人GO-1通用具身基座大模型的开源价值:全球首个ViLLA架构具身智能模型技术突破,配套Genie Studio开发平台降低应用门槛,推动机器人技术普惠化发展。 AI产品动态# GenieStudio# GO-1模型# ViLLA架构 1个月前
阿里云开源全球首个原生端到端全模态AI模型Qwen3-Omni,突破多模态技术瓶颈 阿里云正式开源全球首个原生端到端全模态AI模型Qwen3-Omni,实现文本、图像、音频、视频同步处理,22项基准测试达SOTA水平,支持119种语言,将推动自动驾驶、智能座舱等场景技术落地。 AI产品动态# AI技术# Qwen3-Omni# 人工智能 1个月前
可灵AI 2.5版本突破微表情技术,电影级视频生成进入创作者时代 可灵AI 2.5版本实现微表情与复杂情绪突破性进展,采用多模态两阶段生成框架,支持中英日韩多语种情绪表达,已服务4500万用户,显著降低影视制作门槛。 AI产品动态# AI视频生成# 可灵AI# 多模态模型 1个月前
OpenAI重启机器人研发计划,聚焦通用机器人技术以加速AGI实现 OpenAI重启机器人研发计划,聚焦通用机器人技术开发,通过物理世界交互加速AGI实现。了解新团队目标、技术突破与行业竞争,探索AI从虚拟向物理空间的延伸。 AI新闻资讯# AGI# OpenAI# 人工智能 2个月前
快手可灵AI数字人技术重大升级:突破60秒长视频生成,实现精准表情动作控制 快手可灵AI发布新一代数字人功能,实现60秒长视频生成与高精度表情动作控制。该技术基于多模态大语言模型,支持跨语种演唱和多画风切换,适用于短剧、虚拟直播等场景。了解最新AI进展与应用潜力。 AI产品动态# AI生成视频# 人工智能# 可灵AI 2个月前