阿里通义千问开源Qwen3-VL视觉理解模型,4B/8B双版本实现多模态突破 阿里通义千问正式开源Qwen3-VL系列视觉理解模型,4B与8B版本通过密集架构实现显存优化,在STEM问答、VQA、OCR等任务中综合性能领先竞品,支持端侧实时AI应用,推动国产多模态模型小型化技术... AI产品动态# AI部署# Qwen3-VL# 具身智能 4个月前
Luma AI发布全球首款多模态推理视频模型Ray3,支持4K HDR生成与智能修正 Luma AI推出全球首款多模态推理视频模型Ray3,支持16位HDR生成、4K输出与智能修正功能,深度集成Adobe工作流。了解其技术优势、商业应用及对AI视频行业的影响。 AI产品动态# Adobe# AI视频生成# LumaAI 4个月前
谷歌Gemini推出引导式学习功能,AI辅导教师助力STEM学习效率提升23% 深度解读谷歌Gemini最新引导式学习功能:基于100万token多模态推理的AI教学系统,实现数学测试准确率86.7%并支持跨语言扩展,重塑在线教育技术标准。 AI产品动态# AI教育# STEM学习# 人工智能 6个月前
生数科技完成数亿元A轮融资,加速多模态大模型Vidu全球商业化布局 生数科技完成数亿元A轮融资,领跑多模态AI赛道。Vidu模型覆盖200+国家,年收入超2000万美元。融资助力技术研发与全球商业化,对标Google Nano Banana。 AI新闻资讯# AI融资# A轮融资# Vidu模型 4个月前
商汤科技杨帆:AI重构知识产权全链条效率,大模型加速专利转化与侵权监测 深度解读上海知识产权国际论坛核心议题:商汤科技展示AI如何通过大模型技术提升专利检索、侵权监测效率,实现知识产权全场景智能化,并分享AI与知识产权全球治理的前瞻思考。 AI新闻资讯# AI治理# 专利转化# 人工智能 3个月前
DeepSeek-OCR开源:30亿参数OCR模型实现长文本处理突破,97%识别精度引领多模态AI新范式 DeepSeek团队开源30亿参数OCR模型DeepSeek-OCR,采用创新光学压缩技术实现97%识别精度。该模型在长文本处理、多分辨率输入方面表现卓越,为金融、医疗、出版行业提供高效数字化解决方案... AI产品动态# AI开源模型# DeepSeek-OCR# OCR技术 4个月前
苹果多模态AI模型Manzano技术细节首度曝光,35亿参数支持2048像素处理 深度解析苹果Manzano多模态AI模型的混合分词器架构、35亿参数性能表现及其在iOS系统中的战略意义,对比GPT-4o技术优势。 AI新闻资讯# AI技术# GPT-5# iOS26 4个月前
苹果秘密研发多模态AI模型Manzano,剑指OpenAI与谷歌图像编辑霸主地位 深度揭秘苹果秘密研发的Manzano多模态AI模型:具备图像理解与生成双重能力,技术指标接近行业领先的GPT-4o和谷歌Gemini 2.5 Flash Image。分析苹果如何挑战现有AI市场格局... AI产品动态# AI竞赛# Manzano模型# OpenAI 4个月前
昆仑万维发布轻量级多模态AI智能体Skywork R1V4-Lite,多项性能超越Gemini 2.5系列 昆仑万维Skywork R1V4-Lite多模态智能体正式发布,集成视觉操作、深度推理与任务规划,在多项基准测试中超越Gemini 2.5系列,响应延迟降低19倍,为移动端AI应用提供高效解决方案。 AI产品动态# AI模型# Gemini对比# SkyworkR1V4-Lite 3个月前
OpenAI秘密测试GPT-Alpha智能体:基于GPT-5的多模态AI或将重塑行业 OpenAI被曝正在测试基于GPT-5模型的全新AI智能体GPT-Alpha。该技术突破传统生成式AI边界,支持文本、代码、图像多模态协同处理,具备高级推理与工具使用能力。本文详解其核心功能、应用场景... AI新闻资讯# AI技术# GPT-5# GPT-Alpha 4个月前