阿里通义千问开源Qwen3-VL视觉理解模型,4B/8B双版本实现多模态突破 阿里通义千问正式开源Qwen3-VL系列视觉理解模型,4B与8B版本通过密集架构实现显存优化,在STEM问答、VQA、OCR等任务中综合性能领先竞品,支持端侧实时AI应用,推动国产多模态模型小型化技术... AI产品动态# AI部署# Qwen3-VL# 具身智能 3天前
苹果开放FastVLM浏览器试用版:本地运行85倍速视频字幕生成,重塑AI交互体验 苹果正式开放FastVLM视觉语言模型浏览器试用版,该模型依托MLX框架实现85倍速视频字幕生成能力,支持Mac设备本地运行且无需云端依赖。探索其在社交媒体、在线教育及视障辅助领域的革命性应用,体验低... AI产品动态# AI视频字幕# AppleSilicon# HuggingFace 2个月前
吉林大学AI重大突破:ScreenExplorer智能体实现GUI自主操作 吉林大学研发ScreenExplorer智能体实现GUI自主探索与操作,融合强化学习与大模型技术,推动AGI发展。该成果已应用于跨平台测试及无障碍辅助领域,技术代码开源共享。 AI新闻资讯# AGI# GUI操作# ScreenExplorer 4个月前