吉林大学AI重大突破:ScreenExplorer智能体实现GUI自主操作 吉林大学研发ScreenExplorer智能体实现GUI自主探索与操作,融合强化学习与大模型技术,推动AGI发展。该成果已应用于跨平台测试及无障碍辅助领域,技术代码开源共享。 AI新闻资讯# AGI# GUI操作# ScreenExplorer 6个月前
阿里通义千问开源Qwen3-VL视觉理解模型,4B/8B双版本实现多模态突破 阿里通义千问正式开源Qwen3-VL系列视觉理解模型,4B与8B版本通过密集架构实现显存优化,在STEM问答、VQA、OCR等任务中综合性能领先竞品,支持端侧实时AI应用,推动国产多模态模型小型化技术... AI产品动态# AI部署# Qwen3-VL# 具身智能 2个月前
清华与智谱AI发布Glyph框架:实现3-4倍文本压缩,突破大模型长上下文处理瓶颈 清华大学与智谱AI联合研发的Glyph框架实现突破性进展,通过视觉-文本压缩机制达到3-4倍文本压缩率,128K上下文窗口VLM可处理百万级token内容,显著提升内存效率与推理速度,为金融法律等领域... AI产品动态# AI技术突破# Glyph框架# 文本压缩 2个月前
阿里通义千问发布Qwen3-VL 2B/32B新版本,实现全场景多模态AI覆盖 阿里巴巴通义千问团队最新发布Qwen3-VL 2B和32B版本,在STEM问答、视觉理解等多项测试中超越GPT-5 mini和Claude 4 Sonnet。32B模型仅用少量参数实现与235B模型竞... AI产品动态# AI开源# Qwen3-VL# 人工智能 2个月前
苹果开放FastVLM浏览器试用版:本地运行85倍速视频字幕生成,重塑AI交互体验 苹果正式开放FastVLM视觉语言模型浏览器试用版,该模型依托MLX框架实现85倍速视频字幕生成能力,支持Mac设备本地运行且无需云端依赖。探索其在社交媒体、在线教育及视障辅助领域的革命性应用,体验低... AI产品动态# AI视频字幕# AppleSilicon# HuggingFace 3个月前