视觉语言模型

Meta与港科大等团队发布的VL-JEPA模型以16亿参数实现媲美720亿参数模型的性能，通过非生成式连续嵌入预测技术突破实时视觉-语言理解瓶颈，降低80%计算成本，为可穿戴设备与机器人提供高效多模态...

5个月前

由前OpenAI CTO Mira Murati创立的Thinking Machines Lab正式开放Tinker AI平台，集成万亿参数Kimi K2推理模型与Qwen3-VL视觉语言模型，支持多...

5个月前

阿里巴巴通义千问团队最新发布Qwen3-VL 2B和32B版本，在STEM问答、视觉理解等多项测试中超越GPT-5 mini和Claude 4 Sonnet。32B模型仅用少量参数实现与235B模型竞...

7个月前

清华大学与智谱AI联合研发的Glyph框架实现突破性进展，通过视觉-文本压缩机制达到3-4倍文本压缩率，128K上下文窗口VLM可处理百万级token内容，显著提升内存效率与推理速度，为金融法律等领域...

7个月前

阿里通义千问正式开源Qwen3-VL系列视觉理解模型，4B与8B版本通过密集架构实现显存优化，在STEM问答、VQA、OCR等任务中综合性能领先竞品，支持端侧实时AI应用，推动国产多模态模型小型化技术...

7个月前

苹果正式开放FastVLM视觉语言模型浏览器试用版，该模型依托MLX框架实现85倍速视频字幕生成能力，支持Mac设备本地运行且无需云端依赖。探索其在社交媒体、在线教育及视障辅助领域的革命性应用，体验低...

9个月前

吉林大学研发ScreenExplorer智能体实现GUI自主探索与操作，融合强化学习与大模型技术，推动AGI发展。该成果已应用于跨平台测试及无障碍辅助领域，技术代码开源共享。

11个月前