多模态AI

腾讯混元OCR开源模型发布：1B参数实现多项突破，OmniDocBench测评超越谷歌Gemini

腾讯发布开源OCR模型HunyuanOCR，以1B轻量化参数在OmniDocBench测评获94.1分超越谷歌Gemini，支持14种语种翻译并获ICDAR2025冠军，已在GitHub开源。

6个月前

阿里通义千问视觉模型登顶全球空间推理榜，超越GPT-5.1和Gemini 3

阿里云通义千问Qwen3-VL在权威空间推理测试SpatialBench中以13.5分登顶全球第一，超越GPT-5.1和Gemini 3等国际主流模型。该模型具备增强3D检测、视觉编程等创新功能，已在...

AI产品动态 # AI技术 # SpatialBench # 人工智能

6个月前

ChatGPT语音交互重大升级！语音模式全面整合至主界面，多模态体验再进化

OpenAI对ChatGPT语音功能进行重大升级，将语音模式全面整合至主界面，实现语音、文本、视觉内容实时同步显示，显著提升多模态人机交互体验，适用于教育、导航等多种场景。

AI产品动态 # ChatGPT # OpenAI # 人工智能升级

6个月前

腾讯开源10亿参数轻量OCR模型HunyuanOCR，多项基准测试达SOTA水平

腾讯正式开源1B参数轻量OCR模型HunyuanOCR，在OmniDocBench、OCRBench等权威测试中获SOTA成绩，支持14种语言识别，适用于文档解析、视频字幕识别等场景，推动AI文本识别...

AI产品动态 # HunyuanOCR # OCR模型 # 人工智能技术

6个月前

Anthropic发布Claude Opus 4.5：编程能力首超人类，API价格大幅下调三分之二

Anthropic于2025年发布Claude Opus 4.5 AI模型，在编程测试中首次超越人类表现，SWE-bench准确率达80.9%领先行业，同时API价格大幅下调三分之二，支持30小时连续...

AI产品动态 # AI模型 # Anthropic # API定价

6个月前

OpenAI宣布GPT-4o API服务将于2026年2月终止，开发者需迁移至GPT-5.1

OpenAI宣布GPT-4o API服务将于2026年2月16日正式终止，影响全球开发者。本文提供详细迁移指南、GPT-5.1性能优势分析及行业影响解读，帮助开发者顺利完成技术过渡。

AI产品动态 # AI技术升级 # API终止 # GPT-4o

6个月前

Luma AI完成90亿美元C轮融资，沙特PIF领投估值达400亿美元

2025年11月，美国AI视频公司Luma AI完成90亿美元C轮融资，沙特PIF旗下Humain领投，估值400亿美元。资金将用于加速多模态世界模型研发和建设2吉瓦AI超级计算集群，技术性能已超越O...

AI新闻资讯 # AGI # AI融资 # AMDVentures

6个月前

谷歌发布Gemini 3 Pro Image：多模态AI实现对话式图像编辑与4K高清生成

谷歌推出Gemini 3 Pro Image多模态AI模型，支持4K分辨率图像生成和对话式迭代编辑，在图像质量提升40%的同时集成Google搜索确保事实准确性，现已在Vertex AI平台开放调用。

AI产品动态 # AI技术 # Gemini3Pro # VertexAI

6个月前

Poe推出200人AI群聊功能！集成200+模型重塑协作体验

深度解析Poe最新推出的AI群聊功能：支持200人同时协作，集成200余个先进AI模型，具备智能调度系统和多设备同步技术，适用于家庭旅行规划、企业团队协作等多场景，重新定义人机交互模式。

AI产品动态 # AI群聊 # Poe平台 # Quora

6个月前

谷歌Gemini 3正式发布：全面超越GPT-5.1，AI竞赛进入”执行力”新时代

深度解析谷歌Gemini 3大模型：在LMArena以1501分超越GPT-5.1，GPQA Diamond测试达91.9%，配备生成式界面和Vibe Coding技术，重新定义AI执行力标准。了解G...

AI产品动态 # AI大模型 # GPT-5.1 # 人工智能竞赛

6个月前

腾讯混元OCR开源模型发布：1B参数实现多项突破，OmniDocBench测评超越谷歌Gemini

阿里通义千问视觉模型登顶全球空间推理榜，超越GPT-5.1和Gemini 3

ChatGPT语音交互重大升级！语音模式全面整合至主界面，多模态体验再进化

腾讯开源10亿参数轻量OCR模型HunyuanOCR，多项基准测试达SOTA水平

Anthropic发布Claude Opus 4.5：编程能力首超人类，API价格大幅下调三分之二

OpenAI宣布GPT-4o API服务将于2026年2月终止，开发者需迁移至GPT-5.1

Luma AI完成90亿美元C轮融资，沙特PIF领投估值达400亿美元

谷歌发布Gemini 3 Pro Image：多模态AI实现对话式图像编辑与4K高清生成

Poe推出200人AI群聊功能！集成200+模型重塑协作体验

谷歌Gemini 3正式发布：全面超越GPT-5.1，AI竞赛进入”执行力”新时代

热门AI工具

最新资讯