谷歌Gemini 3深度思考模式正式开放:性能全面超越Pro版,AI推理能力再突破

谷歌于2025年12月5日正式向Ultra订阅用户开放Gemini 3的深度思考模式(Deep Think),该功能在多项基准测试中展现出超越Pro版本的性能表现。此次更新标志着谷歌在多模态AI领域的又一次重大突破。

Gemini 3系列模型最初于2025年11月18日发布,其Deep Think模式通过延长推理链和自我纠错机制,显著提升了处理复杂问题的能力。在GPQA Diamond测试中,该模式取得91.9%的准确率,在数学竞赛AIME 2025中实现带工具执行的满分表现。与标准Pro版本相比,Deep Think模式在Humanity’s Last Exam(HLE)测试中将成绩从37.5%提升至45.8%(带工具),展现出更接近人类专家水平的推理深度。

多模态能力方面,Deep Think模式延续了Gemini 3原生跨模态融合的优势,可无缝解析文本、图像、视频等混合输入。在MMMU-Pro科学多模态测试中取得81%的分数,较前代提升23个百分点。其创新的生成式UI功能可根据查询自动创建动态交互界面,例如将学术论文转化为3D晶体结构模拟器,或把贷款查询转化为实时计算工具。

代码生成领域是该模式的另一突破点。在WebDev Arena排行榜上以1487分登顶,较Gemini 2.5 Pro提升近300分。SWE-bench Verified基准测试显示,其解决真实GitHub问题的能力达到76.2%,比前代提高18.3%。开发者可通过新推出的Antigravity平台实现多智能体协作编程,实测仅用239秒即可复刻剪映核心功能。

安全性能方面,谷歌宣称这是其史上最全面的安全评估模型。Deep Think模式显示出更低的谄媚倾向(降低42%),并具备更强的提示注入防护能力。英国AISI等机构参与的独立评估证实,该模型在网络攻击防护方面的误用率较行业平均水平低67%。

目前,Deep Think模式已集成至Gemini应用、AI搜索模式及Vertex AI企业平台。谷歌搜索产品副总裁Robby Stein透露,这是公司首次在新模型发布当日即完成搜索引擎整合。数据显示,集成Gemini 3的AI Overviews服务月活用户已达20亿,Gemini应用月活突破6.5亿。市场反应方面,模型发布当日Alphabet股价上涨5.8%,市值突破3.5万亿美元。

© 版权声明

相关文章