谷歌Gemini 3深度思考模式正式开放:性能全面超越Pro版,AI推理能力再突破 2025年12月5日,谷歌正式开放Gemini 3的深度思考模式(Deep Think),在GPQA、AIME等测试中性能全面超越Pro版本。该模式提升多模态融合、代码生成及安全防护能力,已集成至Ge... AI产品动态# AI安全# AI模型# Gemini3 1周前
英伟达发布全模态理解模型OmniVinci,多模态基准测试领先19.05% 英伟达发布革命性全模态理解模型OmniVinci,在多模态基准测试中以19.05%优势领先,训练数据消耗仅0.2万亿Token,效率提升6倍。创新OmniAlignNet模块和时序编码技术实现精准跨模... AI产品动态# AI训练效率# OmniVinci# 人工智能模型 2个月前
NewtonBench:港科大与英伟达推出AI科学发现评估新基准,模拟平行宇宙测试大模型推理能力 香港科技大学与英伟达联合研发的NewtonBench基准测试,通过模拟平行宇宙环境动态调整物理参数,系统性评估大语言模型的科学发现能力,解决训练数据泄漏问题,为下一代AI科研系统开发提供新范式。 AI新闻资讯# AI科学发现# NewtonBench# 基准测试 2个月前
DeepSeek公开大模型训练技术细节:预训练与优化训练双阶段突破,能耗降低30% DeepSeek公司公开大模型训练技术细节,涵盖预训练与优化训练双阶段,采用MoE架构和FP8混合精度,降低能耗30%,在数学推理和代码生成任务中表现突出,为AI行业提供技术参考与工程实践样本。 AI新闻资讯# AI技术# DeepSeek# MoE架构 3个月前
Grok-4大语言模型测试数据泄露,多项基准测试成绩超越主流模型 xAI公司尚未发布的Grok-4大语言模型在多项基准测试中表现优异,HLE测试得分达45%,远超OpenAI o3和Gemini 2.5 Pro。GPQA测试成绩与o3持平,SWE Bench和AIM... AI产品动态# AI# Grok-4# xAI 5个月前