基准测试

谷歌Gemini 3 Flash在SWE-bench编程测试获78%高分，超越旗舰Pro版1.8个百分点！响应速度提升3倍，Token消耗降30%，定价仅为同类1/4。博士级推理GPQA达90.4...

5个月前

2025年12月5日，谷歌正式开放Gemini 3的深度思考模式（Deep Think），在GPQA、AIME等测试中性能全面超越Pro版本。该模式提升多模态融合、代码生成及安全防护能力，已集成至Ge...

6个月前

英伟达发布革命性全模态理解模型OmniVinci，在多模态基准测试中以19.05%优势领先，训练数据消耗仅0.2万亿Token，效率提升6倍。创新OmniAlignNet模块和时序编码技术实现精准跨模...

7个月前

香港科技大学与英伟达联合研发的NewtonBench基准测试，通过模拟平行宇宙环境动态调整物理参数，系统性评估大语言模型的科学发现能力，解决训练数据泄漏问题，为下一代AI科研系统开发提供新范式。

7个月前

DeepSeek公司公开大模型训练技术细节，涵盖预训练与优化训练双阶段，采用MoE架构和FP8混合精度，降低能耗30%，在数学推理和代码生成任务中表现突出，为AI行业提供技术参考与工程实践样本。

9个月前

xAI公司尚未发布的Grok-4大语言模型在多项基准测试中表现优异，HLE测试得分达45%，远超OpenAI o3和Gemini 2.5 Pro。GPQA测试成绩与o3持平，SWE Bench和AIM...

11个月前