Grok-4大语言模型测试数据泄露,多项基准测试成绩超越主流模型 xAI公司尚未发布的Grok-4大语言模型在多项基准测试中表现优异,HLE测试得分达45%,远超OpenAI o3和Gemini 2.5 Pro。GPQA测试成绩与o3持平,SWE Bench和AIM... AI产品动态# AI# Grok-4# xAI 4个月前
DeepSeek公开大模型训练技术细节:预训练与优化训练双阶段突破,能耗降低30% DeepSeek公司公开大模型训练技术细节,涵盖预训练与优化训练双阶段,采用MoE架构和FP8混合精度,降低能耗30%,在数学推理和代码生成任务中表现突出,为AI行业提供技术参考与工程实践样本。 AI新闻资讯# AI技术# DeepSeek# MoE架构 2个月前
NewtonBench:港科大与英伟达推出AI科学发现评估新基准,模拟平行宇宙测试大模型推理能力 香港科技大学与英伟达联合研发的NewtonBench基准测试,通过模拟平行宇宙环境动态调整物理参数,系统性评估大语言模型的科学发现能力,解决训练数据泄漏问题,为下一代AI科研系统开发提供新范式。 AI新闻资讯# AI科学发现# NewtonBench# 基准测试 6天前