字节跳动Seed团队于2025年6月25日至26日陆续公布其AI模型在2025年高考全科测试中的表现。测试采用全国新一卷及山东省自主命题试卷,结果显示Gemini 2.5 Pro与豆包1.6-Thinking分别以655分和683分的成绩位列理科与文科榜首,其中豆包文科成绩较理科648分展现出更显著优势。
此次测试中,多模态能力成为关键变量。团队在后期采用高清试题图片重新评估时发现,豆包1.6-Thinking在生物、化学等依赖图像解析的科目中总分提升近30分,理科总分跃升至676分。这一现象验证了视觉信息精准解析对模型推理效率的强化作用,尤其在实验装置识别、分子结构分析等题型中表现突出。Gemini 2.5 Pro则凭借稳定的多模态处理能力,在原始测试条件下保持化学90分、生物100分的单科优势。
值得注意的是,测试全程未使用提示词工程引导,完全依赖模型自主推理。在文科领域,豆包1.6-Thinking的地理、历史成绩显著领先,其230B总参数的稀疏MoE架构与多模态预训练融合方案被证实有效;理科方面,物理科目成为豆包第二优势学科(94分),而Gemini则在数理化领域展现均衡实力。对比同期其他参赛模型,图像类问题占比超30%的化学、生物科目成为性能分水岭,网络图片的清晰度差异直接导致多数模型在这些环节失分。
团队同步披露的JEE Advanced印度理工学院入学考试测试表明,此类标准化评估能有效检验模型在多模态与跨语言推理上的泛化能力。目前主流模型虽在语数外等基础学科达到较高精度,但图文协同分析仍存在优化空间,这将成为下一代大模型技术攻关的重点方向。
© 版权声明
文章版权归作者所有,未经允许请勿转载。