6款AI大模型挑战高考数学！一款拿下148分，压轴题成分水岭

评测组小编 • 文章来源: 新京报 • 2026年6月8日下午9:49 • 评测

“6款主流大模型的解题能力整体表现呈现出清晰的梯队分化。”

6月7日，2026年全国高考数学科目考试落下帷幕，随后，多个数学相关的话题登上热搜。过去两年，AI行业迎来高速发展，大模型推理能力、数理分析能力持续进阶，如果让AI大模型化身“考生”应战高考数学试题，它们将有怎样的表现？

我们就此开展了一场评测，选取了6名以推理见长的大模型“考生”，分别是讯飞星火、DeepSeek、智谱、ChatGPT、Kimi、MiniMax，选取了2026年新高考I卷数学卷进行测评。

此次评测，我们还邀请了两位专业老师辅助对大模型的考卷进行评分，他们分别是：人大附中北京经济技术开发区学校高中数学教师、教研组长、北京市数学骨干教师韩静波，北京市中学数学特级教师、全国高中数理化名师俱乐部副理事长、中国数学奥林匹克高级教练丁益祥。

测试结果显示，6款主流大模型的解题能力整体表现呈现出梯队分化。有专家指出，当前大模型的数学能力竞争，已经从“能算出结果”转向了“过程严谨、逻辑完整、复杂问题可拆解”的高阶比拼。

6位大模型“考生”总体得分情况。新京报制图/卢子雄

6位“考生”总分呈现梯度分布

需要说明的是，由于用于测评的题目为根据网络流出的多个版本交叉验证后的试题（可能存在与真题试卷不完全相符的情况，但不影响测评进行，所有大模型“考生”使用的均为相同题目），共19道题目，总分为150分。

先来看这次“考试”各位大模型“考生”的总体得分（规范分）情况：讯飞星火以148分总成绩领先，其他“考生”总分数由高到低分别为：Kimi145分、DeepSeek144分、智谱143分、MiniMax142分、ChatGPT137分。

在基础题部分，各模型选择题与多选题实现全员满分，仅个别模型在填空题中出现失误。

解答题和解题过程的规范性是拉开差距的关键。几位大模型“考生”中，讯飞星火全程规范分与结果分完全一致，推理过程较为清晰，字符也较规范。丁益祥举例，其第15题第（2）小题，讯飞星火给出了几何法和向量法两种方法求解；而在第18题第（2）小题中的第①小问，它充分利用了平面几何中三角形面积之间的关系，第②小问利用了夹角公式，简化了运算。

同时丁益祥指出，在第18题第（2）小题中的第①小题这一题型上，“MiniMax卷”和“智谱卷”也利用了平面几何中三角形面积之间的关系处理问题，都有不错表现。

在解答题部分，有些模型则在不同程度上存在步骤失分，或者在解答题中因关键推导缺失或逻辑不连贯被扣减步骤分。

“考生”不同题目得分情况。新京报制图/卢子雄

压轴题成为区分模型复杂推理能力的分水岭

由于考题较多，在此仅挑选部分题目来呈现作答情况并请专家进行点评。

韩静波注意到，讯飞星火在解析第二问几何性质时分析得很好，做法简洁，还有一些题目给出了两种解法。“讯飞星火在数形结合、对图形几何性质的研究上明显优于其他模型。”

压轴题（第18、19题）成为区分模型复杂推理能力的分水岭。大部分模型在第18题中表现尚可，但在第19题中出现了明显的“后继乏力”，有“考生”仅得12分（满分17分），反映出部分大模型在处理多步骤、高复杂度逻辑链时仍存在能力瓶颈。

韩静波发现，最后一题（19题）中，DeepSeek在大众形式化的代数推导比较擅长，利用通性通法按部就班做长逻辑的推导比较擅长，但是数形结合，对图形几何性质的分析稍显欠缺，此外，利用题目的特殊性灵活处理问题能力不足。

大模型解数学题仍存在明显提升空间

“可以说‘某些思路雷同，答卷各有千秋’，但也有些大模型还有改进的空间。”对于这六份由大模型“考生”给出的数学高考答卷，北京市中学数学特级教师、全国高中数理化名师俱乐部副理事长、中国数学奥林匹克高级教练丁益祥点评道。

他以第15题第（1）小题为例，六份答卷一致地利用几何法证明；第18题第（1）小题，六份答卷一致地利用参数之间的关系求椭圆的标准方程；第19题第（1）小题，六份答卷一致地利用直接计算的方法求得结果。

丁益祥对试卷的批阅记录。

同时，丁益祥也指出了大模型需要改进的地方，包括知识运用不恰当、字符呈现不规范、部分解法不简练等问题。比如，“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智谱卷”在求解第18题第（2）小题中都利用了向量的叉乘运算。在求解第19题第（2）小题中，“DeepSeek卷”还利用了“上确界”的概念，“这些都是高等数学中的知识，高中未学过，在解答高考数学试题中一般不宜使用。”丁益祥说道。

“MiniMax卷、智谱卷中的字符不统一、不规范，给人的感觉较为凌乱，看不清。还比如ChatGPT卷第15题第（2）小题的几何法证明较繁琐，智谱卷中第19题第（3）小题的推导不简练……”丁益祥认为，这意味着在做数学题方面，大模型还有改进的空间。

总体而言，头部大模型在高考数学场景中已展现出一定的解题实力，不仅能算出正确结果，在以规范、严谨的过程呈现推导思路方面呈现出一定优势；也有部分模型虽在基础题上表现稳定，但在步骤规范性与复杂压轴题的推理能力上仍有明显提升空间。

本文来自转载新京报，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。