Benchmark 01 · 数学推理五模型对比

代数 · 解析几何 · 数论 · 组合 · 微积分 · 概率 — 共 6 题,每题 10 分,每模型独立采样 3 次
参评模型
opus · deepseek · MiMo · kimi · 磐石100
opus
claude-opus-4-7
deepseek
deepseek-v4-pro
MiMo
mimo-v2.5-pro
kimi
kimi-k2.6 · Moonshot
磐石100
S1-Base-Ultra (S1-671B)
题目难度
清北强基笔试 ~ Putnam 中段
评分规则
最终答案错误即 0 分;正确答案后再加思路分

总览 总分对照 · 平均耗时

模型 题 1
代数
题 2
解析几何
题 3
数论
题 4
组合
题 5
极限
题 6
概率
合计 / 60
opus
claude-opus-4-7
101010 101010 60 / 60
deepseek
deepseek-v4-pro
101010 101010 60 / 60
MiMo
mimo-v2.5-pro
101010 10010 50 / 60
kimi
kimi-k2.6
101010 101010 60 / 60
磐石100
S1-Base-Ultra
1010 00 5* 0 25 / 60

单题平均耗时(3 次运行均值,单位:秒)

模型 题 1题 2题 3题 4题 5题 6
opus 18.6 80.8 57.5 926.1 32.6 45.7
deepseek 40.3 169.7 148.9 284.8 103.3 152.3
MiMo
单轮推理 · 无工具调用
~240~240~240~240~240~240
kimi
单轮推理 · 无工具调用
461.2 304.6 146.9 1226.5 115.8 182.1
磐石100
单次记录
277 849 864 ⚠ 472 ⚠ 753 ⚠

磐石100 题 3、题 4、题 6 全部空输出:思考阶段消耗满 8192 completion tokens(约 1.4-1.5 万 reasoning tokens),finish_reason=length,正式回答 content_len=0题 5 推导文本写到一半被截断,但 $\pi^2/12$ 已作为渐近展开的二阶系数写出(按部分分给 5/10)。 题 6 多次尝试均空输出。
opus 题 4 耗时显著偏高(~21 分钟):单题进入了多轮 tool-use 循环(暴力枚举 + 代码验证),并非单次推理时间。

题 1 · 代数 / 不等式 10 分

题面

设 $a, b, c$ 为正实数,且满足 $abc = 1$。求

$$\frac{a^3}{(1+b)(1+c)} + \frac{b^3}{(1+c)(1+a)} + \frac{c^3}{(1+a)(1+b)}$$

的最小值。

要求:给出最小值的精确数值,并指出取等条件。

标准答案
最小值 $= \dfrac{3}{4}$,取等条件 $a = b = c = 1$。
评分细则:答案 3/4:8 分 · AM-GM 拆分:+1 · 取等条件:+1
opusclaude-opus-4-7
✓ 10 / 10
耗时 19.5s output 1367 tok 3 次运行答案一致
deepseekdeepseek-v4-pro
✓ 10 / 10
耗时 31.3s completion 1026 tok reasoning 784 tok 3 次运行答案一致
MiMomimo-v2.5-pro
✓ 10 / 10
耗时 ~240s turns 1 (单轮推理) 3 次运行答案一致
kimikimi-k2.6
✓ 10 / 10
耗时 398.4s (run1) output 2043 tok reasoning 25344 tok best-of-3 满分;run3 reasoning 截断空输出
磐石100S1-Base-Ultra (S1-671B)
✓ 10 / 10
耗时 277s (4m37s) cogitated 4m37s 单次运行 / 答案正确

题 2 · 解析几何 10 分

题面

已知椭圆 $\dfrac{x^2}{4} + y^2 = 1$ 上一点 $P\!\left(1,\ \dfrac{\sqrt{3}}{2}\right)$。过 $P$ 作两条直线,斜率分别为 $k_1, k_2$,且满足 $k_1 k_2 = -\dfrac{1}{4}$。两直线分别交椭圆于另一点 $A$ 和 $B$。

求直线 $AB$ 所过的定点的坐标。

要求:给出定点坐标,并简述推导思路。

标准答案
定点 $= (0, 0)$(即原点 / 椭圆中心)。
评分细则:答案 (0,0):8 分 · 完整推导(联立椭圆方程 + 韦达定理 + 对称性论证):+2
opusclaude-opus-4-7
✓ 10 / 10
耗时 62.7s output 6629 tok 3 次运行答案一致
deepseekdeepseek-v4-pro
✓ 10 / 10
耗时 214.7s completion 7306 tok reasoning 6835 tok 3 次运行答案一致
MiMomimo-v2.5-pro
✓ 10 / 10
耗时 ~240s turns 1 (单轮推理) 2/3 次正确 (run3 错误)
kimikimi-k2.6
✓ 10 / 10
耗时 467.2s (run1) output 1665 tok reasoning 37308 tok 3 次运行答案一致
磐石100S1-Base-Ultra (S1-671B)
✓ 10 / 10
耗时 849s (14m9s) sautéed 14m9s 单次运行 / 答案正确(推导末段被输出长度截断)

题 3 · 数论 10 分

题面

求所有正整数对 $(a, b)$,使得 $7^a - 3 \cdot 2^b = 1.$

要求:列出所有解,并说明为何不存在其它解。

标准答案
$(a, b) = (1, 1)$ 与 $(2, 4)$。
评分细则:找到 (1,1):3 分 · 找到 (2,4):3 分 · 严格论证唯一性(mod 8 / mod 16 + 因式分解 + 互素分析):+4。仅列两组解未论证唯一性最高 6 分。
opusclaude-opus-4-7
✓ 10 / 10
耗时 50.3s output 4886 tok 3 次运行答案一致
deepseekdeepseek-v4-pro
✓ 10 / 10
耗时 150.0s completion 4987 tok reasoning 3975 tok 3 次运行答案一致
MiMomimo-v2.5-pro
✓ 10 / 10
耗时 ~240s turns 1 (单轮推理) 3 次运行答案一致
kimikimi-k2.6
✓ 10 / 10
耗时 95.3s (run1) turns 1 output 3907 tok 3 次运行答案一致
磐石100S1-Base-Ultra (S1-671B)
✗ 0 / 10
耗时 864s (14m24s) reasoning ~14000 tok 空输出(finish_reason = length)
思考阶段被截断,无最终答案输出 模型在思考阶段消耗了全部 8192 completion token 预算,content_len = 0

原始记录:✻ Churned for 14m 24s

题 4 · 组合计数(自编) 10 分

题面

将一个 $4 \times 4$ 网格的每个方格染上红、蓝、绿三种颜色之一,要求:

求满足上述条件的染色方案总数。

要求:给出准确的整数答案。

标准答案
$473121$
评分细则:答案 473121:10 分(误差 ±0,无部分分)。备注:允许使用代码辅助验证。
opusclaude-opus-4-7
✓ 10 / 10
耗时 1284.4s (~21min) turns 3 output 127795 tok 3 次答案一致;run3 仅 43.9s
deepseekdeepseek-v4-pro
✓ 10 / 10
耗时 350.1s turns 7 3 次答案一致
MiMomimo-v2.5-pro
✓ 10 / 10
耗时 ~240s turns 1 (单轮推理) 3 次运行答案一致
kimikimi-k2.6
✓ 10 / 10
耗时 1290.6s (run1) turns 12 output 27448 tok best-of-3 满分;run3 超时 (~2233s)
磐石100S1-Base-Ultra (S1-671B)
✗ 0 / 10
耗时 472s (7m52s) 空输出(finish_reason = length)
思考阶段被截断,无最终答案输出 组合计数题对推理链长度要求高,模型耗尽 token 预算后未能给出答案。

原始记录:✻ Worked for 7m 52s

题 5 · 微积分极限(自编) 10 分

题面

求极限

$$\lim_{n \to \infty}\ n^2 \left( \int_0^1 \frac{1}{1+x^n}\,\mathrm{d}x \;-\; 1 \;+\; \frac{\ln 2}{n} \right).$$

要求:给出极限的精确封闭形式。

标准答案
$\dfrac{\pi^2}{12}$
评分细则:答案 $\pi^2/12$:8 分 · 写出第二项展开(涉及 $\int_0^\infty \frac{t}{1+e^t}\,dt$ 或等价形式)的推导:+2
opusclaude-opus-4-7
✓ 10 / 10
耗时 33.7s output 3685 tok 3 次运行答案一致
deepseekdeepseek-v4-pro
✓ 10 / 10
耗时 81.9s completion 2789 tok reasoning 2288 tok 3 次运行答案一致
MiMomimo-v2.5-pro
✗ 0 / 10
耗时 ~240s turns 1 (单轮推理) 3 次运行全部错误
3 次运行均未能得到 π²/12 模型在三次独立运行中均未正确识别积分展开的二阶项系数 π²/12。
kimikimi-k2.6
✓ 10 / 10
耗时 103.5s (run1) turns 1 output 5167 tok 3 次运行答案一致
磐石100S1-Base-Ultra (S1-671B)
⚠ 5 / 10 · 部分分
耗时 753s (12m33s) crunched 12m33s 推导被截断 / 二阶系数 π²/12 已写出

题 6 · 概率(自编) 10 分

题面

100 名乘客按编号 $1, 2, \dots, 100$ 的顺序依次登机,每人对应一个固定座位,编号与乘客号一致。规则如下:

求 100 号乘客最终坐到自己(100 号)座位的概率。

要求:给出精确分数(最简形式)。

标准答案
$\dfrac{74}{99}$
评分细则:答案 74/99:7 分 · 正确识别"标准飞机题答案恒为 1/2"作为子问题归约:+2 · 处理"1 号选中 100 号座"的边界情形(贡献为 0):+1
opusclaude-opus-4-7
✓ 10 / 10
耗时 41.3s output 3298 tok 3 次运行答案一致
deepseekdeepseek-v4-pro
✓ 10 / 10
耗时 187.2s completion 6293 tok reasoning 5781 tok 3 次运行答案一致
MiMomimo-v2.5-pro
✓ 10 / 10
耗时 ~240s turns 1 (单轮推理) 2/3 次正确 (1 次错误)
kimikimi-k2.6
✓ 10 / 10
耗时 227.0s (run1) turns 1 output 10901 tok 3 次运行答案一致
磐石100S1-Base-Ultra (S1-671B)
✗ 0 / 10
空输出
无有效输出 模型在多次尝试中均未能在 token 预算内给出最终答案。