Benchmark 01 · 数学推理五模型对比

代数 · 解析几何 · 数论 · 组合 · 微积分 · 概率 — 共 6 题，每题 10 分，每模型独立采样 3 次

参评模型

opus · deepseek · MiMo · kimi · 磐石100

opus

claude-opus-4-7

deepseek

deepseek-v4-pro

MiMo

mimo-v2.5-pro

kimi

kimi-k2.6 · Moonshot

磐石100

S1-Base-Ultra (S1-671B)

题目难度

清北强基笔试 ~ Putnam 中段

评分规则

最终答案错误即 0 分；正确答案后再加思路分

总览总分对照 · 平均耗时

模型	题 1 代数	题 2 解析几何	题 3 数论	题 4 组合	题 5 极限	题 6 概率	合计 / 60
opus claude-opus-4-7	10	10	10	10	10	10	60 / 60
deepseek deepseek-v4-pro	10	10	10	10	10	10	60 / 60
MiMo mimo-v2.5-pro	10	10	10	10	0	10	50 / 60
kimi kimi-k2.6	10	10	10	10	10	10	60 / 60
磐石100 S1-Base-Ultra	10	10	0	0	5*	0	25 / 60

单题平均耗时（3 次运行均值，单位：秒）

模型	题 1	题 2	题 3	题 4	题 5	题 6
opus	18.6	80.8	57.5	926.1	32.6	45.7
deepseek	40.3	169.7	148.9	284.8	103.3	152.3
MiMo 单轮推理 · 无工具调用	~240	~240	~240	~240	~240	~240
kimi 单轮推理 · 无工具调用	461.2	304.6	146.9	1226.5	115.8	182.1
磐石100 单次记录	277	849	864 ⚠	472 ⚠	753 ⚠	—

⚠ 磐石100 题 3、题 4、题 6 全部空输出：思考阶段消耗满 8192 completion tokens（约 1.4-1.5 万 reasoning tokens），finish_reason=length，正式回答 content_len=0。 题 5 推导文本写到一半被截断，但 $\pi^2/12$ 已作为渐近展开的二阶系数写出（按部分分给 5/10）。题 6 多次尝试均空输出。
opus 题 4 耗时显著偏高（~21 分钟）：单题进入了多轮 tool-use 循环（暴力枚举 + 代码验证），并非单次推理时间。

题 1 · 代数 / 不等式 10 分

题面

设 $a, b, c$ 为正实数，且满足 $abc = 1$。求

$$\frac{a^3}{(1+b)(1+c)} + \frac{b^3}{(1+c)(1+a)} + \frac{c^3}{(1+a)(1+b)}$$

的最小值。

要求：给出最小值的精确数值，并指出取等条件。

标准答案

最小值 $= \dfrac{3}{4}$，取等条件 $a = b = c = 1$。

评分细则：答案 3/4：8 分 · AM-GM 拆分：+1 · 取等条件：+1

opusclaude-opus-4-7

✓ 10 / 10

耗时 19.5s output 1367 tok 3 次运行答案一致

deepseekdeepseek-v4-pro

✓ 10 / 10

耗时 31.3s completion 1026 tok reasoning 784 tok 3 次运行答案一致

MiMomimo-v2.5-pro

✓ 10 / 10

耗时 ~240s turns 1 (单轮推理) 3 次运行答案一致

kimikimi-k2.6

✓ 10 / 10

耗时 398.4s (run1) output 2043 tok reasoning 25344 tok best-of-3 满分；run3 reasoning 截断空输出

磐石100S1-Base-Ultra (S1-671B)

✓ 10 / 10

耗时 277s (4m37s) cogitated 4m37s 单次运行 / 答案正确

题 2 · 解析几何 10 分

题面

已知椭圆 $\dfrac{x^2}{4} + y^2 = 1$ 上一点 $P\!\left(1,\ \dfrac{\sqrt{3}}{2}\right)$。过 $P$ 作两条直线，斜率分别为 $k_1, k_2$，且满足 $k_1 k_2 = -\dfrac{1}{4}$。两直线分别交椭圆于另一点 $A$ 和 $B$。

求直线 $AB$ 所过的定点的坐标。

要求：给出定点坐标，并简述推导思路。

标准答案

定点 $= (0, 0)$（即原点 / 椭圆中心）。

评分细则：答案 (0,0)：8 分 · 完整推导（联立椭圆方程 + 韦达定理 + 对称性论证）：+2

opusclaude-opus-4-7

✓ 10 / 10

耗时 62.7s output 6629 tok 3 次运行答案一致

deepseekdeepseek-v4-pro

✓ 10 / 10

耗时 214.7s completion 7306 tok reasoning 6835 tok 3 次运行答案一致

MiMomimo-v2.5-pro

✓ 10 / 10

耗时 ~240s turns 1 (单轮推理) 2/3 次正确 (run3 错误)

kimikimi-k2.6

✓ 10 / 10

耗时 467.2s (run1) output 1665 tok reasoning 37308 tok 3 次运行答案一致

磐石100S1-Base-Ultra (S1-671B)

✓ 10 / 10

耗时 849s (14m9s) sautéed 14m9s 单次运行 / 答案正确（推导末段被输出长度截断）

题 3 · 数论 10 分

题面

求所有正整数对 $(a, b)$，使得 $7^a - 3 \cdot 2^b = 1.$

要求：列出所有解，并说明为何不存在其它解。

标准答案

$(a, b) = (1, 1)$ 与 $(2, 4)$。

评分细则：找到 (1,1)：3 分 · 找到 (2,4)：3 分 · 严格论证唯一性（mod 8 / mod 16 + 因式分解 + 互素分析）：+4。仅列两组解未论证唯一性最高 6 分。

opusclaude-opus-4-7

✓ 10 / 10

耗时 50.3s output 4886 tok 3 次运行答案一致

deepseekdeepseek-v4-pro

✓ 10 / 10

耗时 150.0s completion 4987 tok reasoning 3975 tok 3 次运行答案一致

MiMomimo-v2.5-pro

✓ 10 / 10

耗时 ~240s turns 1 (单轮推理) 3 次运行答案一致

kimikimi-k2.6

✓ 10 / 10

耗时 95.3s (run1) turns 1 output 3907 tok 3 次运行答案一致

磐石100S1-Base-Ultra (S1-671B)

✗ 0 / 10

耗时 864s (14m24s) reasoning ~14000 tok 空输出（finish_reason = length）

思考阶段被截断，无最终答案输出 模型在思考阶段消耗了全部 8192 completion token 预算，content_len = 0。

原始记录：✻ Churned for 14m 24s

题 4 · 组合计数（自编） 10 分

题面

将一个 $4 \times 4$ 网格的每个方格染上红、蓝、绿三种颜色之一，要求：

每一行中所用的颜色种类不超过 2 种；
每一列中所用的颜色种类不超过 2 种。

求满足上述条件的染色方案总数。

要求：给出准确的整数答案。

标准答案

$473121$

评分细则：答案 473121：10 分（误差 ±0，无部分分）。备注：允许使用代码辅助验证。

opusclaude-opus-4-7

✓ 10 / 10

耗时 1284.4s (~21min) turns 3 output 127795 tok 3 次答案一致；run3 仅 43.9s

deepseekdeepseek-v4-pro

✓ 10 / 10

耗时 350.1s turns 7 3 次答案一致

MiMomimo-v2.5-pro

✓ 10 / 10

耗时 ~240s turns 1 (单轮推理) 3 次运行答案一致

kimikimi-k2.6

✓ 10 / 10

耗时 1290.6s (run1) turns 12 output 27448 tok best-of-3 满分；run3 超时 (~2233s)

磐石100S1-Base-Ultra (S1-671B)

✗ 0 / 10

耗时 472s (7m52s) 空输出（finish_reason = length）

思考阶段被截断，无最终答案输出 组合计数题对推理链长度要求高，模型耗尽 token 预算后未能给出答案。

原始记录：✻ Worked for 7m 52s

题 5 · 微积分极限（自编） 10 分

题面

求极限

$$\lim_{n \to \infty}\ n^2 \left( \int_0^1 \frac{1}{1+x^n}\,\mathrm{d}x \;-\; 1 \;+\; \frac{\ln 2}{n} \right).$$

要求：给出极限的精确封闭形式。

标准答案

$\dfrac{\pi^2}{12}$

评分细则：答案 $\pi^2/12$：8 分 · 写出第二项展开（涉及 $\int_0^\infty \frac{t}{1+e^t}\,dt$ 或等价形式）的推导：+2

opusclaude-opus-4-7

✓ 10 / 10

耗时 33.7s output 3685 tok 3 次运行答案一致

deepseekdeepseek-v4-pro

✓ 10 / 10

耗时 81.9s completion 2789 tok reasoning 2288 tok 3 次运行答案一致

MiMomimo-v2.5-pro

✗ 0 / 10

耗时 ~240s turns 1 (单轮推理) 3 次运行全部错误

3 次运行均未能得到 π²/12 模型在三次独立运行中均未正确识别积分展开的二阶项系数 π²/12。

kimikimi-k2.6

✓ 10 / 10

耗时 103.5s (run1) turns 1 output 5167 tok 3 次运行答案一致

磐石100S1-Base-Ultra (S1-671B)

⚠ 5 / 10 · 部分分

耗时 753s (12m33s) crunched 12m33s 推导被截断 / 二阶系数 π²/12 已写出

题 6 · 概率（自编） 10 分

题面

100 名乘客按编号 $1, 2, \dots, 100$ 的顺序依次登机，每人对应一个固定座位，编号与乘客号一致。规则如下：

1 号乘客：以 $\dfrac{1}{2}$ 的概率坐到自己的 1 号座位；以另外 $\dfrac{1}{2}$ 的概率，从剩余 99 个座位（即 2~100 号座位）中等概率随机选一个就座。
第 $k$ 号乘客（$k = 2, 3, \dots, 100$）：若自己的 $k$ 号座位仍空着，则坐自己的座位；否则从所有当前仍空着的座位中等概率随机选一个就座。

求 100 号乘客最终坐到自己（100 号）座位的概率。

要求：给出精确分数（最简形式）。

标准答案

$\dfrac{74}{99}$

评分细则：答案 74/99：7 分 · 正确识别"标准飞机题答案恒为 1/2"作为子问题归约：+2 · 处理"1 号选中 100 号座"的边界情形（贡献为 0）：+1

opusclaude-opus-4-7

✓ 10 / 10

耗时 41.3s output 3298 tok 3 次运行答案一致

deepseekdeepseek-v4-pro

✓ 10 / 10

耗时 187.2s completion 6293 tok reasoning 5781 tok 3 次运行答案一致

MiMomimo-v2.5-pro

✓ 10 / 10

耗时 ~240s turns 1 (单轮推理) 2/3 次正确 (1 次错误)

kimikimi-k2.6

✓ 10 / 10

耗时 227.0s (run1) turns 1 output 10901 tok 3 次运行答案一致

磐石100S1-Base-Ultra (S1-671B)

✗ 0 / 10

空输出

无有效输出 模型在多次尝试中均未能在 token 预算内给出最终答案。

Benchmark 01 · 数学推理五模型对比

总览 总分对照 · 平均耗时

单题平均耗时（3 次运行均值，单位：秒）

题 1 · 代数 / 不等式 10 分

题面

题 2 · 解析几何 10 分

题面

题 3 · 数论 10 分

题面

题 4 · 组合计数（自编） 10 分

题面

题 5 · 微积分极限（自编） 10 分

题面

题 6 · 概率（自编） 10 分

题面

总览总分对照 · 平均耗时