| 模型 | 题 1 代数 |
题 2 解析几何 |
题 3 数论 |
题 4 组合 |
题 5 极限 |
题 6 概率 |
合计 / 60 |
|---|---|---|---|---|---|---|---|
| opus claude-opus-4-7 |
10 | 10 | 10 | 10 | 10 | 10 | 60 / 60 |
| deepseek deepseek-v4-pro |
10 | 10 | 10 | 10 | 10 | 10 | 60 / 60 |
| MiMo mimo-v2.5-pro |
10 | 10 | 10 | 10 | 0 | 10 | 50 / 60 |
| kimi kimi-k2.6 |
10 | 10 | 10 | 10 | 10 | 10 | 60 / 60 |
| 磐石100 S1-Base-Ultra |
10 | 10 | 0 | 0 | 5* | 0 | 25 / 60 |
| 模型 | 题 1 | 题 2 | 题 3 | 题 4 | 题 5 | 题 6 |
|---|---|---|---|---|---|---|
| opus | 18.6 | 80.8 | 57.5 | 926.1 | 32.6 | 45.7 |
| deepseek | 40.3 | 169.7 | 148.9 | 284.8 | 103.3 | 152.3 |
| MiMo 单轮推理 · 无工具调用 |
~240 | ~240 | ~240 | ~240 | ~240 | ~240 |
| kimi 单轮推理 · 无工具调用 |
461.2 | 304.6 | 146.9 | 1226.5 | 115.8 | 182.1 |
| 磐石100 单次记录 |
277 | 849 | 864 ⚠ | 472 ⚠ | 753 ⚠ | — |
⚠ 磐石100 题 3、题 4、题 6 全部空输出:思考阶段消耗满 8192 completion tokens(约 1.4-1.5 万 reasoning tokens),finish_reason=length,正式回答 content_len=0。
题 5 推导文本写到一半被截断,但 $\pi^2/12$ 已作为渐近展开的二阶系数写出(按部分分给 5/10)。
题 6 多次尝试均空输出。
opus 题 4 耗时显著偏高(~21 分钟):单题进入了多轮 tool-use 循环(暴力枚举 + 代码验证),并非单次推理时间。
设 $a, b, c$ 为正实数,且满足 $abc = 1$。求
$$\frac{a^3}{(1+b)(1+c)} + \frac{b^3}{(1+c)(1+a)} + \frac{c^3}{(1+a)(1+b)}$$
的最小值。
要求:给出最小值的精确数值,并指出取等条件。
已知椭圆 $\dfrac{x^2}{4} + y^2 = 1$ 上一点 $P\!\left(1,\ \dfrac{\sqrt{3}}{2}\right)$。过 $P$ 作两条直线,斜率分别为 $k_1, k_2$,且满足 $k_1 k_2 = -\dfrac{1}{4}$。两直线分别交椭圆于另一点 $A$ 和 $B$。
求直线 $AB$ 所过的定点的坐标。
要求:给出定点坐标,并简述推导思路。
求所有正整数对 $(a, b)$,使得 $7^a - 3 \cdot 2^b = 1.$
要求:列出所有解,并说明为何不存在其它解。
content_len = 0。
✻ Churned for 14m 24s
将一个 $4 \times 4$ 网格的每个方格染上红、蓝、绿三种颜色之一,要求:
求满足上述条件的染色方案总数。
要求:给出准确的整数答案。
✻ Worked for 7m 52s
求极限
$$\lim_{n \to \infty}\ n^2 \left( \int_0^1 \frac{1}{1+x^n}\,\mathrm{d}x \;-\; 1 \;+\; \frac{\ln 2}{n} \right).$$
要求:给出极限的精确封闭形式。
100 名乘客按编号 $1, 2, \dots, 100$ 的顺序依次登机,每人对应一个固定座位,编号与乘客号一致。规则如下:
求 100 号乘客最终坐到自己(100 号)座位的概率。
要求:给出精确分数(最简形式)。