科研大模型实测对比报告

Claude Opus 4.7 / DeepSeek V4 Pro / MiMo V2.5 Pro / Kimi K2.6 / 磐石100 — 三项 Benchmark 客观对比
2026 年 5 月 10 日 · 基于 3 项 Benchmark · 每模型 20 次独立运行
作者:中科院物理所 刘宗岳 王磊 组

§1 摘要

近一年,前沿商业大模型已成为科研人员日常工作的核心生产力工具,被广泛用于文献综述、论文写作、代码调试、数据分析等场景。

中科院体系内部署的磐石 100模型,基于 DeepSeek-R1 (671B 版本) 与 Qwen3 (8B/32B 版本) 微调,上下文长度限制为 32k 词元。同期商业模型的上下文长度已达 1024k 词元,相差约 32 倍。

本报告通过 3 项 Benchmark 实测(数学推理、代码调试、引用核查),客观对比五家大模型(Claude Opus 4.7、DeepSeek V4 Pro、MiMo V2.5 Pro、Kimi K2.6、磐石 100)实际表现。每个模型独立运行 20 次(数学 18 次 + 代码 1 次 + 引用 1 次),所有运行均可复现——原始输出、评分标准与验证脚本均已公开(见 01 / 02 / 03 详细报告)。

核心结论
  1. 能力差距显著:加权均分 deepseek 97.0、kimi 92.5、opus 91.5、MiMo 83.8、磐石100 25.8。磐石在三项任务中均垫底,MiMo 明显落后于前三。
  2. 系统性失败:磐石100 在 01 数学推理中 3/6 题空输出(推理词元耗尽),02 代码调试仅 0.4/10(turns=1,伪工具调用),03 引用核查 0/10(turns=1,从未实际搜索)。失败模式一致,非偶然(详见 §5.4)。
  3. 能力断档:磐石上下文仅 32k 词元,商业模型 1024k 词元,相差 32 倍。凡涉及 agent 工具调用、多轮反馈迭代、长文档分析的任务,磐石均不可用。

§2 测试方法 所有运行可复现

2.1 测试工具与接入方式

三项 Benchmark 均通过 Claude Code (CC) 命令行工具 (claude -p) 与模型交互。CC 按 Anthropic tool-use 协议管理 agent loop,提供 Read / Edit / Bash / WebSearch 等工具。各模型的接入方式如下:

模型 调用端点 01 数学推理 02 代码调试 / 03 引用核查
opus Anthropic 官方 API (OAuth Max) CC 单轮
工具启用 · 3 次独立采样
CC agent loop
沙盒隔离 · Read/Edit/Bash/WebSearch
deepseek DeepSeek Anthropic 兼容端点
api.deepseek.com/anthropic
CC 单轮
工具启用 · 3 次独立采样
CC agent loop
沙盒隔离 · Read/Edit/Bash/WebSearch
mimo Xiaomi MiMo Anthropic 兼容端点
token-plan-cn.xiaomimimo.com/anthropic
CC 单轮
工具启用 · 3 次独立采样
CC agent loop
沙盒隔离 · Read/Edit/Bash/WebSearch
kimi Moonshot Kimi Anthropic 兼容端点
api.moonshot.cn/anthropic
CC 单轮
工具启用 · 3 次独立采样
CC agent loop
沙盒隔离 · Read/Edit/Bash/WebSearch
磐石100 cstcloud OpenAI 兼容端点
uni-api.cstcloud.cn/v1
HTTP 流式单轮
无工具 · 3 次独立采样
CC agent loop
沙盒隔离 · 工具描述已注入但模型未执行

CC 接入方式:opus 使用 claude -p --model claude-opus-4-7 直接调用 Anthropic 官方 OAuth Max 订阅;deepseek 通过设置环境变量 ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic 将 CC 底层端点指向 DeepSeek 的 Anthropic 兼容 API;MiMo 同理指向 Xiaomi 端点 (mimo-v2.5-pro);kimi 同理指向 Moonshot 端点 (kimi-k2.6);磐石100 同理指向 cstcloud 端点 (S1-Base-Ultra)。所有调用参数、原始输出与运行脚本均保存在本项目仓库中,可重跑验证。

2.2 任务设计与评分规则

Benchmark任务评分规则采样
01 · 数学推理 6 道数学题(代数不等式 · 解析几何 · 数论 · 组合计数 · 微积分极限 · 条件概率)
难度:清北强基笔试 ~ Putnam 中段
每题 10 分。最终答案错误即 0 分;答案正确 + 推导思路正确即 10 分。 每模型每题 3 次独立调用
02 · 代码调试 含 5 处 Bug 的量子谐振子仿真项目
需在沙盒中定位修复全部 Bug 并通过物理验证
每 Bug 修复+findings 描述 1.5 × 5 = 7.5 · 无 warning/error 1.0 · 4 项物理判据各 0.375 = 1.5 · 满分 10 每模型 1 次 agent 运行
03 · 引用核查 LaTeX 论文含 23 条引用(8 处注入错误)
需作为审稿人逐条检索验证真实性与一致性
TP 识别 0.625 × 8 = 5 · 正确分类 0.625 × 8 = 5 · 假阳性每条 −0.5 · 下限 0 每模型 1 次 agent 运行

2.3 可复现性

所有评分基准公开在 solutions/ 目录下,包含正确答案和自动验证脚本。Benchmark 运行脚本 run_benchmark.pyrun_codedebug.pyrun_citation.py 可在相同环境下重跑验证。原始输出保存在 opus-answer/deepseek-answer/mimo-answer/kimi-answer/panshi100-answer/ 目录。

§3 五个模型是什么

3.1 磐石 100(中国科学院 / S1-Base 系列)

磐石 100 是中科院自动化研究所等单位联合研发的科学领域大模型体系,2026 年 4 月正式亮相。底座为磐石·科学基础大模型(S1-Base),提供 8B / 32B / 671B 三种参数规模。

根据 Hugging Face 官方模型卡,S1-Base-671B 训练自 DeepSeek-R1-671B,S1-Base-8B 与 S1-Base-32B 分别训练自 Qwen3-8B 与 Qwen3-32B。微调使用了 1.7 亿篇科学论文与数百万条高质量科学推理数据。所有版本上下文长度统一为 32k 词元。模型以 Apache 2.0 协议开源。

3.2 DeepSeek V4 Pro(深度求索)

DeepSeek V4 Pro 由杭州深度求索公司研发,2026 年发布。采用异构混合专家(MoE)架构,总参数 1.6 万亿,预训练数据 33 万亿词元。支持三档推理模式。上下文长度 1024k 词元,最大单次输出 38.4 万词元。API 国内可直接调用,标价:输入 ¥3 / 百万词元,输出 ¥6 / 百万词元。

3.3 Claude Opus 4.7(Anthropic)

Claude Opus 4.7 由美国 Anthropic 公司研发,2026 年发布,是国际公认在编程、长文档分析、复杂推理等任务上的第一梯队模型。上下文长度 1024k 词元,最大单次输出 12.8 万词元。API 仅以美元计价,折合人民币输入约 ¥36 / 百万词元,输出约 ¥180 / 百万词元。

3.4 MiMo V2.5 Pro(小米)

MiMo V2.5 Pro 由小米 AI 团队研发,2025 年末发布。为纯文本大语言模型,上下文长度 1024k 词元,支持工具调用与 agent 工作流。通过 Token Plan 订阅制提供服务,国内可直接访问(token-plan-cn.xiaomimimo.com)。在本次实测中通过 Anthropic 兼容端点接入 Claude Code,以与其模型完全一致的方式执行所有 Benchmark。

3.5 Kimi K2.6(月之暗面 / Moonshot AI)

Kimi K2.6 由北京月之暗面科技有限公司(Moonshot AI)研发,2026 年发布。为多模态大语言模型(支持文本与视觉输入),上下文长度 262k 词元,支持工具调用与 agent 工作流。通过 Moonshot Anthropic 兼容端点(api.moonshot.cn/anthropic)提供服务,国内可直接访问。本次实测通过 Anthropic 兼容端点接入 Claude Code,完成全部三项 Benchmark。

3.6 关键参数五方对比

维度 磐石 100 (S1-671B) DeepSeek V4 Pro Claude Opus 4.7 MiMo V2.5 Pro Kimi K2.6
研发方中科院自动化所等深度求索(杭州)Anthropic(美国)小米(北京)月之暗面(北京)
底座来源DeepSeek-R1 / Qwen3 微调自研 V4 系列自研 Opus 4 系列自研 MiMo 系列自研 Kimi 系列
参数规模671B(总参数)1.6T 总 / 49B 活跃未公开未公开未公开
上下文长度32k 词元1024k 词元1024k 词元1024k 词元262k 词元
训练数据量微调 1.7 亿论文预训练 33T 词元未公开(业界估计同量级)未公开未公开
参考单价
输入/输出 ¥/M 词元
¥3 / ¥6¥36 / ¥180订阅制¥6.5 / ¥27
适用场景短文本简单推理通用科研主力高难度复杂任务通用科研 · agent 工作流通用科研 · agent 工作流
关键事实

§4 为什么上下文长度能决定能不能用

注:下文用词元(token)作为计量单位。约 1 词元 ≈ 1.5 个汉字,1024k 词元约等于 150 万字。

4.1 聊天 vs Agent:两种完全不同的词元消耗

上下文长度不仅是"一次能装多少内容"。对科研场景而言,更关键的影响在于agentic workflow 的词元消耗是指数级的——每轮工具调用都在不断占用上下文。

纯聊天 vs Agent Loop:词元消耗对比(以 Benchmark 03 引用核查为例)
工作模式每轮消耗32k 可跑轮次262k 可跑轮次1024k 可跑轮次
纯聊天(一问一答)1–3k~20 轮~150 轮~500 轮
Agent 读文件 + 思考3–5k~8 轮~60 轮~250 轮
Agent + 工具调用 (WebSearch/Bash/Python)8–25k1–3 轮~15 轮~60 轮

纯聊天场景下 32k 词元绰绰有余——一次对话几十轮都不成问题。但一旦进入 agent 模式——读文件、分析、调用 Crossref API、阅读搜索结果、再分析——每轮轻松消耗 15–25k 词元。32k 窗口在 agent 模式下只能支撑 1–3 轮,根本跑不完一个完整的引用核查或 Bug 修复流程。

4.2 实验证据:turns 数量说明一切

在完全相同的 prompt 和工具描述下,同一套测试框架(Claude Code,claude -p)中五个模型的表现截然不同:

模型上下文02 代码调试 turns03 引用核查 turns是否完成 agent 工作流
opus1024k 词元2064✓ 完整
deepseek1024k 词元2165✓ 完整
MiMo1024k 词元~20~25✓ 完整
kimi262k 词元1963✓ 完整
磐石10032k 词元11✗ 首轮即止

磐石 100 在 02 和 03 中均为 turns=1——不是它"不想干活",而是 32k 上下文里塞进了 system prompt + 题目 + 工具协议描述之后,已经耗尽可用空间,模型只能立刻 end_turn。这也解释了为什么磐石在 01 纯数学推理(单轮、无工具调用)中部分题目仍能得出正确答案——不是"推理能力"有断档,是"上下文容量"让 agent 模式完全无法启动。

4.3 对实际科研任务的影响

科研任务 工作模式
所需典型轮次
磐石 32k Kimi 262k DeepSeek 1024k Claude 1024k MiMo 1024k
改一段论文摘要纯聊天,< 5 轮
写论文 introduction纯聊天,10–20 轮临界
单文件代码审阅 + 修改Agent,3–8 轮
多文件 Bug 修复(如 02)Agent + Bash,15–25 轮
论文引用核查(如 03,含 WebSearch)Agent + 搜索,30–70 轮
三篇论文交叉对比 + 综述Agent + 搜索,50–150 轮临界
大规模文献调研 / 代码库重构Agent 深度循环,200+ 轮临界临界临界
本节结论

4.5 速度与稳定性:同样的 Agent 任务,耗时差出 4 倍

上下文窗口决定了"能不能跑",而速度和稳定性决定了"跑起来之后好不好用"。在 agent 工作流中,速度的差异是乘数级的——每轮慢几秒,60 轮之后就是几十分钟的差距。

模型 02 代码 Debug 03 引用核查 单轮均速 (03) 稳定性问题
opus 130.8s · 20 turns 610.9s · 64 turns ~9.5s/turn 0 次
deepseek 464.5s · 21 turns 2495.0s · 65 turns ~38.4s/turn 0 次
mimo 327.7s · ~20 turns 848.8s · ~25 turns ~34.0s/turn 0 次
kimi 119.9s · 19 turns 2363.5s · 63 turns ~37.5s/turn 2 次
磐石100 225.8s · 1 turn 59.2s · 1 turn 系统性

关键发现:

  1. opus 速度碾压。同是跑完 03 引用核查(60+ turns),opus 仅需 10 分钟,deepseek 和 kimi 均超 39 分钟——4 倍差距。这不仅是等待时间问题:在实际开发中,如果你需要改一段代码、跑一下、看结果、再改——每次 agent 循环等 40 分钟 vs 等 10 分钟,迭代效率差出 4 倍。
  2. 磐石的"慢"不是速度问题,是失败问题。磐石在 01 数学推理中 Q5 耗时 753 秒(12 分 33 秒)——是所有模型中单题耗时最长的——但输出被截断,只得到 5 分。而在 02/03 中"快"(225s / 59s)是因为首轮就 end_turn 放弃——耗时没有意义。用户等待时间被白白浪费,却得不到可用结果。这就是"慢到没法用"的本质:不只是慢,是付出等待成本后依然失败。
  3. deepseek 速度垫底但质量顶格。03 中 65 turns 耗时 41 分钟,但 8/8 TP 全命中(唯一做到满分的模型)。速度与质量之间存在权衡——科研用户需要根据任务紧急程度选择。
速度与上下文窗口的叠加效应

§5 实测能力对比:三项 Benchmark 真实运行 · 全部有原始输出

本节通过 3 项 Benchmark 实测对比五个模型在科研任务上的表现。每项按统一标准打分(满分 10 分)。所有数据均来自真实运行,原始输出可在 01 / 02 / 03 详细报告中查看。

5.0 五模型总成绩单

模型 01 · 数学推理
6题 / 满分60
02 · 代码 Debug
5 Bug / 满分10
03 · 引用核查
8 错误 / 满分10
加权均分
(百分制)
opus claude-opus-4-7 · OAuth Max 60 / 60 10.0 / 10 5.75 / 10 91.5
deepseek deepseek-v4-pro[1m] · DS 官方 60 / 60 10.0 / 10 8.5 / 10 97.0
mimo mimo-v2.5-pro · Xiaomi Token Plan 50 / 60 10.0 / 10 6.9 / 10 83.8
kimi kimi-k2.6 · Moonshot API 60 / 60 10.0 / 10 6.25 / 10 92.5
磐石100 S1-Base-Ultra (S1-671B) · uni-api 25 / 60 0.4 / 10 0.0 / 10 25.8

加权说明:01 占 60% 权重(6 题 × 10 分),02、03 各占 20%(各 10 分)。注:01 数学每题独立运行 3 次(共 18 跑),下文「N 跑」指 3 次中的 N 次。
opus 在 03 中命中 6/8 错误(漏检 2 处位置错误),分类 4/8 准确(E5/E6 领域伪造未细分),1 条假阳性,得 5.75/10。 MiMo 在 01 中 Q5(极限题)三跑全错(0 分),Q2/Q6 各有一跑错误;03 中漏检 2 处位置错误,Reynolds2019 分类有偏差,得 6.9/10。 kimi 在 01 中 6 题均 10/10(best-of-3),有两跑失败(Q1 run3 reasoning截断空输出、Q4 run3 超时)但不影响得分。02 一跑 10/10。03 命中 6/8(漏检 E7/E8 位置错误),分类 4/8,0 假阳性,得 6.25/10。加权均分 92.5。 磐石 100 在三项任务中均垫底,与商业模型存在系统性差距。
详情:01 完整报告 · 02 完整报告 · 03 完整报告

5.1 Benchmark 01 · 数学推理 6 题 · 每模型采样 3 次 · 满分 60

题目范围:代数不等式 · 解析几何 · 数论 · 组合计数 · 微积分极限 · 条件概率。难度相当于清北强基笔试到 Putnam 中段。

评分规则:每题满分 10 分。最终答案错误即 0 分;答案正确后再加推导思路分。每模型每题独立采样 3 次。

模型题1 代数题2 几何题3 数论题4 组合题5 极限题6 概率合计 / 60
opus 101010101010 60
deepseek 101010101010 60
mimo 10101010010 50
kimi 101010101010 60
磐石100 1010005*0 25

磐石 100 失分分析:题 3、4、6 均为空输出——思考阶段消耗满 8192 completion tokens(finish_reason=length),正式回答 content_len=0。 题 5 推导到二阶系数 $\pi^2/12$ 后被截断,给 5/10 部分分。
kimi 失分情况:题 1 run3 思考词元耗尽导致空输出 (finish_reason=length),题 4 run3 超时 (exit code 0xFFFFFFFF)。其余 16/18 跑全部满分,best-of-3 全部 10/10,总计 60/60。 MiMo 失分分析:题 5(极限题)三跑全错——三次运行均未推出 $\pi^2/12$,run1 得 $(\ln2)^2/4 - \pi^2/24$,run2 得 $\pi^2/12 - (\ln2)^2/2$,run3 得 $\ln2 + \pi^2/12$,该题对该模型为系统性失败。题 2 run3 得出错误定点 $(7/4, -3\sqrt{3}/4)$,题 6 run2 错误答案为 $1/2$。opus 与 deepseek 则 6 题全对,3 次采样答案均一致。 → 完整 6 题展开

代表性题目:题 5 · 微积分极限

题面

求极限 $$\lim_{n \to \infty}\ n^2 \left( \int_0^1 \frac{1}{1+x^n}\,\mathrm{d}x \;-\; 1 \;+\; \frac{\ln 2}{n} \right)$$ 的精确封闭形式。

标准答案:$\dfrac{\pi^2}{12}$

opus claude-opus-4-7
10 / 10
耗时 33.7s (均值)3 次运行答案一致

通过 $u=x^n$ 代换 + 级数展开 + Dirichlet eta 函数求值,完整推导出 $\frac{\pi^2}{12}$,并给出更高阶项 $-\frac{3\zeta(3)}{4n^3}$。

deepseek deepseek-v4-pro
10 / 10
耗时 103.3s (均值)3 次运行答案一致

几何级数展开 + 逐项积分 + 已知交错级数 $\sum (-1)^k/k^2 = -\pi^2/12$,干净利落得到答案。

磐石100 S1-Base-Ultra
5 / 10 · 部分分
耗时 753s (12m33s)推导被截断

变量替换后展开到 $\dfrac{\pi^2}{12} a - \dfrac{3}{\cdots}$,在二阶系数后被长度截断,未写出最终极限结论。但 $\pi^2/12$ 已显式出现在渐近展开中,按部分分给 5/10。

5.2 Benchmark 02 · 代码 Debug 5 处 Bug · agent loop · 满分 10

任务:给定一个含 5 处 Bug 的量子谐振子仿真项目,模型需在沙盒中阅读源码、定位修复全部 Bug、运行 python main.py 无 warning/error,并满足 4 项物理判据(能量、⟨x⟩、⟨p⟩、模长)。输出 findings.md

模型耗时 (s)turns5 处 Bug4 项判据无 warning得分 / 10
opus130.8205 / 54 / 410.0
deepseek464.5215 / 54 / 410.0
mimo327.7~205 / 54 / 410.0
kimi119.9195 / 54 / 410.0
磐石100225.810 / 51 / 40.4

opus、deepseek、MiMo 与 kimi 的修复结果一致(verify 输出完全相同),均修对全部 5 处 Bug、4 项物理判据全部满足。 磐石 100 turns=1——模型在首轮就 end_turn,输出中包含伪 JSON tool call 但从未实际调用任何工具。 → 完整报告

5.3 Benchmark 03 · 引用核查 8 处注入错误 · agent loop · 满分 10

任务:作为学术审稿人复核一篇 LaTeX 论文(N-queens 统计力学)的 23 条引用。其中 8 处为人为注入的错误(2 完全捏造 + 2 字段篡改 + 2 领域伪造 + 2 位置错误),剩余 15 条为真实引用。模型需使用 WebSearch / Crossref API 等逐条验证,输出 findings.md

模型耗时 (s)turnsTP 命中 / 8假阳性得分 / 10
opus claude-opus-4-7610.9646 / 81 条 (−0.5)5.75
deepseek deepseek-v4-pro[1m]2 495.0658 / 83 条 (−1.5)8.5
mimo mimo-v2.5-pro848.8~256 / 80 条6.9
kimi kimi-k2.62 363.5636 / 80 条6.25
磐石100 S1-Base-Ultra59.210 / 80.0

deepseek 全部 8 处错误命中(含 4 种类型全部分类正确),3 条假阳性扣 1.5 分,得 8.5/10。 opus 64 turns 完成,命中 6/8(漏检 E7/E8 两处位置错误),E5/E6 领域伪造被笼统归入"完全捏造"未细分,1 条假阳性,得 5.75/10。 MiMo 命中 6/8(漏检 E7/E8 位置错误——在引用位置合理性上缺少逐条语义检查),Reynolds2019 分类有偏差(认为是期刊错误而非捏造,查到一篇同名 LNCS 论文),无假阳性,得 6.9/10。 kimi 命中 6/8(同 opus / MiMo,漏检 E7/E8 位置错误),E3/E4 字段篡改 + E1/E2/E5/E6 实体不存在检测准确,E5/E6 未区分"领域伪造"vs"完全捏造",0 假阳性,得 6.25/10。 磐石 100 再次 turns=1——输出了一段伪 JSON {"tool": "Read", "params": {"file_path": "./paper.tex"}} 然后立即 end_turn,从未调用 Crossref / Google Scholar。 → 完整报告

5.4 磐石 100 失败模式分析 系统性问题 · 非偶然

三项 Benchmark 中磐石 100 的共性失败模式

Benchmarkharnessturns失败模式
01 · 数学推理HTTP 单轮 推理黑洞:题 3/4/6 思考阶段消耗满 8192 tokens,finish_reason=length,正式回答为空。HTTP streaming 模式下 reasoning_content 无限填充但 content 始终为空。
02 · 代码 DebugAgent (claude -p)1 伪工具调用:CC 向模型注入了完整的 Anthropic tool-use 协议描述(含所有可用工具的函数签名)。磐石 100 输出的工具调用形如 ```json\n{"tool": "Glob", "params": {"pattern": "*.py"}}\n```——这是 markdown 代码块,不是 Anthropic 协议的 tool_use content block(后者需要 id/name/input 结构化字段)。CC 无法解析这些文本块为工具调用,模型据此幻想文件结构并编造 Bug 位置(如声称 wavefunction.py:42 有错——该文件在项目中根本不存在)。
03 · 引用核查Agent (claude -p)1 同 02:模型在首轮输出执行计划 + 伪 {"tool": "Read"} 文本块,随即 end_turn。从未实际调用 Crossref / WebSearch / WebFetch。tasks.json 与 findings.md 均不存在。

根因分析

  1. 无原生 tool-use 训练:S1-Base-Ultra(ScienceOne 671B)是基础科学语言模型,未经过 tool-use post-training。遇到 Anthropic 协议的工具描述时,只能"模仿表面格式"——把工具调用写成 markdown 文本块,而非结构化的 tool_use content block。作为对照:opus 与 deepseek 均收到了完全相同的工具描述,正常生成结构化 tool_use 块并完成了真实工具调用(02 中 20-21 turns、03 中 64-65 turns)。磐石 100 在两次 agent 任务中 turns=1——并非"不努力",而是不会使用工具
  2. 推理词元预算不足:在 HTTP 单轮模式下,S1-Base-Ultra 的推理过程无限填充词元预算(max_tokens=65536 上限),却不输出最终答案。题 3/4/6 均为 finish_reason=length 且 content 字段为空。3 次独立采样中,3 次均为空输出——说明这不是随机波动,而是该模型在处理长推理链题目时的系统性问题。
  3. 上下文长度断档:磐石 100 的 32k 词元上下文仅为商业模型(1024k 词元)的 ~1/30。agent 模式中每轮工具调用都会持续占用上下文,磐石在 1–3 轮内即溢出,无法完成任何实际 agent 工作流。
磐石 100 能力边界

五模型稳定性对比

稳定性直接影响实际可用性——一个能在 10 分钟内稳定跑完 60+ turns agent 任务的模型,与一个思考到一半空输出、或者偶尔超时挂掉的模型,对科研工作流的信任度截然不同。

模型 01 异常 / 总运行 02 Agent 状态 03 Agent 状态 故障模式
opus 0 / 18 ✓ 正常 · 20 turns ✓ 正常 · 64 turns
deepseek 0 / 18 ✓ 正常 · 21 turns ✓ 正常 · 65 turns
mimo 0 / 18* ✓ 正常 · ~20 turns ✓ 正常 · ~25 turns Q5 三跑全错(非稳定性故障)
kimi 2 / 18 ✓ 正常 · 19 turns ✓ 正常 · 63 turns 1 次推理耗尽(空输出)+ 1 次超时(进程被杀)
磐石100 12 / 18 ✗ turns=1 ✗ turns=1 系统性:9 次空输出 + 1 SSL + 1 HTTP 502 + 1 截断 + 2 次 agent 首轮放弃

* MiMo 在 01 中 Q5 三跑全错、Q2 run3 定点错误、Q6 run2 概率错误,但这些均为答案错误(模型输出正常完成),不属于稳定性故障(空输出 / 超时 / 崩溃)。

关键观察:

  1. opus 与 deepseek 在全部 3 项 Benchmark 中零稳定性故障。18 次单轮推理 + 2 次长 agent 任务均正常完成,未出现空输出、超时、或中途崩溃。这对实际科研使用至关重要——用户可以放心将长任务交给它们,而不必担心半小时后回来发现挂了。
  2. 03 引用核查是最严苛的稳定性压力测试。该任务要求模型在 agent 模式下逐条验证 23 条引用,每条可能触发 WebSearch → 读结果 → 交叉比对 → 下一条,累计 60+ turns。任何一轮的网络波动、推理中断、或 token 预算耗尽都可能导致任务失败。opus(64 turns · 10 分钟)、deepseek(65 turns · 41 分钟)、kimi(63 turns · 39 分钟)均稳定完成,说明具备实际审稿场景的可用性。
  3. kimi 的 2 次故障均出现在 01 单轮模式(1 次推理耗尽、1 次超时),但在 agent 任务中完全稳定——best-of-3 采样策略可以覆盖这类偶发故障。
  4. 磐石的故障不是"偶发"而是"必然"。01 中 12/18 异常运行中,9 次空输出在 3 道不同题目上 3 次采样一致复现;02/03 中 turns=1 在两个独立 agent 任务上一致复现。这排除了网络波动或随机因素的干扰,确认是模型能力层面的系统性缺陷。
稳定性结论

参考资料

  1. Benchmark 实测详细报告01 数学推理 · 02 代码 Debug · 03 引用核查
  2. 评分基准与验证脚本solutions/math/ · solutions/code_debug/ · solutions/citation/
  3. 原始输出opus-answer/ · deepseek-answer/ · mimo-answer/ · kimi-answer/ · panshi100-answer/
  4. 磐石·科学基础大模型 / S1-Base 模型卡huggingface.co/ScienceOne-AI/S1-Base-671B
  5. 中国科学院"磐石 100"发布新闻稿(2026-04-29)
  6. DeepSeek V4 API 定价api-docs.deepseek.com/quick_start/pricing
  7. Claude Opus 4.7 官方定价platform.claude.com/docs/en/about-claude/pricing
  8. 运行脚本run_benchmark.py · run_codedebug.py · run_citation.py