科研大模型实测对比报告

§2 测试方法所有运行可复现

2.1 测试工具与接入方式

三项 Benchmark 均通过 Claude Code (CC) 命令行工具 (claude -p) 与模型交互。CC 按 Anthropic tool-use 协议管理 agent loop，提供 Read / Edit / Bash / WebSearch 等工具。各模型的接入方式如下：

模型	调用端点	01 数学推理	02 代码调试 / 03 引用核查
opus	Anthropic 官方 API (OAuth Max)	CC 单轮工具启用 · 3 次独立采样	CC agent loop 沙盒隔离 · Read/Edit/Bash/WebSearch
deepseek	DeepSeek Anthropic 兼容端点 api.deepseek.com/anthropic	CC 单轮工具启用 · 3 次独立采样	CC agent loop 沙盒隔离 · Read/Edit/Bash/WebSearch
mimo	Xiaomi MiMo Anthropic 兼容端点 token-plan-cn.xiaomimimo.com/anthropic	CC 单轮工具启用 · 3 次独立采样	CC agent loop 沙盒隔离 · Read/Edit/Bash/WebSearch
kimi	Moonshot Kimi Anthropic 兼容端点 api.moonshot.cn/anthropic	CC 单轮工具启用 · 3 次独立采样	CC agent loop 沙盒隔离 · Read/Edit/Bash/WebSearch
磐石100	cstcloud OpenAI 兼容端点 uni-api.cstcloud.cn/v1	HTTP 流式单轮无工具 · 3 次独立采样	CC agent loop 沙盒隔离 · 工具描述已注入但模型未执行

CC 接入方式：opus 使用 claude -p --model claude-opus-4-7 直接调用 Anthropic 官方 OAuth Max 订阅；deepseek 通过设置环境变量 ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic 将 CC 底层端点指向 DeepSeek 的 Anthropic 兼容 API；MiMo 同理指向 Xiaomi 端点 (mimo-v2.5-pro)；kimi 同理指向 Moonshot 端点 (kimi-k2.6)；磐石100 同理指向 cstcloud 端点 (S1-Base-Ultra)。所有调用参数、原始输出与运行脚本均保存在本项目仓库中，可重跑验证。

2.2 任务设计与评分规则

Benchmark	任务	评分规则	采样
01 · 数学推理	6 道数学题（代数不等式 · 解析几何 · 数论 · 组合计数 · 微积分极限 · 条件概率）难度：清北强基笔试 ~ Putnam 中段	每题 10 分。最终答案错误即 0 分；答案正确 + 推导思路正确即 10 分。	每模型每题 3 次独立调用
02 · 代码调试	含 5 处 Bug 的量子谐振子仿真项目需在沙盒中定位修复全部 Bug 并通过物理验证	每 Bug 修复+findings 描述 1.5 × 5 = 7.5 · 无 warning/error 1.0 · 4 项物理判据各 0.375 = 1.5 · 满分 10	每模型 1 次 agent 运行
03 · 引用核查	LaTeX 论文含 23 条引用（8 处注入错误）需作为审稿人逐条检索验证真实性与一致性	TP 识别 0.625 × 8 = 5 · 正确分类 0.625 × 8 = 5 · 假阳性每条 −0.5 · 下限 0	每模型 1 次 agent 运行

2.3 可复现性

所有评分基准公开在 solutions/ 目录下，包含正确答案和自动验证脚本。Benchmark 运行脚本 run_benchmark.py、run_codedebug.py、run_citation.py 可在相同环境下重跑验证。原始输出保存在 opus-answer/、deepseek-answer/、mimo-answer/、kimi-answer/、panshi100-answer/ 目录。

§3 五个模型是什么

3.1 磐石 100（中国科学院 / S1-Base 系列）

磐石 100 是中科院自动化研究所等单位联合研发的科学领域大模型体系，2026 年 4 月正式亮相。底座为磐石·科学基础大模型（S1-Base），提供 8B / 32B / 671B 三种参数规模。

根据 Hugging Face 官方模型卡，S1-Base-671B 训练自 DeepSeek-R1-671B，S1-Base-8B 与 S1-Base-32B 分别训练自 Qwen3-8B 与 Qwen3-32B。微调使用了 1.7 亿篇科学论文与数百万条高质量科学推理数据。所有版本上下文长度统一为 32k 词元。模型以 Apache 2.0 协议开源。

3.2 DeepSeek V4 Pro（深度求索）

DeepSeek V4 Pro 由杭州深度求索公司研发，2026 年发布。采用异构混合专家（MoE）架构，总参数 1.6 万亿，预训练数据 33 万亿词元。支持三档推理模式。上下文长度 1024k 词元，最大单次输出 38.4 万词元。API 国内可直接调用，标价：输入 ¥3 / 百万词元，输出 ¥6 / 百万词元。

3.3 Claude Opus 4.7（Anthropic）

Claude Opus 4.7 由美国 Anthropic 公司研发，2026 年发布，是国际公认在编程、长文档分析、复杂推理等任务上的第一梯队模型。上下文长度 1024k 词元，最大单次输出 12.8 万词元。API 仅以美元计价，折合人民币输入约 ¥36 / 百万词元，输出约 ¥180 / 百万词元。

3.4 MiMo V2.5 Pro（小米）

MiMo V2.5 Pro 由小米 AI 团队研发，2025 年末发布。为纯文本大语言模型，上下文长度 1024k 词元，支持工具调用与 agent 工作流。通过 Token Plan 订阅制提供服务，国内可直接访问（token-plan-cn.xiaomimimo.com）。在本次实测中通过 Anthropic 兼容端点接入 Claude Code，以与其模型完全一致的方式执行所有 Benchmark。

3.5 Kimi K2.6（月之暗面 / Moonshot AI）

Kimi K2.6 由北京月之暗面科技有限公司（Moonshot AI）研发，2026 年发布。为多模态大语言模型（支持文本与视觉输入），上下文长度 262k 词元，支持工具调用与 agent 工作流。通过 Moonshot Anthropic 兼容端点（api.moonshot.cn/anthropic）提供服务，国内可直接访问。本次实测通过 Anthropic 兼容端点接入 Claude Code，完成全部三项 Benchmark。

3.6 关键参数五方对比

维度	磐石 100 (S1-671B)	DeepSeek V4 Pro	Claude Opus 4.7	MiMo V2.5 Pro	Kimi K2.6
研发方	中科院自动化所等	深度求索（杭州）	Anthropic（美国）	小米（北京）	月之暗面（北京）
底座来源	DeepSeek-R1 / Qwen3 微调	自研 V4 系列	自研 Opus 4 系列	自研 MiMo 系列	自研 Kimi 系列
参数规模	671B（总参数）	1.6T 总 / 49B 活跃	未公开	未公开	未公开
上下文长度	32k 词元	1024k 词元	1024k 词元	1024k 词元	262k 词元
训练数据量	微调 1.7 亿论文	预训练 33T 词元	未公开（业界估计同量级）	未公开	未公开
参考单价输入/输出 ¥/M 词元	—	¥3 / ¥6	¥36 / ¥180	订阅制	¥6.5 / ¥27
适用场景	短文本简单推理	通用科研主力	高难度复杂任务	通用科研 · agent 工作流	通用科研 · agent 工作流

关键事实

磐石 100 最强版本（671B）基于 DeepSeek-R1——已被原厂商迭代至 V4 Pro，参数、上下文、效率全面更新换代。
磐石上下文 32k 词元，Kimi K2.6 262k 词元，DeepSeek V4 Pro、Claude Opus 4.7 与 MiMo V2.5 Pro 均为 1024k 词元——商业模型是磐石的 8~32 倍。
评分排名：deepseek (97.0) > kimi (92.5) > opus (91.5) > MiMo (83.8) > 磐石100 (25.8)。磐石在所有涉及 agent 工作流的任务上均无法运行。

§4 为什么上下文长度能决定能不能用

注：下文用词元（token）作为计量单位。约 1 词元 ≈ 1.5 个汉字，1024k 词元约等于 150 万字。

4.1 聊天 vs Agent：两种完全不同的词元消耗

上下文长度不仅是"一次能装多少内容"。对科研场景而言，更关键的影响在于agentic workflow 的词元消耗是指数级的——每轮工具调用都在不断占用上下文。

纯聊天 vs Agent Loop：词元消耗对比（以 Benchmark 03 引用核查为例）

工作模式	每轮消耗	32k 可跑轮次	262k 可跑轮次	1024k 可跑轮次
纯聊天（一问一答）	1–3k	~20 轮	~150 轮	~500 轮
Agent 读文件 + 思考	3–5k	~8 轮	~60 轮	~250 轮
Agent + 工具调用 (WebSearch/Bash/Python)	8–25k	1–3 轮	~15 轮	~60 轮

纯聊天场景下 32k 词元绰绰有余——一次对话几十轮都不成问题。但一旦进入 agent 模式——读文件、分析、调用 Crossref API、阅读搜索结果、再分析——每轮轻松消耗 15–25k 词元。32k 窗口在 agent 模式下只能支撑 1–3 轮，根本跑不完一个完整的引用核查或 Bug 修复流程。

4.2 实验证据：turns 数量说明一切

在完全相同的 prompt 和工具描述下，同一套测试框架（Claude Code，claude -p）中五个模型的表现截然不同：

模型	上下文	02 代码调试 turns	03 引用核查 turns	是否完成 agent 工作流
opus	1024k 词元	20	64	✓ 完整
deepseek	1024k 词元	21	65	✓ 完整
MiMo	1024k 词元	~20	~25	✓ 完整
kimi	262k 词元	19	63	✓ 完整
磐石100	32k 词元	1	1	✗ 首轮即止

磐石 100 在 02 和 03 中均为 turns=1——不是它"不想干活"，而是 32k 上下文里塞进了 system prompt + 题目 + 工具协议描述之后，已经耗尽可用空间，模型只能立刻 end_turn。这也解释了为什么磐石在 01 纯数学推理（单轮、无工具调用）中部分题目仍能得出正确答案——不是"推理能力"有断档，是"上下文容量"让 agent 模式完全无法启动。

4.3 对实际科研任务的影响

科研任务	工作模式所需典型轮次	磐石 32k	Kimi 262k	DeepSeek 1024k	Claude 1024k	MiMo 1024k
改一段论文摘要	纯聊天，< 5 轮	✓	✓	✓	✓	✓
写论文 introduction	纯聊天，10–20 轮	临界	✓	✓	✓	✓
单文件代码审阅 + 修改	Agent，3–8 轮	✗	✓	✓	✓	✓
多文件 Bug 修复（如 02）	Agent + Bash，15–25 轮	✗	✓	✓	✓	✓
论文引用核查（如 03，含 WebSearch）	Agent + 搜索，30–70 轮	✗	✓	✓	✓	✓
三篇论文交叉对比 + 综述	Agent + 搜索，50–150 轮	✗	临界	✓	✓	✓
大规模文献调研 / 代码库重构	Agent 深度循环，200+ 轮	✗	✗	临界	临界	临界

本节结论

纯聊天场景下，32k 词元足够——日常问答、段落润色、简单代码解释不受影响。
一旦涉及 agent 工作流（读文件、调工具、分析反馈、迭代修复），32k 词元窗口在 1–3 轮内即溢出，导致 agent 模式根本无法启动。这正是磐石在 02/03 中 turns=1 的根因。
262k 词元（Kimi）可胜任中等复杂度的 agent 任务（单项目调试、论文引用核查），但跨文献对比等深度 agent 任务仍显紧张。
1024k 词元级别是科研 agent 工作流的事实标准——DeepSeek V4 Pro、Claude Opus 4.7、MiMo V2.5 Pro 在此级别均能完成全部三项 Benchmark。
不是"快慢之差"，而是"能做"与"做不了"的差别。上下文窗口直接决定了 agent 工作流能否跑起来。

4.5 速度与稳定性：同样的 Agent 任务，耗时差出 4 倍

上下文窗口决定了"能不能跑"，而速度和稳定性决定了"跑起来之后好不好用"。在 agent 工作流中，速度的差异是乘数级的——每轮慢几秒，60 轮之后就是几十分钟的差距。

模型	02 代码 Debug	03 引用核查	单轮均速 (03)	稳定性问题
opus	130.8s · 20 turns	610.9s · 64 turns	~9.5s/turn	0 次
deepseek	464.5s · 21 turns	2495.0s · 65 turns	~38.4s/turn	0 次
mimo	327.7s · ~20 turns	848.8s · ~25 turns	~34.0s/turn	0 次
kimi	119.9s · 19 turns	2363.5s · 63 turns	~37.5s/turn	2 次
磐石100	225.8s · 1 turn	59.2s · 1 turn	—	系统性

关键发现：

opus 速度碾压。同是跑完 03 引用核查（60+ turns），opus 仅需 10 分钟，deepseek 和 kimi 均超 39 分钟——4 倍差距。这不仅是等待时间问题：在实际开发中，如果你需要改一段代码、跑一下、看结果、再改——每次 agent 循环等 40 分钟 vs 等 10 分钟，迭代效率差出 4 倍。
磐石的"慢"不是速度问题，是失败问题。磐石在 01 数学推理中 Q5 耗时 753 秒（12 分 33 秒）——是所有模型中单题耗时最长的——但输出被截断，只得到 5 分。而在 02/03 中"快"（225s / 59s）是因为首轮就 end_turn 放弃——耗时没有意义。用户等待时间被白白浪费，却得不到可用结果。这就是"慢到没法用"的本质：不只是慢，是付出等待成本后依然失败。
deepseek 速度垫底但质量顶格。03 中 65 turns 耗时 41 分钟，但 8/8 TP 全命中（唯一做到满分的模型）。速度与质量之间存在权衡——科研用户需要根据任务紧急程度选择。

速度与上下文窗口的叠加效应

上下文窗口决定了模型能不能启动 agent 模式——磐石 32k 连门都进不去。
速度决定了 agent 模式启动后，用户能否承受迭代成本——deepseek 质量高但 40+ 分钟的等待迫使科研人员规划好再提交。
opus 是唯一在速度和能力上同时达到顶级的模型——1024k 上下文 + 10 分钟完成 03，是目前科研 agent 工作流的最佳组合。

§5 实测能力对比：三项 Benchmark 真实运行 · 全部有原始输出

本节通过 3 项 Benchmark 实测对比五个模型在科研任务上的表现。每项按统一标准打分（满分 10 分）。所有数据均来自真实运行，原始输出可在 01 / 02 / 03 详细报告中查看。

5.0 五模型总成绩单

模型	01 · 数学推理 6题 / 满分60	02 · 代码 Debug 5 Bug / 满分10	03 · 引用核查 8 错误 / 满分10	加权均分 (百分制)
opus claude-opus-4-7 · OAuth Max	60 / 60	10.0 / 10	5.75 / 10	91.5
deepseek deepseek-v4-pro[1m] · DS 官方	60 / 60	10.0 / 10	8.5 / 10	97.0
mimo mimo-v2.5-pro · Xiaomi Token Plan	50 / 60	10.0 / 10	6.9 / 10	83.8
kimi kimi-k2.6 · Moonshot API	60 / 60	10.0 / 10	6.25 / 10	92.5
磐石100 S1-Base-Ultra (S1-671B) · uni-api	25 / 60	0.4 / 10	0.0 / 10	25.8

加权说明：01 占 60% 权重（6 题 × 10 分），02、03 各占 20%（各 10 分）。注：01 数学每题独立运行 3 次（共 18 跑），下文「N 跑」指 3 次中的 N 次。
opus 在 03 中命中 6/8 错误（漏检 2 处位置错误），分类 4/8 准确（E5/E6 领域伪造未细分），1 条假阳性，得 5.75/10。 MiMo 在 01 中 Q5（极限题）三跑全错（0 分），Q2/Q6 各有一跑错误；03 中漏检 2 处位置错误，Reynolds2019 分类有偏差，得 6.9/10。 kimi 在 01 中 6 题均 10/10（best-of-3），有两跑失败（Q1 run3 reasoning截断空输出、Q4 run3 超时）但不影响得分。02 一跑 10/10。03 命中 6/8（漏检 E7/E8 位置错误），分类 4/8，0 假阳性，得 6.25/10。加权均分 92.5。 磐石 100 在三项任务中均垫底，与商业模型存在系统性差距。
详情：01 完整报告 · 02 完整报告 · 03 完整报告

5.1 Benchmark 01 · 数学推理 6 题 · 每模型采样 3 次 · 满分 60

题目范围：代数不等式 · 解析几何 · 数论 · 组合计数 · 微积分极限 · 条件概率。难度相当于清北强基笔试到 Putnam 中段。

评分规则：每题满分 10 分。最终答案错误即 0 分；答案正确后再加推导思路分。每模型每题独立采样 3 次。

模型	题1 代数	题2 几何	题3 数论	题4 组合	题5 极限	题6 概率	合计 / 60
opus	10	10	10	10	10	10	60
deepseek	10	10	10	10	10	10	60
mimo	10	10	10	10	0	10	50
kimi	10	10	10	10	10	10	60
磐石100	10	10	0	0	5*	0	25

磐石 100 失分分析：题 3、4、6 均为空输出——思考阶段消耗满 8192 completion tokens（finish_reason=length），正式回答 content_len=0。题 5 推导到二阶系数 $\pi^2/12$ 后被截断，给 5/10 部分分。
kimi 失分情况：题 1 run3 思考词元耗尽导致空输出 (finish_reason=length)，题 4 run3 超时 (exit code 0xFFFFFFFF)。其余 16/18 跑全部满分，best-of-3 全部 10/10，总计 60/60。 MiMo 失分分析：题 5（极限题）三跑全错——三次运行均未推出 $\pi^2/12$，run1 得 $(\ln2)^2/4 - \pi^2/24$，run2 得 $\pi^2/12 - (\ln2)^2/2$，run3 得 $\ln2 + \pi^2/12$，该题对该模型为系统性失败。题 2 run3 得出错误定点 $(7/4, -3\sqrt{3}/4)$，题 6 run2 错误答案为 $1/2$。opus 与 deepseek 则 6 题全对，3 次采样答案均一致。 → 完整 6 题展开

代表性题目：题 5 · 微积分极限

题面

求极限 $$\lim_{n \to \infty}\ n^2 \left( \int_0^1 \frac{1}{1+x^n}\,\mathrm{d}x \;-\; 1 \;+\; \frac{\ln 2}{n} \right)$$ 的精确封闭形式。

标准答案：$\dfrac{\pi^2}{12}$

opus claude-opus-4-7

10 / 10

耗时 33.7s (均值)3 次运行答案一致

通过 $u=x^n$ 代换 + 级数展开 + Dirichlet eta 函数求值，完整推导出 $\frac{\pi^2}{12}$，并给出更高阶项 $-\frac{3\zeta(3)}{4n^3}$。

deepseek deepseek-v4-pro

10 / 10

耗时 103.3s (均值)3 次运行答案一致

几何级数展开 + 逐项积分 + 已知交错级数 $\sum (-1)^k/k^2 = -\pi^2/12$，干净利落得到答案。

磐石100 S1-Base-Ultra

5 / 10 · 部分分

耗时 753s (12m33s)推导被截断

变量替换后展开到 $\dfrac{\pi^2}{12} a - \dfrac{3}{\cdots}$，在二阶系数后被长度截断，未写出最终极限结论。但 $\pi^2/12$ 已显式出现在渐近展开中，按部分分给 5/10。

5.2 Benchmark 02 · 代码 Debug 5 处 Bug · agent loop · 满分 10

任务：给定一个含 5 处 Bug 的量子谐振子仿真项目，模型需在沙盒中阅读源码、定位修复全部 Bug、运行 python main.py 无 warning/error，并满足 4 项物理判据（能量、⟨x⟩、⟨p⟩、模长）。输出 findings.md。

模型	耗时 (s)	turns	5 处 Bug	4 项判据	无 warning	得分 / 10
opus	130.8	20	5 / 5	4 / 4	✓	10.0
deepseek	464.5	21	5 / 5	4 / 4	✓	10.0
mimo	327.7	~20	5 / 5	4 / 4	✓	10.0
kimi	119.9	19	5 / 5	4 / 4	✓	10.0
磐石100	225.8	1	0 / 5	1 / 4	✗	0.4

opus、deepseek、MiMo 与 kimi 的修复结果一致（verify 输出完全相同），均修对全部 5 处 Bug、4 项物理判据全部满足。磐石 100 turns=1——模型在首轮就 end_turn，输出中包含伪 JSON tool call 但从未实际调用任何工具。 → 完整报告

5.3 Benchmark 03 · 引用核查 8 处注入错误 · agent loop · 满分 10

任务：作为学术审稿人复核一篇 LaTeX 论文（N-queens 统计力学）的 23 条引用。其中 8 处为人为注入的错误（2 完全捏造 + 2 字段篡改 + 2 领域伪造 + 2 位置错误），剩余 15 条为真实引用。模型需使用 WebSearch / Crossref API 等逐条验证，输出 findings.md。

模型	耗时 (s)	turns	TP 命中 / 8	假阳性	得分 / 10
opus claude-opus-4-7	610.9	64	6 / 8	1 条 (−0.5)	5.75
deepseek deepseek-v4-pro[1m]	2 495.0	65	8 / 8	3 条 (−1.5)	8.5
mimo mimo-v2.5-pro	848.8	~25	6 / 8	0 条	6.9
kimi kimi-k2.6	2 363.5	63	6 / 8	0 条	6.25
磐石100 S1-Base-Ultra	59.2	1	0 / 8	—	0.0

deepseek 全部 8 处错误命中（含 4 种类型全部分类正确），3 条假阳性扣 1.5 分，得 8.5/10。 opus 64 turns 完成，命中 6/8（漏检 E7/E8 两处位置错误），E5/E6 领域伪造被笼统归入"完全捏造"未细分，1 条假阳性，得 5.75/10。 MiMo 命中 6/8（漏检 E7/E8 位置错误——在引用位置合理性上缺少逐条语义检查），Reynolds2019 分类有偏差（认为是期刊错误而非捏造，查到一篇同名 LNCS 论文），无假阳性，得 6.9/10。 kimi 命中 6/8（同 opus / MiMo，漏检 E7/E8 位置错误），E3/E4 字段篡改 + E1/E2/E5/E6 实体不存在检测准确，E5/E6 未区分"领域伪造"vs"完全捏造"，0 假阳性，得 6.25/10。磐石 100 再次 turns=1——输出了一段伪 JSON {"tool": "Read", "params": {"file_path": "./paper.tex"}} 然后立即 end_turn，从未调用 Crossref / Google Scholar。 → 完整报告

5.4 磐石 100 失败模式分析系统性问题 · 非偶然

三项 Benchmark 中磐石 100 的共性失败模式

Benchmark	harness	turns	失败模式
01 · 数学推理	HTTP 单轮	—	推理黑洞：题 3/4/6 思考阶段消耗满 8192 tokens，`finish_reason=length`，正式回答为空。HTTP streaming 模式下 reasoning_content 无限填充但 content 始终为空。
02 · 代码 Debug	Agent (`claude -p`)	1	伪工具调用：CC 向模型注入了完整的 Anthropic tool-use 协议描述（含所有可用工具的函数签名）。磐石 100 输出的工具调用形如 ```json\n{"tool": "Glob", "params": {"pattern": "*.py"}}\n```——这是 markdown 代码块，不是 Anthropic 协议的 `tool_use` content block（后者需要 `id`/`name`/`input` 结构化字段）。CC 无法解析这些文本块为工具调用，模型据此幻想文件结构并编造 Bug 位置（如声称 `wavefunction.py:42` 有错——该文件在项目中根本不存在）。
03 · 引用核查	Agent (`claude -p`)	1	同 02：模型在首轮输出执行计划 + 伪 `{"tool": "Read"}` 文本块，随即 `end_turn`。从未实际调用 Crossref / WebSearch / WebFetch。tasks.json 与 findings.md 均不存在。

根因分析

无原生 tool-use 训练：S1-Base-Ultra（ScienceOne 671B）是基础科学语言模型，未经过 tool-use post-training。遇到 Anthropic 协议的工具描述时，只能"模仿表面格式"——把工具调用写成 markdown 文本块，而非结构化的 tool_use content block。作为对照：opus 与 deepseek 均收到了完全相同的工具描述，正常生成结构化 tool_use 块并完成了真实工具调用（02 中 20-21 turns、03 中 64-65 turns）。磐石 100 在两次 agent 任务中 turns=1——并非"不努力"，而是不会使用工具。
推理词元预算不足：在 HTTP 单轮模式下，S1-Base-Ultra 的推理过程无限填充词元预算（max_tokens=65536 上限），却不输出最终答案。题 3/4/6 均为 finish_reason=length 且 content 字段为空。3 次独立采样中，3 次均为空输出——说明这不是随机波动，而是该模型在处理长推理链题目时的系统性问题。
上下文长度断档：磐石 100 的 32k 词元上下文仅为商业模型（1024k 词元）的 ~1/30。agent 模式中每轮工具调用都会持续占用上下文，磐石在 1–3 轮内即溢出，无法完成任何实际 agent 工作流。

磐石 100 能力边界

在输入极短的简单数学题（题 1 代数、题 2 几何）上，磐石 100 能给出正确答案（10/10）。一旦题目需要长推理链（题 3 数论 / 题 4 组合 / 题 6 概率），立即触发词元预算耗尽导致空输出——3 次采样结果完全一致。
在需要工具调用的所有任务（02/03）上，磐石 100 完全无法执行。turns=1 是系统性失败——两个独立 agent 任务的 2 次运行结果完全相同（均为首轮 end_turn + 伪工具调用文本）。
磐石本质上是 DeepSeek-R1 的科学微调版本——但其底座模型已被原厂商迭代五代（R1 → V3 → V3.1 → V4 → V4 Pro）。磐石在模型参数、上下文长度、推理效率、工具使用能力上已全面落后于现役商业模型。尤其上下文被裁切至原版的 1/32，且未经过工具使用训练，导致其在科研一线最核心的两项能力上（长文档处理、自动化工作流）不具备可用性。

五模型稳定性对比

稳定性直接影响实际可用性——一个能在 10 分钟内稳定跑完 60+ turns agent 任务的模型，与一个思考到一半空输出、或者偶尔超时挂掉的模型，对科研工作流的信任度截然不同。

模型	01 异常 / 总运行	02 Agent 状态	03 Agent 状态	故障模式
opus	0 / 18	✓ 正常 · 20 turns	✓ 正常 · 64 turns	无
deepseek	0 / 18	✓ 正常 · 21 turns	✓ 正常 · 65 turns	无
mimo	0 / 18*	✓ 正常 · ~20 turns	✓ 正常 · ~25 turns	Q5 三跑全错（非稳定性故障）
kimi	2 / 18	✓ 正常 · 19 turns	✓ 正常 · 63 turns	1 次推理耗尽（空输出）+ 1 次超时（进程被杀）
磐石100	12 / 18	✗ turns=1	✗ turns=1	系统性：9 次空输出 + 1 SSL + 1 HTTP 502 + 1 截断 + 2 次 agent 首轮放弃

* MiMo 在 01 中 Q5 三跑全错、Q2 run3 定点错误、Q6 run2 概率错误，但这些均为答案错误（模型输出正常完成），不属于稳定性故障（空输出 / 超时 / 崩溃）。

关键观察：

opus 与 deepseek 在全部 3 项 Benchmark 中零稳定性故障。18 次单轮推理 + 2 次长 agent 任务均正常完成，未出现空输出、超时、或中途崩溃。这对实际科研使用至关重要——用户可以放心将长任务交给它们，而不必担心半小时后回来发现挂了。
03 引用核查是最严苛的稳定性压力测试。该任务要求模型在 agent 模式下逐条验证 23 条引用，每条可能触发 WebSearch → 读结果 → 交叉比对 → 下一条，累计 60+ turns。任何一轮的网络波动、推理中断、或 token 预算耗尽都可能导致任务失败。opus（64 turns · 10 分钟）、deepseek（65 turns · 41 分钟）、kimi（63 turns · 39 分钟）均稳定完成，说明具备实际审稿场景的可用性。
kimi 的 2 次故障均出现在 01 单轮模式（1 次推理耗尽、1 次超时），但在 agent 任务中完全稳定——best-of-3 采样策略可以覆盖这类偶发故障。
磐石的故障不是"偶发"而是"必然"。01 中 12/18 异常运行中，9 次空输出在 3 道不同题目上 3 次采样一致复现；02/03 中 turns=1 在两个独立 agent 任务上一致复现。这排除了网络波动或随机因素的干扰，确认是模型能力层面的系统性缺陷。

稳定性结论

商业模型（opus / deepseek / kimi / MiMo）在 agent 任务中稳定性过硬——4 个模型合计 8 次 agent 运行，零崩溃、零超时、零空输出。
磐石 100 在任何稍复杂任务上均不稳定——无论是单轮推理还是 agent 工作流，失败是可预期的而非偶然的。
"思考一半挂掉"恰恰是磐石的真实体验：01 Q5 中用户等待 12 分 33 秒后，收到的不是答案而是截断的中间结果；02/03 中 agent 首轮即放弃，用户连等待的机会都没有。这种"不可靠"在实际科研场景中比"慢"更为致命。

科研大模型实测对比报告

§1 摘要

§2 测试方法所有运行可复现

2.1 测试工具与接入方式

2.2 任务设计与评分规则

2.3 可复现性

§3 五个模型是什么

3.1 磐石 100（中国科学院 / S1-Base 系列）

3.2 DeepSeek V4 Pro（深度求索）

3.3 Claude Opus 4.7（Anthropic）

3.4 MiMo V2.5 Pro（小米）

3.5 Kimi K2.6（月之暗面 / Moonshot AI）

3.6 关键参数五方对比

§4 为什么上下文长度能决定能不能用

4.1 聊天 vs Agent：两种完全不同的词元消耗

4.2 实验证据：turns 数量说明一切

4.3 对实际科研任务的影响

4.5 速度与稳定性：同样的 Agent 任务，耗时差出 4 倍

§5 实测能力对比：三项 Benchmark 真实运行 · 全部有原始输出

5.0 五模型总成绩单

5.1 Benchmark 01 · 数学推理 6 题 · 每模型采样 3 次 · 满分 60

代表性题目：题 5 · 微积分极限

5.2 Benchmark 02 · 代码 Debug 5 处 Bug · agent loop · 满分 10

5.3 Benchmark 03 · 引用核查 8 处注入错误 · agent loop · 满分 10

5.4 磐石 100 失败模式分析系统性问题 · 非偶然

三项 Benchmark 中磐石 100 的共性失败模式

根因分析

五模型稳定性对比

参考资料

科研大模型实测对比报告

§1 摘要

§2 测试方法 所有运行可复现

2.1 测试工具与接入方式

2.2 任务设计与评分规则

2.3 可复现性

§3 五个模型是什么

3.1 磐石 100（中国科学院 / S1-Base 系列）

3.2 DeepSeek V4 Pro（深度求索）

3.3 Claude Opus 4.7（Anthropic）

3.4 MiMo V2.5 Pro（小米）

3.5 Kimi K2.6（月之暗面 / Moonshot AI）

3.6 关键参数五方对比

§4 为什么上下文长度能决定能不能用

4.1 聊天 vs Agent：两种完全不同的词元消耗

4.2 实验证据：turns 数量说明一切

4.3 对实际科研任务的影响

4.5 速度与稳定性：同样的 Agent 任务，耗时差出 4 倍

§5 实测能力对比：三项 Benchmark 真实运行 · 全部有原始输出

5.0 五模型总成绩单

5.1 Benchmark 01 · 数学推理 6 题 · 每模型采样 3 次 · 满分 60

代表性题目：题 5 · 微积分极限

5.2 Benchmark 02 · 代码 Debug 5 处 Bug · agent loop · 满分 10

5.3 Benchmark 03 · 引用核查 8 处注入错误 · agent loop · 满分 10

5.4 磐石 100 失败模式分析 系统性问题 · 非偶然

三项 Benchmark 中磐石 100 的共性失败模式

根因分析

五模型稳定性对比

参考资料

§2 测试方法所有运行可复现

5.4 磐石 100 失败模式分析系统性问题 · 非偶然