Benchmark 03 · 引用核查五模型对比

LaTeX 论文引用审计 · 8 处人为注入错误 · agent loop 模式 · 单次运行试跑

参评模型

opus · deepseek · MiMo · kimi · 磐石100

opus

claude-opus-4-7 · OAuth Max

deepseek

deepseek-v4-pro[1m] · 官方 Anthropic API

MiMo

mimo-v2.5-pro · 小米 Token Plan CN 兼容 Anthropic

kimi

kimi-k2.6 · Moonshot 兼容 Anthropic

磐石100

S1-Base-Ultra (S1-671B) · uni-api 网关

运行 harness

claude.exe -p · bypassPermissions · 3h 上限

沙盒隔离

%TEMP%\bench-citation\<model>\run1\ · 仅含 paper.tex

总览 8 处错误 · 4 种类型 · 满分 10

模型	耗时 (s)	turns	findings.md	TP 命中 / 8	分类正确 / 8	假阳性	得分 / 10
opus claude-opus-4-7	610.9	64	✓	6 / 8	4 / 8	1 条 (−0.5)	5.75
deepseek deepseek-v4-pro[1m]	2 495.0	65	✓	8 / 8	8 / 8	3 条 (−1.5)	8.5
MiMo mimo-v2.5-pro	848.8	—	✓	6 / 8	5 / 8	0 条	6.9
kimi kimi-k2.6	2 363.5	63	✓	6 / 8	4 / 8	0 条	6.25
磐石100 S1-Base-Ultra	59.2	1	✗ 缺失	0 / 8	0 / 8	—	0.0

评分基线（来自 solutions/citation/bugs_reference.md）：每正确指出错误位置 +0.625 分（共 5.0）· 每正确分类错误类型 +0.625 分（共 5.0）· 假阳性 −0.5 分 / 条 · 下限 0。 deepseek 得分构成：8 TP 识别 5.0 + 8 分类正确 5.0 − 3 假阳性 1.5 = 8.5 / 10。 opus 得分构成：6 TP 识别 3.75 + 4 分类正确 2.5 − 1 假阳性 0.5 = 5.75 / 10；漏检 E7、E8（位置错误），E5/E6（领域伪造）被笼统归入"完全捏造"未细分。 MiMo 得分构成：6 TP 识别 3.75 + 5 分类正确 3.125 − 0 假阳性 = 6.875 / 10 ≈ 6.9 / 10；漏检 E7、E8（位置错误），Reynolds2019 误分类为"期刊号错"而非"完全捏造"。 kimi 得分构成：6 TP 识别 3.75 + 4 分类正确 2.5 − 0 假阳性 = 6.25 / 10；漏检 E7、E8（位置错误），E5/E6 未区分"领域伪造"vs"完全捏造"。磐石100 turns=1，仅输出执行计划文本，未实际调用任何工具。

题目 N-queens 统计力学论文 · 引用审计

题面（给被测 AI 的 prompt）

给定一篇 LaTeX 论文 paper.tex（关于 N-queens 问题的统计力学），包含 23 条 \bibitem 引用。

任务：作为学术审稿人，复核所有引用的准确性和恰当性。可使用 WebSearch / WebFetch / Bash / Python 调用 Crossref REST API、arXiv API 等。

输出：在沙盒中创建 findings.md，逐条记录发现的引用问题（位置、问题描述、证据、修复建议）。不修改 paper.tex。

关键约束：模型仅能访问 sandbox 内的 paper.tex（重命名自 paper_buggy.tex），answer_key.md 和 references_truth.md 不在沙盒中。

8 处人为注入错误（来自 solutions/citation/bugs_reference.md，模型不可见）

编号	bibitem key	类型	位置	错误描述
E1	Reynolds2019	完全捏造	正文 line ~122, bibitem	J. M. Reynolds / S. T. Park 此合作记录不存在，CPC 241 卷无此论文
E2	Tanaka2023	完全捏造	正文 line ~791, bibitem	H. Tanaka / K. Yamada 在 PR Research 5 上无此 tensor network counting 论文
E3	Metropolis1953	字段篡改 — 年份	bibitem	真实年份 1953，被改为 1955（bibitem key 仍是 Metropolis1953 自相矛盾）
E4	Frowis2010	字段篡改 — 卷号	bibitem	真实卷号 Phys. Rev. A 81, 062337，被改为 82
E5	Boyd2024	领域伪造	正文 line ~89, bibitem	A. Agrawal / S. Boyd 真合作（CVXPY），但未发过此 SIAM Rev. 66 综述
E6	Verstraete2022	领域伪造	正文 line ~654, bibitem	F. Verstraete 真做 tensor networks，但未发过此 Adv. Phys.: X 7 单作者综述
E7	Frowis2010	位置错误 — 添加	正文 line ~199	Kawasaki dynamics 处引用了 Frowis2010（内容为 MPO 算子，无关）
E8	Vanderstraeten2018	位置错误 — 添加	正文 line ~111	"constraint hierarchy" 处引用了 Vanderstraeten2018（内容为 3D frustrated spin systems，无关）

评分细则：每处错误正确指出位置（true positive）0.625 × 8 = 5.0 · 正确分类错误类型 0.625 × 8 = 5.0 · 真实条目误判为假 −0.5 / 条 · 满分 10。

4 种错误类型：① 完全捏造（fabrication）· ② 字段篡改（field tampering）· ③ 领域伪造（domain fabrication — 真实作者 + 合理领域，但具体论文不存在）· ④ 位置错误（wrong-position addition — 引用真实但用在不匹配的位置）。剩余 18 条引用为真实引用（来自 eassy_v3.tex，作者已人工核过），不应被标记为假。

opus · claude-opus-4-7 5.75 / 10 — 6/8 命中，漏检 E7/E8 错位

opusclaude-opus-4-7 · OAuth Max

△ 5.75 / 10

耗时 610.9s (~10 min)

turns 64

output_tokens 26 438

cache_read 4 176 556

stop_reason end_turn

exit_code 0

findings.md ✓ 详尽（167 行）

8 处注入错误 · 6 处命中（TP = 6/8）

#	ground truth 错误	opus 判定	opus 分类	判对
E1	Reynolds2019 完全捏造	非存在 · ScienceDirect 核 CPC vol.241 实际 TOC 无此论文	完全捏造	✓
E2	Tanaka2023 完全捏造	非存在 · Crossref 查 DOI 10.1103/PhysRevResearch.5.023115 命中实际是 Albay-Jun-Lai 的 Brownian particle 论文	完全捏造	✓
E3	Metropolis1953 年份 1953→1955	"year typo (1955 → 1953)" · AIP / Wikipedia 交叉确认 1953	字段篡改-年份	✓
E4	Frowis2010 卷号 81→82	"vol 82 → 81" · APS DOI 10.1103/PhysRevA.81.062337 验证	字段篡改-卷号	✓
E5	Boyd2024 领域伪造	非存在 · Agrawal 个人 publication list 无此 SIAM Rev. 论文，SIAM Rev. vol.66 TOC 也无	完全捏造应为领域伪造	△ 位置对，分类粗
E6	Verstraete2022 领域伪造	非存在 · DOI 10.1080/23746149.2022.2098453 返回 404，Crossref 无 Verstraete 此标题	完全捏造应为领域伪造	△ 位置对，分类粗
E7	Frowis2010 错位（line ~199, Kawasaki dynamics）	未识别 · 仅记录 "Used at: lines 199 and 654" 但未对照 cite 上下文（Kawasaki dynamics）与 bibitem 主题（MPO 算子）做语义匹配		✗
E8	Vanderstraeten2018 错位（line ~111, constraint hierarchy）	未识别 · 把 Vanderstraeten2018 列入"verified correct (16)"，未审查 line 111 的 cite 是否语义合理		✗

评分明细

TP 识别 (6×0.625)

3.75 / 5.0

分类正确 (4×0.625)

2.5 / 5.0

假阳性 (1×−0.5)

−0.5

总计

5.75 / 10

1 条假阳性

引用	opus 误判	真实情况	扣分
Bezzel1848	"page-636 figure should be re-verified — the inverted digit-pair '363 ↔ 636' looks like a transcription error"，建议改为 363	Berliner Schachzeitung 3, 636 正确（作者已人工核过）。opus 自认"unresolved"，但仍把它写进了"Substantive errors in real references"一节	−0.5

假阳性分析：与 deepseek 命中的同一假阳性。两个模型对历史早期期刊页码做"常识推断"（"363 看起来更合理"），开放网络上 secondary sources 也存在 363 / 636 的不一致引用。这种 heuristic 在 historic publication 核查中普遍不可靠。opus 自己在 §3e 把这条标为 "uncertain"，但 §2c 仍以"建议改 363"的口吻列出。

核心失败：未对每条 cite 做语义合理性匹配

opus 的工作流是 逐 bibitem 核 bibitem 数据准确性（作者、卷号、年份、DOI），并未为每个 \cite{...} 调用上下文重新审视"这一处引文是否切题"。
E7（Frowis2010 出现在 Kawasaki dynamics 处）与 E8（Vanderstraeten2018 出现在 constraint hierarchy 处）属于位置错误：bibitem 本身合法，但被插在了与其主题不匹配的句子里。
opus 在 E7 处仅备注 "Used at: lines 199 and 654"，未对比"Kawasaki dynamics（粒子交换 MCMC）" vs "MPO 算子（long-range 系统）"的主题落差。
对照 deepseek：deepseek 对每条 cite 都附 "topic match" 检查，因此 8/8 全中（含 E7/E8）。

4-class taxonomy 的颗粒度问题（E5、E6）

评分细则把"完全捏造"（fake authors + fake paper）和"领域伪造"（real authors + plausible topic + fake paper）作为两个独立 bucket。opus 把 E5（Boyd2024）/E6（Verstraete2022）和 E1/E2 一并归入"fictitious / non-existent" 一栏：

opus 在 E5 的分析里 实际识别了"作者真实"："Akshay Agrawal's official publication list lists no SIAM Review paper at all, and his only n-queens-related paper is the 2023 Optimization Letters article with Nobel and Boyd (i.e. Nobel2023)" — 即承认 Agrawal+Boyd 是真合作对。
但 opus 没有把这个观察提升为"领域伪造"分类，导致 4-class label 上失分。实质识别正确，标签颗粒度粗。

方法亮点

Crossref DOI 反查：构造 10.1103/PhysRevResearch.5.023115 等 DOI 主动 lookup，发现 E2 的 DOI 实际指向 Albay-Jun-Lai 的另一篇论文（DOI 占用而非空号），证据更硬。
期刊 TOC 枚举：对 CPC vol.241 与 SIAM Rev. vol.66 直接遍历目录验证。
反向作者核查：访问 akshayagrawal.com 个人 publication list 验证 E5。
findings.md 167 行，结构：critical → substantive → minor / debatable → verified-correct (16)。对每个 verified 条目都给出 verification 手段。
非评分但有价值的发现：在 §3b 指出"Simkin builds on Bowtell-Keevash"的 in-text 表述不准（实为独立同期工作）；在 §3c 指出 Yao2025 的 N=27 实际是 verification 而非 breakthrough（首次推到 N=27 是 Preußer-Engelhardt 2016）。这些是论文叙事层级的 review，超出引用核查范围。

deepseek · deepseek-v4-pro[1m] 8.5 / 10 — 全部 8 处命中，3 条假阳性

deepseekdeepseek-v4-pro[1m] · 官方 Anthropic API

✓ 8.5 / 10

耗时 2 495.0s (~42 min)

turns 65

output_tokens 31 804

cache_read 2 264 448

stop_reason end_turn

findings.md ✓ 详尽

8 处注入错误 · 全部命中（TP = 8/8）

#	ground truth 错误	deepseek 判定	deepseek 分类	判对
E1	Reynolds2019 完全捏造	零命中 · CPC vol.241 遍历确认不存在	完全捏造	✓
E2	Tanaka2023 完全捏造	PRResearch 5, 023115 实际是另一篇 electron beam 论文	完全捏造	✓
E3	Metropolis1953 年份 1953→1955	DOI 确认 1953，bibitem key 自相矛盾	字段篡改-年份	✓
E4	Frowis2010 卷号 81→82	DOI 81.062337 有效，82.062337 404	字段篡改-卷号	✓
E5	Boyd2024 领域伪造	Crossref 零命中 · Agrawal+Boyd 合作列表中无此论文	领域伪造	✓
E6	Verstraete2022 领域伪造	Crossref / Google Scholar 零匹配 · 文章号 2098453 不存在	领域伪造	✓
E7	Frowis2010 错位（line ~199, Kawasaki dynamics）	"misapplied at line 199 — Frowis2010 is about tensor operators, not Kawasaki dynamics"	位置错误	✓
E8	Vanderstraeten2018 错位（line ~111, constraint hierarchy）	"possibly misapplied at line 111 — no connection to N-queens constraint hierarchy"	位置错误	✓

评分明细

TP 识别 (8×0.625)

5.0 / 5.0 ✓

分类正确 (8×0.625)

5.0 / 5.0 ✓

假阳性 (3×−0.5)

−1.5

总计

8.5 / 10

3 条假阳性

引用	deepseek 误判	真实情况	扣分
Bezzel1848	page "almost certainly 363, not 636 — digit transposition"	Berliner Schachzeitung 3, 636 正确（作者人工核过）	−0.5
Xiang2024	year "2023, not 2024"（引 Crossref DOI 10.1017/9781009398671）	CUP 2024 出版，Crossref 元数据可能有 2023 online-first 字段	−0.5
Luria2021	author order "possibly wrong — Simkin first in published version"	arXiv:2105.11431 就是 Z. Luria and M. Simkin，bibitem 正确	−0.5

假阳性分析：Bezzel1848 的 page 误判源于 deepseek 对 1848 年期刊页码范围的"常识推理"（"a volume from 1848 would rarely run to 636 pages"），这种 heuristic 在历史文献核查中不可靠。Xiang2024 的 Crossref 元数据显示 2023 是因为 online-first 惯例，印刷版确为 2024。Luria2021 的 SODA 2022 proceedings 版与 arXiv 版 author order 可能不一致，但 bibitem 对应的是 arXiv version。

额外的准确发现（非评分项，但体现深度）

识别了 Bowtell2023 bibitem key 年份歧义（arXiv:2021, key:2023, 实际未正式发表）——虽非 bug 但显示理解 arXiv / 正式发表的差异。
指出 Simkin2022 的 arXiv 时间线问题（"Simkin's arXiv predates Bowtell & Keevash chronologically"）——对论文叙事逻辑的语义级别审查。
确认了全部 18 条真实引用无误（除上述 3 条假阳性外）——没有将任何一条真实条目误判为"论文不存在"。
对每条引用标注了验证方法（Crossref / Google Scholar）和置信度。

方法亮点

使用 Crossref REST API 逐个验证 DOI、作者、标题、卷号、年份。
对疑似捏造的引用使用 反向查询（查期刊卷号全部目录、查作者全部 publication list）。
对位置错误的引用，不仅查 bibitem 真实性，还 交叉比对 cite 语义内容与所引论文主题。
findings.md 长达 332 行，结构清晰（Summary → Detailed Findings 逐条 → Additional Observations → Confidence 分类）。

MiMo · mimo-v2.5-pro 6.9 / 10 — 6/8 命中，0 假阳性

MiMomimo-v2.5-pro · 小米 Token Plan CN 兼容 Anthropic

△ 6.9 / 10

耗时 848.8s (~14 min)

turns —

sandbox 隔离沙盒

findings.md ✓

8 处注入错误 · 6 处命中（TP = 6/8）

#	ground truth 错误	MiMo 判定	MiMo 分类	判对
E1	Reynolds2019 完全捏造	检测到异常，但分类为"期刊号/卷号错误"	字段篡改应为完全捏造	△ 位置对，分类错
E2	Tanaka2023 完全捏造	识别为不存在的引用	完全捏造	✓
E3	Metropolis1953 年份 1953→1955	年份错误，确认为 1953	字段篡改-年份	✓
E4	Frowis2010 卷号 81→82	卷号错误，确认为 81	字段篡改-卷号	✓
E5	Boyd2024 领域伪造	识别为不存在的论文	领域伪造	✓
E6	Verstraete2022 领域伪造	识别为不存在的单作者综述	领域伪造	✓
E7	Frowis2010 错位（line ~199, Kawasaki dynamics）	未识别 · 未检查 cite 位置与 bibitem 主题的语义匹配		✗
E8	Vanderstraeten2018 错位（line ~111, constraint hierarchy）	未识别 · 未审查 line 111 处 cite 的语义合理性		✗

评分明细

TP 识别 (6×0.625)

3.75 / 5.0

分类正确 (5×0.625)

3.125 / 5.0

假阳性 (0×−0.5)

0.0 ✓

总计

6.875 / 10 ≈ 6.9

核心失败：位置错误漏检 + 分类颗粒度粗

E7/E8 位置错误漏检：与 opus 相同，MiMo 的工作流偏向逐 bibitem 核数据准确性，未对每条 \cite{...} 位置做语义匹配。Frowis2010 在 Kawasaki dynamics 处的引用、Vanderstraeten2018 在 constraint hierarchy 处的引用均未触发审查。
E1 分类错误：Reynolds2019 实际是完全捏造的引用（作者 + 论文均不存在），但 MiMo 将其分类为"期刊号/卷号错误"（field tampering）而非"完全捏造"（fabrication），导致分类分 −0.625。
亮点：0 假阳性 — 未误伤任何真实引用，这一点优于 opus 和 deepseek。

MiMo 在 6 处检测到的错误中，5 处分类正确。未命中项（E7/E8）为位置错误类型，需对每条 cite 做语义匹配才能发现，当前工具流偏向文献元数据核查。

kimi · kimi-k2.6 6.25 / 10 — 6/8 命中，0 假阳性

kimikimi-k2.6 · Moonshot API

△ 6.25 / 10

耗时 2 363.5s (~39 min)

turns 63

output_tokens 12 638

cache_read 1 859 072

stop_reason end_turn

exit_code 0

findings.md ✓ 详尽（275 行）

8 处注入错误 · 6 处命中（TP = 6/8）

#	ground truth 错误	kimi 判定	kimi 分类	判对
E1	Reynolds2019 完全捏造	疑似不存在 · WebSearch + Crossref API 均无匹配	完全捏造	✓
E2	Tanaka2023 完全捏造	疑似不存在 · APS / Crossref 查 PRResearch 5, 023115 无此论文	完全捏造	✓
E3	Metropolis1953 年份 1953→1955	"年份错误 (1955 → 1953)" · AIP 官方记录确认 1953	字段篡改-年份	✓
E4	Frowis2010 卷号 81→82	"卷号错误 (82 → 81)" · APS DOI 81.062337 验证	字段篡改-卷号	✓
E5	Boyd2024 领域伪造	疑似不存在 · Agrawal+Boyd 有大量合作但无此标题论文，SIAM Rev. 卷66 TOC 无	疑似不存在应为领域伪造	△ 位置对，分类粗
E6	Verstraete2022 领域伪造	疑似不存在 · Verstraete 真做 TN 但无此单作者综述，Taylor & Francis 无此记录	疑似不存在应为领域伪造	△ 位置对，分类粗
E7	Frowis2010 错位（line ~199, Kawasaki dynamics）	未识别 · 未对 cite 上下文做语义匹配（Kawasaki dynamics vs MPO 算子主题不匹配）		✗
E8	Vanderstraeten2018 错位（line ~111, constraint hierarchy）	未识别 · 未审查 line 111 处 cite 语义合理性（3D frustrated spin vs N-queens constraint hierarchy）		✗

评分明细

TP 识别 (6×0.625)

3.75 / 5.0

分类正确 (4×0.625)

2.5 / 5.0

假阳性 (0×−0.5)

0.0 ✓

总计

6.25 / 10

核心失败：位置错误漏检 + 分类颗粒度粗

E7/E8 位置错误漏检：与 opus / MiMo 相同，kimi 的工作流偏向逐 bibitem 核数据准确性，未对每条 \cite{...} 位置做语义匹配。Frowis2010 在 Kawasaki dynamics 处的引用、Vanderstraeten2018 在 constraint hierarchy 处的引用均未触发审查。
E5/E6 分类颗粒度：kimi 将 E5（Boyd2024）和 E6（Verstraete2022）归入"疑似不存在"大类，未区分"完全捏造"（假作者+假论文）与"领域伪造"（真作者+合理领域+假论文）。但 kimi 在分析中实际识别了作者真实性：E5 指出"Agrawal 与 Boyd 确有大量合作"、E6 指出"Verstraete 最著名的综述是 Verstraete, Murg & Cirac (2008)"——即调查时已注意到领域伪造特征，但未将其提升为独立分类标签。
亮点：0 假阳性 — 未误伤任何真实引用。kimi 对 Simkin2022 / Bowtell2023 的 key-vs-年份观察写入了"潜在不一致/建议优化"子节，并在正文中注明"不是严格错误"，评分时不计为假阳性。

方法亮点

WebSearch + Crossref 双轨验证：对每一条疑似不存在的引用同时使用 WebSearch 和 Crossref REST API 交叉确认，不含糊。
期刊卷目录枚举：对 CPC vol.241、SIAM Rev. vol.66、PRResearch vol.5 实际遍历目录，验证指定卷号下是否有对应论文。
反向 author search + 备选文献推荐：对 E5 查了 stanford.edu/~boyd/papers.html，推荐 Nobel et al. (2023) 为备选；对 E6 推荐 Verstraete, Murg & Cirac (2008) 为备选；对 E2 推荐 Kourtis et al. (2019) 为备选。审稿人式的工作流。
额外观察（非评分项）：指出 Simkin2022 bibitem key 与发表年份不一致（key=2022, pub=2023, arXiv=2021）、Bowtell2023 目前仅为 arXiv 预印本（未正式发表）、Yao2025 作者名缩写可能歧义——这些均为论文叙事层面的审稿建议。

与 opus 的对比

kimi 与 opus 在 03 上表现高度相似：均 63-64 turns、均 6/8 TP、均漏检 E7/E8 位置错误、均未区分 E5/E6 领域伪造。差异点：kimi 0 假阳性（opus 1 条 Bezzel1848），但 kimi 耗时更长（39 vs 10 min），output_tokens 约为 opus 的一半（12.6k vs 26.4k——kimi 报告更简洁）。kimi 在备选文献推荐和多渠道交叉验证上略优于 opus。

磐石100 · S1-Base-Ultra 0.0 / 10 — turns=1

磐石100S1-Base-Ultra (S1-671B) · uni-api 网关

✗ 0.0 / 10

耗时 59.2s

turns 1

output_tokens 1 290

cache_read 0

stop_reason end_turn

findings.md 缺失

核心失败：模型从未真正调用任何工具

turns = 1：模型在 prompt 处理后立刻 end_turn，没进入 agent loop。
模型输出了一段执行计划（"1. 提取所有引用信息 → 2. 验证每个引用 → 3. 记录问题"）和一段伪 JSON tool call {"tool": "Read", "params": {"file_path": "./paper.tex"}}。
这些 JSON 块是 markdown 文本，不是 Anthropic 协议的 tool_use content block，claude.exe 不会解析执行。
Archive 沙盒中仅含原始 paper.tex，没有 findings.md。

与 benchmark 02 相同的失败模式：S1-Base-Ultra 未经过 tool-use post-training，遇到工具描述时只会"模仿表面格式"，无法生成结构化的 tool_use block。这也是 turns=1 的根本原因——模型在首轮就"完成了回答"（从它的视角看），然后 end_turn。

与 opus / deepseek / MiMo / kimi 对比：opus (64 turns)、deepseek (65)、MiMo (~25)、kimi (63) 均完成了完整的 agent loop，调用 Crossref、ScienceDirect、APS、arXiv 等真实 API 验证引用；磐石100 是模型能力问题——从未执行任何工具，turns=1 即 end_turn。这不是网络或限流引起的失败，而是 S1-Base-Ultra 缺乏 tool-use post-training 的直接表现。

磐石100 失败模式 · 深度分析为什么 turns=1

1 · 现象

磐石100 在首轮就给出"完整答案"并 end_turn。整个 59.2s 实际上花在单次 token 生成（1 290 output_tokens）上，而不是在 agent loop 里读文件、调用 Crossref API、写 findings.md。

2 · 模型输出的"伪工具调用"

在 panshi100-answer/citation/run1.md 的 Model final output 段，磐石100 写了以下伪 JSON：

{
  "tool": "Read",
  "params": {
    "file_path": "./paper.tex"
  }
}

模型在伪 tool call 之后立即开始分析内容——但它实际上没有 Read 到任何文件。后续的分析是纯幻觉。它从未调用 Crossref、Google Scholar、arXiv API，仅凭 prompt 中"关于 N-queens 统计力学论文"一句话猜测引用内容。

3 · 与 deepseek 的对比：turns 数量说明一切

指标	deepseek	磐石100
turns	65	1
output_tokens	31 804	1 290
cache_read	2 264 448	0
findings.md 行数	332 行	不存在
实际验证手段	Crossref API · Google Scholar · DOI lookup · arXiv	无（全部幻觉）

4 · 根因：S1-Base-Ultra 没有原生 tool-use 训练

Anthropic 协议下的 tool use 要求模型输出结构化的 tool_use content block（带 id / name / input 字段），由 harness 解析执行。
S1-Base-Ultra (ScienceOne 671B) 是基础语言模型，未经过 tool-use post-training。遇到工具描述时只会"模仿表面格式"——把工具调用写成 markdown 文本块。
这与 01 中 HTTP 单轮模式失败（reasoning 吃满 token、content 空）是不同的失败模式：HTTP 是推理黑洞，agent 模式是工具能力缺失。
要为磐石100 设计引用核查任务，需要换一种范式——例如 HTTP single-turn + 一次性提供所有引用条目让模型凭参数知识判断，而不是依赖 agent loop 调用外部工具。

5 · 不是网络/限流问题

请求成功完成，returncode=0、stop_reason=end_turn、有 1 290 output_tokens 输出。stderr 仅 157 字节（claude.exe 启动时的常规提示），未观察到 429 / 502 / 超时。这是模型能力问题而非调用层问题。

Benchmark 03 · 引用核查 五模型对比

总览 8 处错误 · 4 种类型 · 满分 10

题目 N-queens 统计力学论文 · 引用审计

题面（给被测 AI 的 prompt）

opus · claude-opus-4-7 5.75 / 10 — 6/8 命中，漏检 E7/E8 错位

8 处注入错误 · 6 处命中（TP = 6/8）

评分明细

1 条假阳性

核心失败：未对每条 cite 做语义合理性匹配

4-class taxonomy 的颗粒度问题（E5、E6）

方法亮点

deepseek · deepseek-v4-pro[1m] 8.5 / 10 — 全部 8 处命中，3 条假阳性

8 处注入错误 · 全部命中（TP = 8/8）

评分明细

3 条假阳性

额外的准确发现（非评分项，但体现深度）

方法亮点

MiMo · mimo-v2.5-pro 6.9 / 10 — 6/8 命中，0 假阳性

8 处注入错误 · 6 处命中（TP = 6/8）

评分明细

核心失败：位置错误漏检 + 分类颗粒度粗

kimi · kimi-k2.6 6.25 / 10 — 6/8 命中，0 假阳性

8 处注入错误 · 6 处命中（TP = 6/8）

评分明细

核心失败：位置错误漏检 + 分类颗粒度粗

方法亮点

与 opus 的对比

磐石100 · S1-Base-Ultra 0.0 / 10 — turns=1

核心失败：模型从未真正调用任何工具

磐石100 失败模式 · 深度分析 为什么 turns=1

1 · 现象

2 · 模型输出的"伪工具调用"

3 · 与 deepseek 的对比：turns 数量说明一切

4 · 根因：S1-Base-Ultra 没有原生 tool-use 训练

5 · 不是网络/限流问题

Benchmark 03 · 引用核查五模型对比

磐石100 失败模式 · 深度分析为什么 turns=1