Benchmark 03 · 引用核查 五模型对比

LaTeX 论文引用审计 · 8 处人为注入错误 · agent loop 模式 · 单次运行试跑
参评模型
opus · deepseek · MiMo · kimi · 磐石100
opus
claude-opus-4-7 · OAuth Max
deepseek
deepseek-v4-pro[1m] · 官方 Anthropic API
MiMo
mimo-v2.5-pro · 小米 Token Plan CN 兼容 Anthropic
kimi
kimi-k2.6 · Moonshot 兼容 Anthropic
磐石100
S1-Base-Ultra (S1-671B) · uni-api 网关
运行 harness
claude.exe -p · bypassPermissions · 3h 上限
沙盒隔离
%TEMP%\bench-citation\<model>\run1\ · 仅含 paper.tex

总览 8 处错误 · 4 种类型 · 满分 10

模型 耗时 (s) turns findings.md TP 命中 / 8 分类正确 / 8 假阳性 得分 / 10
opus
claude-opus-4-7
610.9 64 6 / 8 4 / 8 1 条 (−0.5) 5.75
deepseek
deepseek-v4-pro[1m]
2 495.0 65 8 / 8 8 / 8 3 条 (−1.5) 8.5
MiMo
mimo-v2.5-pro
848.8 6 / 8 5 / 8 0 条 6.9
kimi
kimi-k2.6
2 363.5 63 6 / 8 4 / 8 0 条 6.25
磐石100
S1-Base-Ultra
59.2 1 ✗ 缺失 0 / 8 0 / 8 0.0

评分基线(来自 solutions/citation/bugs_reference.md):每正确指出错误位置 +0.625 分(共 5.0)· 每正确分类错误类型 +0.625 分(共 5.0)· 假阳性 −0.5 分 / 条 · 下限 0。 deepseek 得分构成:8 TP 识别 5.0 + 8 分类正确 5.0 − 3 假阳性 1.5 = 8.5 / 10opus 得分构成:6 TP 识别 3.75 + 4 分类正确 2.5 − 1 假阳性 0.5 = 5.75 / 10; 漏检 E7、E8(位置错误),E5/E6(领域伪造)被笼统归入"完全捏造"未细分。 MiMo 得分构成:6 TP 识别 3.75 + 5 分类正确 3.125 − 0 假阳性 = 6.875 / 10 ≈ 6.9 / 10; 漏检 E7、E8(位置错误),Reynolds2019 误分类为"期刊号错"而非"完全捏造"。 kimi 得分构成:6 TP 识别 3.75 + 4 分类正确 2.5 − 0 假阳性 = 6.25 / 10; 漏检 E7、E8(位置错误),E5/E6 未区分"领域伪造"vs"完全捏造"。 磐石100 turns=1,仅输出执行计划文本,未实际调用任何工具。

题目 N-queens 统计力学论文 · 引用审计

题面(给被测 AI 的 prompt)

给定一篇 LaTeX 论文 paper.tex(关于 N-queens 问题的统计力学),包含 23 条 \bibitem 引用。

任务:作为学术审稿人,复核所有引用的准确性和恰当性。可使用 WebSearch / WebFetch / Bash / Python 调用 Crossref REST API、arXiv API 等。

输出:在沙盒中创建 findings.md,逐条记录发现的引用问题(位置、问题描述、证据、修复建议)。不修改 paper.tex。

关键约束:模型仅能访问 sandbox 内的 paper.tex(重命名自 paper_buggy.tex),answer_key.md 和 references_truth.md 不在沙盒中。

8 处人为注入错误(来自 solutions/citation/bugs_reference.md,模型不可见)
编号 bibitem key 类型 位置 错误描述
E1 Reynolds2019 完全捏造 正文 line ~122, bibitem J. M. Reynolds / S. T. Park 此合作记录不存在,CPC 241 卷无此论文
E2 Tanaka2023 完全捏造 正文 line ~791, bibitem H. Tanaka / K. Yamada 在 PR Research 5 上无此 tensor network counting 论文
E3 Metropolis1953 字段篡改 — 年份 bibitem 真实年份 1953,被改为 1955(bibitem key 仍是 Metropolis1953 自相矛盾)
E4 Frowis2010 字段篡改 — 卷号 bibitem 真实卷号 Phys. Rev. A 81, 062337,被改为 82
E5 Boyd2024 领域伪造 正文 line ~89, bibitem A. Agrawal / S. Boyd 真合作(CVXPY),但未发过此 SIAM Rev. 66 综述
E6 Verstraete2022 领域伪造 正文 line ~654, bibitem F. Verstraete 真做 tensor networks,但未发过此 Adv. Phys.: X 7 单作者综述
E7 Frowis2010 位置错误 — 添加 正文 line ~199 Kawasaki dynamics 处引用了 Frowis2010(内容为 MPO 算子,无关)
E8 Vanderstraeten2018 位置错误 — 添加 正文 line ~111 "constraint hierarchy" 处引用了 Vanderstraeten2018(内容为 3D frustrated spin systems,无关)
评分细则:每处错误正确指出位置(true positive)0.625 × 8 = 5.0 · 正确分类错误类型 0.625 × 8 = 5.0 · 真实条目误判为假 −0.5 / 条 · 满分 10。

4 种错误类型:① 完全捏造(fabrication)· ② 字段篡改(field tampering)· ③ 领域伪造(domain fabrication — 真实作者 + 合理领域,但具体论文不存在)· ④ 位置错误(wrong-position addition — 引用真实但用在不匹配的位置)。 剩余 18 条引用为真实引用(来自 eassy_v3.tex,作者已人工核过),不应被标记为假。

opus · claude-opus-4-7 5.75 / 10 — 6/8 命中,漏检 E7/E8 错位

opusclaude-opus-4-7 · OAuth Max
△ 5.75 / 10
耗时 610.9s (~10 min)
turns 64
output_tokens 26 438
cache_read 4 176 556
stop_reason end_turn
exit_code 0
findings.md ✓ 详尽(167 行)

8 处注入错误 · 6 处命中(TP = 6/8)

# ground truth 错误 opus 判定 opus 分类 判对
E1 Reynolds2019 完全捏造 非存在 · ScienceDirect 核 CPC vol.241 实际 TOC 无此论文 完全捏造
E2 Tanaka2023 完全捏造 非存在 · Crossref 查 DOI 10.1103/PhysRevResearch.5.023115 命中实际是 Albay-Jun-Lai 的 Brownian particle 论文 完全捏造
E3 Metropolis1953 年份 1953→1955 "year typo (1955 → 1953)" · AIP / Wikipedia 交叉确认 1953 字段篡改-年份
E4 Frowis2010 卷号 81→82 "vol 82 → 81" · APS DOI 10.1103/PhysRevA.81.062337 验证 字段篡改-卷号
E5 Boyd2024 领域伪造 非存在 · Agrawal 个人 publication list 无此 SIAM Rev. 论文,SIAM Rev. vol.66 TOC 也无 完全捏造应为领域伪造 △ 位置对,分类粗
E6 Verstraete2022 领域伪造 非存在 · DOI 10.1080/23746149.2022.2098453 返回 404,Crossref 无 Verstraete 此标题 完全捏造应为领域伪造 △ 位置对,分类粗
E7 Frowis2010 错位(line ~199, Kawasaki dynamics) 未识别 · 仅记录 "Used at: lines 199 and 654" 但未对照 cite 上下文(Kawasaki dynamics)与 bibitem 主题(MPO 算子)做语义匹配
E8 Vanderstraeten2018 错位(line ~111, constraint hierarchy) 未识别 · 把 Vanderstraeten2018 列入"verified correct (16)",未审查 line 111 的 cite 是否语义合理

评分明细

TP 识别 (6×0.625)
3.75 / 5.0
分类正确 (4×0.625)
2.5 / 5.0
假阳性 (1×−0.5)
−0.5
总计
5.75 / 10

1 条假阳性

引用 opus 误判 真实情况 扣分
Bezzel1848 "page-636 figure should be re-verified — the inverted digit-pair '363 ↔ 636' looks like a transcription error",建议改为 363 Berliner Schachzeitung 3, 636 正确(作者已人工核过)。opus 自认"unresolved",但仍把它写进了"Substantive errors in real references"一节 −0.5

假阳性分析:与 deepseek 命中的同一假阳性。两个模型对历史早期期刊页码做"常识推断"("363 看起来更合理"),开放网络上 secondary sources 也存在 363 / 636 的不一致引用。这种 heuristic 在 historic publication 核查中普遍不可靠。opus 自己在 §3e 把这条标为 "uncertain",但 §2c 仍以"建议改 363"的口吻列出。

核心失败:未对每条 cite 做语义合理性匹配

  • opus 的工作流是 逐 bibitem 核 bibitem 数据准确性(作者、卷号、年份、DOI),并未为每个 \cite{...} 调用上下文重新审视"这一处引文是否切题"。
  • E7(Frowis2010 出现在 Kawasaki dynamics 处)与 E8(Vanderstraeten2018 出现在 constraint hierarchy 处)属于位置错误:bibitem 本身合法,但被插在了与其主题不匹配的句子里。
  • opus 在 E7 处仅备注 "Used at: lines 199 and 654",未对比"Kawasaki dynamics(粒子交换 MCMC)" vs "MPO 算子(long-range 系统)"的主题落差。
  • 对照 deepseek:deepseek 对每条 cite 都附 "topic match" 检查,因此 8/8 全中(含 E7/E8)。

4-class taxonomy 的颗粒度问题(E5、E6)

评分细则把"完全捏造"(fake authors + fake paper)和"领域伪造"(real authors + plausible topic + fake paper)作为两个独立 bucket。opus 把 E5(Boyd2024)/E6(Verstraete2022)和 E1/E2 一并归入"fictitious / non-existent" 一栏:

  • opus 在 E5 的分析里 实际识别了"作者真实":"Akshay Agrawal's official publication list lists no SIAM Review paper at all, and his only n-queens-related paper is the 2023 Optimization Letters article with Nobel and Boyd (i.e. Nobel2023)" — 即承认 Agrawal+Boyd 是真合作对。
  • 但 opus 没有把这个观察提升为"领域伪造"分类,导致 4-class label 上失分。实质识别正确,标签颗粒度粗

方法亮点

  • Crossref DOI 反查:构造 10.1103/PhysRevResearch.5.023115 等 DOI 主动 lookup,发现 E2 的 DOI 实际指向 Albay-Jun-Lai 的另一篇论文(DOI 占用而非空号),证据更硬。
  • 期刊 TOC 枚举:对 CPC vol.241 与 SIAM Rev. vol.66 直接遍历目录验证。
  • 反向作者核查:访问 akshayagrawal.com 个人 publication list 验证 E5。
  • findings.md 167 行,结构:critical → substantive → minor / debatable → verified-correct (16)。对每个 verified 条目都给出 verification 手段。
  • 非评分但有价值的发现:在 §3b 指出"Simkin builds on Bowtell-Keevash"的 in-text 表述不准(实为独立同期工作);在 §3c 指出 Yao2025 的 N=27 实际是 verification 而非 breakthrough(首次推到 N=27 是 Preußer-Engelhardt 2016)。这些是论文叙事层级的 review,超出引用核查范围。

deepseek · deepseek-v4-pro[1m] 8.5 / 10 — 全部 8 处命中,3 条假阳性

deepseekdeepseek-v4-pro[1m] · 官方 Anthropic API
✓ 8.5 / 10
耗时 2 495.0s (~42 min)
turns 65
output_tokens 31 804
cache_read 2 264 448
stop_reason end_turn
findings.md ✓ 详尽

8 处注入错误 · 全部命中(TP = 8/8)

# ground truth 错误 deepseek 判定 deepseek 分类 判对
E1 Reynolds2019 完全捏造 零命中 · CPC vol.241 遍历确认不存在 完全捏造
E2 Tanaka2023 完全捏造 PRResearch 5, 023115 实际是另一篇 electron beam 论文 完全捏造
E3 Metropolis1953 年份 1953→1955 DOI 确认 1953,bibitem key 自相矛盾 字段篡改-年份
E4 Frowis2010 卷号 81→82 DOI 81.062337 有效,82.062337 404 字段篡改-卷号
E5 Boyd2024 领域伪造 Crossref 零命中 · Agrawal+Boyd 合作列表中无此论文 领域伪造
E6 Verstraete2022 领域伪造 Crossref / Google Scholar 零匹配 · 文章号 2098453 不存在 领域伪造
E7 Frowis2010 错位(line ~199, Kawasaki dynamics) "misapplied at line 199 — Frowis2010 is about tensor operators, not Kawasaki dynamics" 位置错误
E8 Vanderstraeten2018 错位(line ~111, constraint hierarchy) "possibly misapplied at line 111 — no connection to N-queens constraint hierarchy" 位置错误

评分明细

TP 识别 (8×0.625)
5.0 / 5.0 ✓
分类正确 (8×0.625)
5.0 / 5.0 ✓
假阳性 (3×−0.5)
−1.5
总计
8.5 / 10

3 条假阳性

引用 deepseek 误判 真实情况 扣分
Bezzel1848 page "almost certainly 363, not 636 — digit transposition" Berliner Schachzeitung 3, 636 正确(作者人工核过) −0.5
Xiang2024 year "2023, not 2024"(引 Crossref DOI 10.1017/9781009398671) CUP 2024 出版,Crossref 元数据可能有 2023 online-first 字段 −0.5
Luria2021 author order "possibly wrong — Simkin first in published version" arXiv:2105.11431 就是 Z. Luria and M. Simkin,bibitem 正确 −0.5

假阳性分析:Bezzel1848 的 page 误判源于 deepseek 对 1848 年期刊页码范围的"常识推理"("a volume from 1848 would rarely run to 636 pages"),这种 heuristic 在历史文献核查中不可靠。Xiang2024 的 Crossref 元数据显示 2023 是因为 online-first 惯例,印刷版确为 2024。Luria2021 的 SODA 2022 proceedings 版与 arXiv 版 author order 可能不一致,但 bibitem 对应的是 arXiv version。

额外的准确发现(非评分项,但体现深度)

  • 识别了 Bowtell2023 bibitem key 年份歧义(arXiv:2021, key:2023, 实际未正式发表)——虽非 bug 但显示理解 arXiv / 正式发表的差异。
  • 指出 Simkin2022 的 arXiv 时间线问题("Simkin's arXiv predates Bowtell & Keevash chronologically")——对论文叙事逻辑的语义级别审查。
  • 确认了全部 18 条真实引用无误(除上述 3 条假阳性外)——没有将任何一条真实条目误判为"论文不存在"
  • 对每条引用标注了验证方法(Crossref / Google Scholar)和置信度。

方法亮点

  • 使用 Crossref REST API 逐个验证 DOI、作者、标题、卷号、年份。
  • 对疑似捏造的引用使用 反向查询(查期刊卷号全部目录、查作者全部 publication list)。
  • 对位置错误的引用,不仅查 bibitem 真实性,还 交叉比对 cite 语义内容与所引论文主题
  • findings.md 长达 332 行,结构清晰(Summary → Detailed Findings 逐条 → Additional Observations → Confidence 分类)。

MiMo · mimo-v2.5-pro 6.9 / 10 — 6/8 命中,0 假阳性

MiMomimo-v2.5-pro · 小米 Token Plan CN 兼容 Anthropic
△ 6.9 / 10
耗时 848.8s (~14 min)
turns
sandbox 隔离沙盒
findings.md

8 处注入错误 · 6 处命中(TP = 6/8)

# ground truth 错误 MiMo 判定 MiMo 分类 判对
E1 Reynolds2019 完全捏造 检测到异常,但分类为"期刊号/卷号错误" 字段篡改应为完全捏造 △ 位置对,分类错
E2 Tanaka2023 完全捏造 识别为不存在的引用 完全捏造
E3 Metropolis1953 年份 1953→1955 年份错误,确认为 1953 字段篡改-年份
E4 Frowis2010 卷号 81→82 卷号错误,确认为 81 字段篡改-卷号
E5 Boyd2024 领域伪造 识别为不存在的论文 领域伪造
E6 Verstraete2022 领域伪造 识别为不存在的单作者综述 领域伪造
E7 Frowis2010 错位(line ~199, Kawasaki dynamics) 未识别 · 未检查 cite 位置与 bibitem 主题的语义匹配
E8 Vanderstraeten2018 错位(line ~111, constraint hierarchy) 未识别 · 未审查 line 111 处 cite 的语义合理性

评分明细

TP 识别 (6×0.625)
3.75 / 5.0
分类正确 (5×0.625)
3.125 / 5.0
假阳性 (0×−0.5)
0.0 ✓
总计
6.875 / 10 ≈ 6.9

核心失败:位置错误漏检 + 分类颗粒度粗

  • E7/E8 位置错误漏检:与 opus 相同,MiMo 的工作流偏向逐 bibitem 核数据准确性,未对每条 \cite{...} 位置做语义匹配。Frowis2010 在 Kawasaki dynamics 处的引用、Vanderstraeten2018 在 constraint hierarchy 处的引用均未触发审查。
  • E1 分类错误:Reynolds2019 实际是完全捏造的引用(作者 + 论文均不存在),但 MiMo 将其分类为"期刊号/卷号错误"(field tampering)而非"完全捏造"(fabrication),导致分类分 −0.625。
  • 亮点:0 假阳性 — 未误伤任何真实引用,这一点优于 opus 和 deepseek。

MiMo 在 6 处检测到的错误中,5 处分类正确。未命中项(E7/E8)为位置错误类型,需对每条 cite 做语义匹配才能发现,当前工具流偏向文献元数据核查。

kimi · kimi-k2.6 6.25 / 10 — 6/8 命中,0 假阳性

kimikimi-k2.6 · Moonshot API
△ 6.25 / 10
耗时 2 363.5s (~39 min)
turns 63
output_tokens 12 638
cache_read 1 859 072
stop_reason end_turn
exit_code 0
findings.md ✓ 详尽(275 行)

8 处注入错误 · 6 处命中(TP = 6/8)

# ground truth 错误 kimi 判定 kimi 分类 判对
E1 Reynolds2019 完全捏造 疑似不存在 · WebSearch + Crossref API 均无匹配 完全捏造
E2 Tanaka2023 完全捏造 疑似不存在 · APS / Crossref 查 PRResearch 5, 023115 无此论文 完全捏造
E3 Metropolis1953 年份 1953→1955 "年份错误 (1955 → 1953)" · AIP 官方记录确认 1953 字段篡改-年份
E4 Frowis2010 卷号 81→82 "卷号错误 (82 → 81)" · APS DOI 81.062337 验证 字段篡改-卷号
E5 Boyd2024 领域伪造 疑似不存在 · Agrawal+Boyd 有大量合作但无此标题论文,SIAM Rev. 卷66 TOC 无 疑似不存在应为领域伪造 △ 位置对,分类粗
E6 Verstraete2022 领域伪造 疑似不存在 · Verstraete 真做 TN 但无此单作者综述,Taylor & Francis 无此记录 疑似不存在应为领域伪造 △ 位置对,分类粗
E7 Frowis2010 错位(line ~199, Kawasaki dynamics) 未识别 · 未对 cite 上下文做语义匹配(Kawasaki dynamics vs MPO 算子主题不匹配)
E8 Vanderstraeten2018 错位(line ~111, constraint hierarchy) 未识别 · 未审查 line 111 处 cite 语义合理性(3D frustrated spin vs N-queens constraint hierarchy)

评分明细

TP 识别 (6×0.625)
3.75 / 5.0
分类正确 (4×0.625)
2.5 / 5.0
假阳性 (0×−0.5)
0.0 ✓
总计
6.25 / 10

核心失败:位置错误漏检 + 分类颗粒度粗

  • E7/E8 位置错误漏检:与 opus / MiMo 相同,kimi 的工作流偏向逐 bibitem 核数据准确性,未对每条 \cite{...} 位置做语义匹配。Frowis2010 在 Kawasaki dynamics 处的引用、Vanderstraeten2018 在 constraint hierarchy 处的引用均未触发审查。
  • E5/E6 分类颗粒度:kimi 将 E5(Boyd2024)和 E6(Verstraete2022)归入"疑似不存在"大类,未区分"完全捏造"(假作者+假论文)与"领域伪造"(真作者+合理领域+假论文)。但 kimi 在分析中实际识别了作者真实性:E5 指出"Agrawal 与 Boyd 确有大量合作"、E6 指出"Verstraete 最著名的综述是 Verstraete, Murg & Cirac (2008)"——即调查时已注意到领域伪造特征,但未将其提升为独立分类标签。
  • 亮点:0 假阳性 — 未误伤任何真实引用。kimi 对 Simkin2022 / Bowtell2023 的 key-vs-年份观察写入了"潜在不一致/建议优化"子节,并在正文中注明"不是严格错误",评分时不计为假阳性。

方法亮点

  • WebSearch + Crossref 双轨验证:对每一条疑似不存在的引用同时使用 WebSearch 和 Crossref REST API 交叉确认,不含糊。
  • 期刊卷目录枚举:对 CPC vol.241、SIAM Rev. vol.66、PRResearch vol.5 实际遍历目录,验证指定卷号下是否有对应论文。
  • 反向 author search + 备选文献推荐:对 E5 查了 stanford.edu/~boyd/papers.html,推荐 Nobel et al. (2023) 为备选;对 E6 推荐 Verstraete, Murg & Cirac (2008) 为备选;对 E2 推荐 Kourtis et al. (2019) 为备选。审稿人式的工作流。
  • 额外观察(非评分项):指出 Simkin2022 bibitem key 与发表年份不一致(key=2022, pub=2023, arXiv=2021)、Bowtell2023 目前仅为 arXiv 预印本(未正式发表)、Yao2025 作者名缩写可能歧义——这些均为论文叙事层面的审稿建议。

与 opus 的对比

kimi 与 opus 在 03 上表现高度相似:均 63-64 turns、均 6/8 TP、均漏检 E7/E8 位置错误、均未区分 E5/E6 领域伪造。差异点:kimi 0 假阳性(opus 1 条 Bezzel1848),但 kimi 耗时更长(39 vs 10 min),output_tokens 约为 opus 的一半(12.6k vs 26.4k——kimi 报告更简洁)。kimi 在备选文献推荐和多渠道交叉验证上略优于 opus。

磐石100 · S1-Base-Ultra 0.0 / 10 — turns=1

磐石100S1-Base-Ultra (S1-671B) · uni-api 网关
✗ 0.0 / 10
耗时 59.2s
turns 1
output_tokens 1 290
cache_read 0
stop_reason end_turn
findings.md 缺失

核心失败:模型从未真正调用任何工具

  • turns = 1:模型在 prompt 处理后立刻 end_turn,没进入 agent loop。
  • 模型输出了一段执行计划("1. 提取所有引用信息 → 2. 验证每个引用 → 3. 记录问题")和一段伪 JSON tool call {"tool": "Read", "params": {"file_path": "./paper.tex"}}
  • 这些 JSON 块是 markdown 文本,不是 Anthropic 协议的 tool_use content block,claude.exe 不会解析执行。
  • Archive 沙盒中仅含原始 paper.tex,没有 findings.md。

与 benchmark 02 相同的失败模式:S1-Base-Ultra 未经过 tool-use post-training,遇到工具描述时只会"模仿表面格式",无法生成结构化的 tool_use block。这也是 turns=1 的根本原因——模型在首轮就"完成了回答"(从它的视角看),然后 end_turn

与 opus / deepseek / MiMo / kimi 对比:opus (64 turns)、deepseek (65)、MiMo (~25)、kimi (63) 均完成了完整的 agent loop,调用 Crossref、ScienceDirect、APS、arXiv 等真实 API 验证引用;磐石100 是模型能力问题——从未执行任何工具,turns=1 即 end_turn。这不是网络或限流引起的失败,而是 S1-Base-Ultra 缺乏 tool-use post-training 的直接表现。

磐石100 失败模式 · 深度分析 为什么 turns=1

1 · 现象

磐石100 在首轮就给出"完整答案"并 end_turn。整个 59.2s 实际上花在单次 token 生成(1 290 output_tokens)上,而不是在 agent loop 里读文件、调用 Crossref API、写 findings.md。

2 · 模型输出的"伪工具调用"

panshi100-answer/citation/run1.md 的 Model final output 段,磐石100 写了以下伪 JSON:

{
  "tool": "Read",
  "params": {
    "file_path": "./paper.tex"
  }
}

模型在伪 tool call 之后立即开始分析内容——但它实际上没有 Read 到任何文件。后续的分析是纯幻觉。它从未调用 Crossref、Google Scholar、arXiv API,仅凭 prompt 中"关于 N-queens 统计力学论文"一句话猜测引用内容。

3 · 与 deepseek 的对比:turns 数量说明一切

指标 deepseek 磐石100
turns 65 1
output_tokens 31 804 1 290
cache_read 2 264 448 0
findings.md 行数 332 行 不存在
实际验证手段 Crossref API · Google Scholar · DOI lookup · arXiv 无(全部幻觉)

4 · 根因:S1-Base-Ultra 没有原生 tool-use 训练

5 · 不是网络/限流问题

请求成功完成,returncode=0、stop_reason=end_turn、有 1 290 output_tokens 输出。stderr 仅 157 字节(claude.exe 启动时的常规提示),未观察到 429 / 502 / 超时。这是模型能力问题而非调用层问题