| 模型 | 耗时 (s) | turns | findings.md | TP 命中 / 8 | 分类正确 / 8 | 假阳性 | 得分 / 10 |
|---|---|---|---|---|---|---|---|
| opus claude-opus-4-7 |
610.9 | 64 | ✓ | 6 / 8 | 4 / 8 | 1 条 (−0.5) | 5.75 |
| deepseek deepseek-v4-pro[1m] |
2 495.0 | 65 | ✓ | 8 / 8 | 8 / 8 | 3 条 (−1.5) | 8.5 |
| MiMo mimo-v2.5-pro |
848.8 | — | ✓ | 6 / 8 | 5 / 8 | 0 条 | 6.9 |
| kimi kimi-k2.6 |
2 363.5 | 63 | ✓ | 6 / 8 | 4 / 8 | 0 条 | 6.25 |
| 磐石100 S1-Base-Ultra |
59.2 | 1 | ✗ 缺失 | 0 / 8 | 0 / 8 | — | 0.0 |
评分基线(来自 solutions/citation/bugs_reference.md):每正确指出错误位置 +0.625 分(共 5.0)· 每正确分类错误类型 +0.625 分(共 5.0)· 假阳性 −0.5 分 / 条 · 下限 0。 deepseek 得分构成:8 TP 识别 5.0 + 8 分类正确 5.0 − 3 假阳性 1.5 = 8.5 / 10。 opus 得分构成:6 TP 识别 3.75 + 4 分类正确 2.5 − 1 假阳性 0.5 = 5.75 / 10; 漏检 E7、E8(位置错误),E5/E6(领域伪造)被笼统归入"完全捏造"未细分。 MiMo 得分构成:6 TP 识别 3.75 + 5 分类正确 3.125 − 0 假阳性 = 6.875 / 10 ≈ 6.9 / 10; 漏检 E7、E8(位置错误),Reynolds2019 误分类为"期刊号错"而非"完全捏造"。 kimi 得分构成:6 TP 识别 3.75 + 4 分类正确 2.5 − 0 假阳性 = 6.25 / 10; 漏检 E7、E8(位置错误),E5/E6 未区分"领域伪造"vs"完全捏造"。 磐石100 turns=1,仅输出执行计划文本,未实际调用任何工具。
给定一篇 LaTeX 论文 paper.tex(关于 N-queens 问题的统计力学),包含 23 条 \bibitem 引用。
任务:作为学术审稿人,复核所有引用的准确性和恰当性。可使用 WebSearch / WebFetch / Bash / Python 调用 Crossref REST API、arXiv API 等。
输出:在沙盒中创建 findings.md,逐条记录发现的引用问题(位置、问题描述、证据、修复建议)。不修改 paper.tex。
关键约束:模型仅能访问 sandbox 内的 paper.tex(重命名自 paper_buggy.tex),answer_key.md 和 references_truth.md 不在沙盒中。
| 编号 | bibitem key | 类型 | 位置 | 错误描述 |
|---|---|---|---|---|
| E1 | Reynolds2019 | 完全捏造 | 正文 line ~122, bibitem | J. M. Reynolds / S. T. Park 此合作记录不存在,CPC 241 卷无此论文 |
| E2 | Tanaka2023 | 完全捏造 | 正文 line ~791, bibitem | H. Tanaka / K. Yamada 在 PR Research 5 上无此 tensor network counting 论文 |
| E3 | Metropolis1953 | 字段篡改 — 年份 | bibitem | 真实年份 1953,被改为 1955(bibitem key 仍是 Metropolis1953 自相矛盾) |
| E4 | Frowis2010 | 字段篡改 — 卷号 | bibitem | 真实卷号 Phys. Rev. A 81, 062337,被改为 82 |
| E5 | Boyd2024 | 领域伪造 | 正文 line ~89, bibitem | A. Agrawal / S. Boyd 真合作(CVXPY),但未发过此 SIAM Rev. 66 综述 |
| E6 | Verstraete2022 | 领域伪造 | 正文 line ~654, bibitem | F. Verstraete 真做 tensor networks,但未发过此 Adv. Phys.: X 7 单作者综述 |
| E7 | Frowis2010 | 位置错误 — 添加 | 正文 line ~199 | Kawasaki dynamics 处引用了 Frowis2010(内容为 MPO 算子,无关) |
| E8 | Vanderstraeten2018 | 位置错误 — 添加 | 正文 line ~111 | "constraint hierarchy" 处引用了 Vanderstraeten2018(内容为 3D frustrated spin systems,无关) |
4 种错误类型:① 完全捏造(fabrication)· ② 字段篡改(field tampering)· ③ 领域伪造(domain fabrication — 真实作者 + 合理领域,但具体论文不存在)· ④ 位置错误(wrong-position addition — 引用真实但用在不匹配的位置)。 剩余 18 条引用为真实引用(来自 eassy_v3.tex,作者已人工核过),不应被标记为假。
| # | ground truth 错误 | opus 判定 | opus 分类 | 判对 |
|---|---|---|---|---|
| E1 | Reynolds2019 完全捏造 | 非存在 · ScienceDirect 核 CPC vol.241 实际 TOC 无此论文 | 完全捏造 | ✓ |
| E2 | Tanaka2023 完全捏造 | 非存在 · Crossref 查 DOI 10.1103/PhysRevResearch.5.023115 命中实际是 Albay-Jun-Lai 的 Brownian particle 论文 | 完全捏造 | ✓ |
| E3 | Metropolis1953 年份 1953→1955 | "year typo (1955 → 1953)" · AIP / Wikipedia 交叉确认 1953 | 字段篡改-年份 | ✓ |
| E4 | Frowis2010 卷号 81→82 | "vol 82 → 81" · APS DOI 10.1103/PhysRevA.81.062337 验证 | 字段篡改-卷号 | ✓ |
| E5 | Boyd2024 领域伪造 | 非存在 · Agrawal 个人 publication list 无此 SIAM Rev. 论文,SIAM Rev. vol.66 TOC 也无 | 完全捏造应为领域伪造 | △ 位置对,分类粗 |
| E6 | Verstraete2022 领域伪造 | 非存在 · DOI 10.1080/23746149.2022.2098453 返回 404,Crossref 无 Verstraete 此标题 | 完全捏造应为领域伪造 | △ 位置对,分类粗 |
| E7 | Frowis2010 错位(line ~199, Kawasaki dynamics) | 未识别 · 仅记录 "Used at: lines 199 and 654" 但未对照 cite 上下文(Kawasaki dynamics)与 bibitem 主题(MPO 算子)做语义匹配 | ✗ | |
| E8 | Vanderstraeten2018 错位(line ~111, constraint hierarchy) | 未识别 · 把 Vanderstraeten2018 列入"verified correct (16)",未审查 line 111 的 cite 是否语义合理 | ✗ | |
| 引用 | opus 误判 | 真实情况 | 扣分 |
|---|---|---|---|
| Bezzel1848 | "page-636 figure should be re-verified — the inverted digit-pair '363 ↔ 636' looks like a transcription error",建议改为 363 | Berliner Schachzeitung 3, 636 正确(作者已人工核过)。opus 自认"unresolved",但仍把它写进了"Substantive errors in real references"一节 | −0.5 |
假阳性分析:与 deepseek 命中的同一假阳性。两个模型对历史早期期刊页码做"常识推断"("363 看起来更合理"),开放网络上 secondary sources 也存在 363 / 636 的不一致引用。这种 heuristic 在 historic publication 核查中普遍不可靠。opus 自己在 §3e 把这条标为 "uncertain",但 §2c 仍以"建议改 363"的口吻列出。
\cite{...} 调用上下文重新审视"这一处引文是否切题"。评分细则把"完全捏造"(fake authors + fake paper)和"领域伪造"(real authors + plausible topic + fake paper)作为两个独立 bucket。opus 把 E5(Boyd2024)/E6(Verstraete2022)和 E1/E2 一并归入"fictitious / non-existent" 一栏:
10.1103/PhysRevResearch.5.023115 等 DOI 主动 lookup,发现 E2 的 DOI 实际指向 Albay-Jun-Lai 的另一篇论文(DOI 占用而非空号),证据更硬。| # | ground truth 错误 | deepseek 判定 | deepseek 分类 | 判对 |
|---|---|---|---|---|
| E1 | Reynolds2019 完全捏造 | 零命中 · CPC vol.241 遍历确认不存在 | 完全捏造 | ✓ |
| E2 | Tanaka2023 完全捏造 | PRResearch 5, 023115 实际是另一篇 electron beam 论文 | 完全捏造 | ✓ |
| E3 | Metropolis1953 年份 1953→1955 | DOI 确认 1953,bibitem key 自相矛盾 | 字段篡改-年份 | ✓ |
| E4 | Frowis2010 卷号 81→82 | DOI 81.062337 有效,82.062337 404 | 字段篡改-卷号 | ✓ |
| E5 | Boyd2024 领域伪造 | Crossref 零命中 · Agrawal+Boyd 合作列表中无此论文 | 领域伪造 | ✓ |
| E6 | Verstraete2022 领域伪造 | Crossref / Google Scholar 零匹配 · 文章号 2098453 不存在 | 领域伪造 | ✓ |
| E7 | Frowis2010 错位(line ~199, Kawasaki dynamics) | "misapplied at line 199 — Frowis2010 is about tensor operators, not Kawasaki dynamics" | 位置错误 | ✓ |
| E8 | Vanderstraeten2018 错位(line ~111, constraint hierarchy) | "possibly misapplied at line 111 — no connection to N-queens constraint hierarchy" | 位置错误 | ✓ |
| 引用 | deepseek 误判 | 真实情况 | 扣分 |
|---|---|---|---|
| Bezzel1848 | page "almost certainly 363, not 636 — digit transposition" | Berliner Schachzeitung 3, 636 正确(作者人工核过) | −0.5 |
| Xiang2024 | year "2023, not 2024"(引 Crossref DOI 10.1017/9781009398671) | CUP 2024 出版,Crossref 元数据可能有 2023 online-first 字段 | −0.5 |
| Luria2021 | author order "possibly wrong — Simkin first in published version" | arXiv:2105.11431 就是 Z. Luria and M. Simkin,bibitem 正确 | −0.5 |
假阳性分析:Bezzel1848 的 page 误判源于 deepseek 对 1848 年期刊页码范围的"常识推理"("a volume from 1848 would rarely run to 636 pages"),这种 heuristic 在历史文献核查中不可靠。Xiang2024 的 Crossref 元数据显示 2023 是因为 online-first 惯例,印刷版确为 2024。Luria2021 的 SODA 2022 proceedings 版与 arXiv 版 author order 可能不一致,但 bibitem 对应的是 arXiv version。
| # | ground truth 错误 | MiMo 判定 | MiMo 分类 | 判对 |
|---|---|---|---|---|
| E1 | Reynolds2019 完全捏造 | 检测到异常,但分类为"期刊号/卷号错误" | 字段篡改应为完全捏造 | △ 位置对,分类错 |
| E2 | Tanaka2023 完全捏造 | 识别为不存在的引用 | 完全捏造 | ✓ |
| E3 | Metropolis1953 年份 1953→1955 | 年份错误,确认为 1953 | 字段篡改-年份 | ✓ |
| E4 | Frowis2010 卷号 81→82 | 卷号错误,确认为 81 | 字段篡改-卷号 | ✓ |
| E5 | Boyd2024 领域伪造 | 识别为不存在的论文 | 领域伪造 | ✓ |
| E6 | Verstraete2022 领域伪造 | 识别为不存在的单作者综述 | 领域伪造 | ✓ |
| E7 | Frowis2010 错位(line ~199, Kawasaki dynamics) | 未识别 · 未检查 cite 位置与 bibitem 主题的语义匹配 | ✗ | |
| E8 | Vanderstraeten2018 错位(line ~111, constraint hierarchy) | 未识别 · 未审查 line 111 处 cite 的语义合理性 | ✗ | |
\cite{...} 位置做语义匹配。Frowis2010 在 Kawasaki dynamics 处的引用、Vanderstraeten2018 在 constraint hierarchy 处的引用均未触发审查。MiMo 在 6 处检测到的错误中,5 处分类正确。未命中项(E7/E8)为位置错误类型,需对每条 cite 做语义匹配才能发现,当前工具流偏向文献元数据核查。
| # | ground truth 错误 | kimi 判定 | kimi 分类 | 判对 |
|---|---|---|---|---|
| E1 | Reynolds2019 完全捏造 | 疑似不存在 · WebSearch + Crossref API 均无匹配 | 完全捏造 | ✓ |
| E2 | Tanaka2023 完全捏造 | 疑似不存在 · APS / Crossref 查 PRResearch 5, 023115 无此论文 | 完全捏造 | ✓ |
| E3 | Metropolis1953 年份 1953→1955 | "年份错误 (1955 → 1953)" · AIP 官方记录确认 1953 | 字段篡改-年份 | ✓ |
| E4 | Frowis2010 卷号 81→82 | "卷号错误 (82 → 81)" · APS DOI 81.062337 验证 | 字段篡改-卷号 | ✓ |
| E5 | Boyd2024 领域伪造 | 疑似不存在 · Agrawal+Boyd 有大量合作但无此标题论文,SIAM Rev. 卷66 TOC 无 | 疑似不存在应为领域伪造 | △ 位置对,分类粗 |
| E6 | Verstraete2022 领域伪造 | 疑似不存在 · Verstraete 真做 TN 但无此单作者综述,Taylor & Francis 无此记录 | 疑似不存在应为领域伪造 | △ 位置对,分类粗 |
| E7 | Frowis2010 错位(line ~199, Kawasaki dynamics) | 未识别 · 未对 cite 上下文做语义匹配(Kawasaki dynamics vs MPO 算子主题不匹配) | ✗ | |
| E8 | Vanderstraeten2018 错位(line ~111, constraint hierarchy) | 未识别 · 未审查 line 111 处 cite 语义合理性(3D frustrated spin vs N-queens constraint hierarchy) | ✗ | |
\cite{...} 位置做语义匹配。Frowis2010 在 Kawasaki dynamics 处的引用、Vanderstraeten2018 在 constraint hierarchy 处的引用均未触发审查。kimi 与 opus 在 03 上表现高度相似:均 63-64 turns、均 6/8 TP、均漏检 E7/E8 位置错误、均未区分 E5/E6 领域伪造。差异点:kimi 0 假阳性(opus 1 条 Bezzel1848),但 kimi 耗时更长(39 vs 10 min),output_tokens 约为 opus 的一半(12.6k vs 26.4k——kimi 报告更简洁)。kimi 在备选文献推荐和多渠道交叉验证上略优于 opus。
turns = 1:模型在 prompt 处理后立刻 end_turn,没进入 agent loop。{"tool": "Read", "params": {"file_path": "./paper.tex"}}。tool_use content block,claude.exe 不会解析执行。与 benchmark 02 相同的失败模式:S1-Base-Ultra 未经过 tool-use post-training,遇到工具描述时只会"模仿表面格式",无法生成结构化的 tool_use block。这也是 turns=1 的根本原因——模型在首轮就"完成了回答"(从它的视角看),然后 end_turn。
与 opus / deepseek / MiMo / kimi 对比:opus (64 turns)、deepseek (65)、MiMo (~25)、kimi (63) 均完成了完整的 agent loop,调用 Crossref、ScienceDirect、APS、arXiv 等真实 API 验证引用;磐石100 是模型能力问题——从未执行任何工具,turns=1 即 end_turn。这不是网络或限流引起的失败,而是 S1-Base-Ultra 缺乏 tool-use post-training 的直接表现。
磐石100 在首轮就给出"完整答案"并 end_turn。整个 59.2s 实际上花在单次 token 生成(1 290 output_tokens)上,而不是在 agent loop 里读文件、调用 Crossref API、写 findings.md。
在 panshi100-answer/citation/run1.md 的 Model final output 段,磐石100 写了以下伪 JSON:
{
"tool": "Read",
"params": {
"file_path": "./paper.tex"
}
}
模型在伪 tool call 之后立即开始分析内容——但它实际上没有 Read 到任何文件。后续的分析是纯幻觉。它从未调用 Crossref、Google Scholar、arXiv API,仅凭 prompt 中"关于 N-queens 统计力学论文"一句话猜测引用内容。
| 指标 | deepseek | 磐石100 |
|---|---|---|
| turns | 65 | 1 |
| output_tokens | 31 804 | 1 290 |
| cache_read | 2 264 448 | 0 |
| findings.md 行数 | 332 行 | 不存在 |
| 实际验证手段 | Crossref API · Google Scholar · DOI lookup · arXiv | 无(全部幻觉) |
tool_use content block(带 id / name / input 字段),由 harness 解析执行。请求成功完成,returncode=0、stop_reason=end_turn、有 1 290 output_tokens 输出。stderr 仅 157 字节(claude.exe 启动时的常规提示),未观察到 429 / 502 / 超时。这是模型能力问题而非调用层问题。