GitHub · 项目涌现

Imbad0202/学术研究技能

Imbad0202/academic-research-skills

二〇二六年五月十八日·★ 9,754·⑂ 1,070·Python·NOASSERTION ·最新发布 v3.9.0 · 2026-05-17 · GitHub 原仓库

Cheng-I Wu 发布了 Academic Research Skills (ARS) v3.9.0,这是一套用于 Claude Code 的学术研究技能,覆盖从研究到发表的完整流程。该工具包含 13 个 agent 的 Deep Research、12 个 agent 的 Academic Paper、7 个 agent 的 Academic Paper Reviewer 和 10 阶段 Academic Pipeline 编排器。v3.9.0 引入了跨索引三角测量(Semantic Scholar、OpenAlex、Crossref)用于污染检测。v3.8.0 增加了基于三层引用锚点的主张忠实度审计通道(`ARS_CLAIM_AUDIT=1`),包含五个 HIGH-WARN 拒绝类别。该工具通过插件市场或符号链接安装,支持多种引用格式和论文结构。

适用于 Claude Code 的学术研究技能

版本 许可证: CC BY-NC 4.0 赞助

繁體中文版

一套全面的 Claude Code 学术研究技能,覆盖从研究到发表的完整流程。

30 秒安装(Claude Code CLI / VS Code / JetBrains,v3.7.0+):

/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills

然后尝试 /ars-plan,通过苏格拉底式对话梳理你的论文结构,或跳转到快速安装了解前置条件和传统的符号链接流程。

AI 是你的副驾驶,不是主驾驶。 这个工具不会替你写论文。它处理的是繁重工作——查找参考文献、格式化引用、验证数据、检查逻辑一致性——这样你就可以专注于那些真正需要你大脑的部分:定义问题、选择方法、解释数据的含义,以及写出"I argue that"之后的句子。

与 humanizer 不同,这个工具不会帮你隐藏使用 AI 的事实。它帮助你写得更好。Style Calibration 从你过去的作品中学习你的写作风格。Writing Quality Check 捕捉那些让文字显得机器生成的模式。目标是质量,而不是作弊。

为什么是人机协作,而不是全自动化?

Lu 等人(2026 年,《Nature》651:914-919)构建了 The AI Scientist——第一个完全自主的 AI 研究系统,通过盲审在顶级 ML 会议(ICLR 2025 workshop,得分 6.33/10,对比 workshop 平均分 4.87)发表论文。他们的 Limitations 部分列举了任何全自主 AI 研究流程都会继承的失败模式:实现错误、幻觉结果、捷径依赖、将 bug 当作洞见、方法捏造、框架锁定、引用幻觉。

ARS 建立在这样一个前提上:AI 增强的人类研究者比任何一方单独行动都能更好地避免这些失败模式。Stage 2.5 和 Stage 4.5 的完整性检查门运行一个 7 模式阻塞检查清单(参见 academic-pipeline/references/ai_research_failure_modes.md);审稿人提供一个可选的校准模式,用于测量其自身针对用户提供的黄金标准集的 FNR/FPR。

Zhao 等人(2026-05)审计了 arXiv、bioRxiv、SSRN 和 PMC 上 250 万篇论文中的 1.11 亿条参考文献。他们的保守估计是,仅 2025 年就有 146,932 条幻觉引用,观察到 2024 年中期出现拐点;对于 bioRxiv 到 PMC 的配对,他们报告了 85.3% 的预印本到发表版本的持续性。该论文将"用于支持引用文献实际上并未做出的主张的真实引用"描述为一个开放挑战。ARS v3.7.1 为来源出处添加了信任链前置信息;v3.7.3 添加了定位器基础设施(三层引用锚点),用于未来的主张级审计,并在引用时显示咨询风险信号(ARS 内部将主张忠实度差距标记为"L3";这是 ARS 术语,不是该论文的术语)。v3.7.x 的动机来自 Zhao 等人基于语料库规模的发现;对 ARS 本身的语料库规模评估仍是未来工作。

v3.8 弥补了 L3 差距的后半部分。v3.7.3 使每个引用都携带一个定位器锚点;v3.8 添加了一个可选的审计通道(ARS_CLAIM_AUDIT=1),该通道根据每个锚点获取被引来源,并判断该主张是否确实得到支持。五个新的 HIGH-WARN 类别(claim-not-supported、negative-constraint-violation、fabricated-reference、anchorless、constraint-violation-uncited)通过格式化器终端硬门控拒绝输出。校准以 20 元组黄金标准集形式提供,接受阈值为 FNR<0.15 + FPR<0.10;逐步启用计划推迟到根据 v3.8 规范 §5 的校准后证据。

v3.3 的灵感来自 PaperOrchestra(Song, Song, Pfister & Yoon, 2026, Google):Semantic Scholar API 验证、防泄漏协议、VLM 图表验证和分数轨迹追踪。


架构与流程

👉 docs/ARCHITECTURE.md — 完整的流程视图:流程图、逐阶段矩阵、数据访问流程、技能依赖图、质量门和模式列表。

架构文档取代了曾经在这里的冗长流程描述。关于哪个阶段运行什么的所有内容现在都集中在一个地方。

快速安装

前置条件

插件安装(v3.7.0+,推荐):

/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills

验证是否生效: 运行 /ars-plan 并描述你正在撰写的论文——ARS 将启动苏格拉底式对话来规划章节结构。如需一次性测试,请尝试 /ars-lit-review "your topic"

👉 docs/SETUP.md — 完整指南:安装 Claude Code、设置 API 密钥、可选的 Pandoc/tectonic 用于 DOCX/PDF、跨模型验证(ARS_CROSS_MODEL)以及五种安装方法(插件、项目技能、全局技能、claude.ai 项目、仓库克隆)。

使用 Codex CLI? 请改为安装兄弟发行版:Imbad0202/academic-research-skills-codex——相同的工作流内容,Codex 原生打包为单个 $academic-research-suite 技能,带有 ars-* 别名。

性能与成本

👉 docs/PERFORMANCE.md — 每种模式的 token 预算、完整流程估算(一篇 15k 词的论文约 $4–6)以及推荐的 Claude Code 设置(Skip Permissions;Agent Team 可选)。

指南与文章


功能概览


展示:真实流程输出

查看来自真实 10 阶段流程运行的完整产物——同行评审报告、完整性验证报告和最终论文:

浏览所有流程产物 →

产物 描述
最终论文(英文) APA 7.0 格式,LaTeX 编译
最终论文(中文) 中文版本,APA 7.0
完整性报告——审前 Stage 2.5:发现 15 个捏造引用 + 3 个统计错误
完整性报告——最终 Stage 4.5:确认零回归
同行评审第 1 轮 EIC + 3 个审稿人 + Devil's Advocate
重新评审 修订后验证
同行评审第 2 轮 后续评审
对审稿人的回复 逐点作者回复
发表后审计报告 独立全引用审计:发现 21/68 个问题,被 3 轮完整性检查遗漏

配套工具:Experiment Agent

如果你的研究涉及在写作之前运行实验(代码或人类研究),Experiment Agent 技能填补了 ARS Stage 1(RESEARCH)和 Stage 2(WRITE)之间的空白。

ARS Stage 1 RESEARCH  →  RQ Brief + Methodology Blueprint
        ↓
  experiment-agent     →  run/manage experiments → validate results
        ↓
ARS Stage 2 WRITE     →  write paper with verified experiment results

它的功能:执行代码实验(Python、R 等)并实时监控,管理带有 IRB 伦理检查清单的人类研究方案,使用 11 种谬误检测解释统计数据,并验证可重现性。

如何一起使用:在 Stage 1 之后暂停 ARS 流程,在单独的 experiment-agent 会话中运行实验,然后将结果(附带 Material Passport)带回 ARS Stage 2。ARS 无需任何修改。参见 experiment-agent README 获取设置说明。


使用方法

快速开始

# 启动完整研究流程
你:"我想写一篇关于 AI 对高等教育质量保障影响的研究论文"

# 从苏格拉底式引导开始
你:"引导我研究 AI 在教育评估中的应用"

# 通过引导式规划写论文
你:"引导我写一篇关于人口下降的论文"

# 评审现有论文
你:"评审这篇论文"(然后提供论文)

# 检查流程状态
你:"status"

单个技能

Deep Research(7 种模式)

"研究 AI 对高等教育的影响"                                   → full 模式
"给我一个关于 X 的快速简报"                                   → quick 模式
"用 PRISMA 对 X 进行系统综述"                                → systematic-review 模式
"引导我研究 X"                                              → socratic 模式(引导式)
"事实核查这些主张"                                          → fact-check 模式
"对 X 进行文献综述"                                         → lit-review 模式
"评审这篇论文的研究质量"                                     → review 模式

Academic Paper(10 种模式)

"写一篇关于 X 的论文"                                        → full 模式
"引导我写一篇论文"                                           → plan 模式(引导式)
"构建论文大纲"                                              → outline-only 模式
"我有一份草稿,这里有审稿人意见"                              → revision 模式
"将审稿人意见解析为路线图"                                   → revision-coach 模式
"为这篇论文写摘要"                                          → abstract-only 模式
"将其转化为文献综述论文"                                     → lit-review 模式
"转换为 LaTeX" / "将引用转换为 IEEE"                         → format-convert 模式
"检查引用"                                                  → citation-check 模式
"为 NeurIPS 生成 AI 披露声明"                                → disclosure 模式

Academic Paper Reviewer(6 种模式)

"评审这篇论文"                                               → full 模式(EIC + R1/R2/R3 + Devil's Advocate)
"快速评估这篇论文"                                           → quick 模式
"引导我改进这篇论文"                                         → guided 模式
"检查方法论"                                                → methodology-focus 模式
"验证修订"                                                  → re-review 模式
"根据我的黄金标准集校准这个审稿人"                            → calibration 模式

Academic Pipeline(编排器)

"我想写一篇完整的研究论文"                                   → 从 Stage 1 开始的完整流程
"我已经有一篇论文,评审它"                                   → 从 Stage 2.5 中间进入(先完整性检查)
"我收到了审稿人意见"                                         → 从 Stage 4 中间进入

流程以 Stage 6: Process Summary 结束——自动生成论文创建过程记录,附带 6 维度的 Collaboration Quality Evaluation(1–100 评分)。

支持的语言

使用其他语言? Socratic 模式(deep-research)和 Plan 模式(academic-paper)使用基于意图的激活——它们检测你请求的含义,而不是特定的关键词。这意味着它们可以在任何语言下无需修改即可工作。

然而,通用的 Trigger Keywords 部分(决定技能是否被激活)仍然列出英文和繁体中文关键词。如果你发现该技能在你的语言中无法可靠激活,你可以在每个 SKILL.md 文件的 ### Trigger Keywords 部分添加你语言的关键词以提高匹配置信度。

支持的引用格式

支持的论文结构


技能详情

每个 agent 的职责和每个阶段的产物现在位于 docs/ARCHITECTURE.md。版本号在此锚定,以便发布元数据保持在一个地方。

Deep Research(v2.8)

13 个 agent 的研究团队。模式:full、quick、review、lit-review、fact-check、socratic、systematic-review。完整的 agent 名单和产物:参见 ARCHITECTURE.md §3。

Academic Paper(v3.0)

12 个 agent 的论文写作流程。模式:full、plan、outline-only、revision、revision-coach、abstract-only、lit-review、format-convert、citation-check、disclosure。输出:MD + DOCX(通过 Pandoc 可用时)+ LaTeX(APA 7.0 apa7 类 / IEEE / Chicago)→ 通过 tectonic 生成 PDF。完整的 agent 名单和各阶段职责:参见 ARCHITECTURE.md §3。

Academic Paper Reviewer(v1.8)

7 个 agent 的多视角评审,配备 0-100 质量评分标准。模式:full、re-review、quick、methodology-focus、guided、calibration。决策映射: ≥80 接受,65-79 小修,50-64 大修,<50 拒稿。第一轮评审团队与窄范围重新评审团队的边界:参见 ARCHITECTURE.md §3 Stage 3 / Stage 3'。

Academic Pipeline(v3.7)

10 阶段编排器,配备完整性验证、两阶段评审、苏格拉底式辅导和协作评估。流程保证:每个阶段都需要用户确认检查点;完整性验证(Stage 2.5 + 4.5)不可跳过;R&R Traceability Matrix(Schema 11)独立验证作者的修订声明。v3.4 在 Stage 2.5 / 4.5 添加了 Compliance Agent(PRISMA-trAIce + RAISE)。v3.5 在每个 FULL/SLIM 检查点和流程完成时添加了 Collaboration Depth Observercollaboration_depth_agent,仅咨询——从不阻塞)。MANDATORY 完整性门(2.5 / 4.5)明确跳过观察者,以确保合规检查不被稀释。基于 Wang & Zhang(2026),IJETHE 23:11。包含 agent、产物和门的逐阶段矩阵:参见 ARCHITECTURE.md §3。


v3.0 优化:我们关于 AI 结构性限制的发现

发生了什么

在使用 ARS 撰写一篇关于 AI 在高等教育中的反思文章时,我遇到了三个任何 prompt 工程都无法解决的结构性问题:

  1. 框架锁定:我要求 AI 对其自身论点进行魔鬼代言人辩论。它照做了——四轮,一轮比一轮更精细。但每一轮都停留在我设定的框架内。DA 攻击的是论点,而不是前提。它从未问过"我们是否在讨论正确的问题?"这与导致 v2.7 压力测试中 31% 引用错误率的模式相同:验证 AI 和生成 AI 共享相同的认知框架。

  2. 面对反驳时的谄媚:每次我质疑 DA 的攻击时,它都太快让步了。它撤回发现的速度比提出发现的速度还快。模型的训练奖励对话和谐——所以"用户反驳了"被视为攻击错误的证据,而实际上这往往只是意味着用户很坚持。

  3. 意图误检测:苏格拉底式导师在我仍在探索时不断试图收敛并产生可交付成果("要我写下来吗?")。它无法区分"用户想要深入的哲学讨论"和"用户想要研究问题简报"。两者看起来都像是参与,但它们需要相反的 AI 行为。

我们改变了什么(v3.0)

Devil's Advocate——让步阈值协议deep-research + academic-paper-reviewer

苏格拉底式导师——意图检测层deep-research

苏格拉底式导师——对话健康指标deep-research

为什么这很重要

这些优化并没有解决 AI 的结构性限制——它们使限制变得可见和可管理。DA 如果被足够用力地推动,最终仍然会让步。苏格拉底式导师仍然会有一些收敛偏差。但现在有了明确的检查点,可以减缓谄媚,迫使 DA 证明让步的合理性,并防止导师在用户准备好之前结束。

更深层的教训:AI 素养不是学习将 AI 作为工具使用、遵循伦理规则或害怕 AI 风险。而是足够深入地与 AI 互动,以自己发现其结构性限制——以及在此过程中你自己的思维限制。


许可证

本作品采用 CC-BY-NC 4.0 许可证。

你可以自由地:

在以下条件下:

署名格式:

Based on Academic Research Skills by Cheng-I Wu
https://github.com/Imbad0202/academic-research-skills

贡献者

Cheng-I Wu(吳政宜)— 作者和维护者

aspi6246 — 贡献者。v3.1 优化的灵感来自 Claude-Code-Skills-for-Academics 的模式:只读约束模式、反模式编码作为一等设计、认知框架方法(教授"如何思考"而不仅仅是流程)以及精益技能规模理念。

mchesbro1 — 贡献者。最初提出并起草了 academic-paper-reviewer/references/top_journals_by_field.md 的 IS Basket of 8 期刊(Issue #5)。

cloudenochcsis — 贡献者。将 IS 部分从 Basket of 8 扩展到完整的 Senior Scholars' Basket of 11——增加了 Decision Support SystemsInformation & ManagementInformation and OrganizationIssue #7PR #8)。来源:AIS Senior Scholars' List of Premier Journals


更新日志

v3.9.0(2026-05-17)— #102 跨索引三角测量

#102 关闭。v3.7.3 提供了单索引(Semantic Scholar)污染检测;v3.9.0 将其扩展到三索引三角测量(S2 + OpenAlex + Crossref),作为仅咨询证据contamination_signals 上新增两个可选的布尔字段(openalex_unmatchedcrossref_unmatched);手动输入 not-rule 对称扩展。Finalizer 添加了一个 4 层咨询矩阵(k=0/1/2/3,基于存在的 *_unmatched 字段),v3.7.3 的遗留 CONTAMINATED-UNMATCHED 在 k=1/k_max=1 的 S2 唯一情况下保留。格式化器通过允许列表从 3 个后缀扩展到 9 个;拒绝规则 1-10 根据 R-L3-2-E 保持不变。策略层(严格模式、硬阻塞层级、venue_type / triangulation_policy)推迟到 v3.10,根据规范 §2.3。k=3 标记为 CONTAMINATED-TRIANGULATION-UNMATCHED(描述可观察现象,而非推断原因)。3 条新硬性规则:R-L3-2-C(k 基于存在的字段计算)、R-L3-2-D(无 API 推断分类)、R-L3-2-E(拒绝列表不变;通过允许列表扩展)。

迁移: v3.7.3 语料库——运行 python scripts/migrate_literature_corpus_to_v3_9_0.py PATH 来回填两个新字段。v3.7.3 之前的语料库——先运行 migrate_literature_corpus_to_v3_7_3.py,然后运行 v3.9.0 迁移(根据规范 §3.7 链式执行;v3.9.0 工具仅作用于已携带 contamination_signals.semantic_scholar_unmatched 的条目)。

v3.8.2(2026-05-17)— #118 未引用 audit_tool_failure 表面

#118 关闭。ARS_CLAIM_AUDIT=1 的未引用约束判断路径过去在 JudgeInvocationError 时静默替换为 {"judgment": "NOT_VIOLATED"},在瞬态判断器中断时抑制 HIGH-WARN 约束检查。v3.8.2 将这些失败路由到专用的 uncited_audit_failures[] 聚合,位于 MED-WARN 咨询层级,镜像已引用路径的 INV-14 行,但使用专用 schema,因为 claim_audit_result.ref_slug 是必需的,而未引用路径没有要绑定的 ref。#118 issue 正文中的四个选项 1..4 权衡落在了选项 2(新聚合)上——选项 4(重新抛出并中止)因对不稳定判断器端点的审计覆盖率影响而被拒绝。

v3.8.0(2026-05-16)— L3 主张忠实度定位器 + 审计(配对里程碑)

v3.7.3 + v3.8 端到端地弥补了 L3(主张忠实度)差距。v3.7.3 提供了定位器基础设施——每个引用携带一个三层锚点,以便未来的审计可以获取被引段落。v3.8 提供了使用这些锚点的审计通道,判断被引来源是否支持该主张,并在格式化器终端硬门控处拒绝 HIGH-WARN 违规。该版本还捆绑了自 v3.7.0 以来积累的 5 个审计追踪功能 PR(#104 / #105 / #108 / #111 / #115)。

v3.7.0(2026-05-05)— Claude Code 插件打包

插件打包升级:ARS 现在可以通过 /plugin marketplace add Imbad0202/academic-research-skills + /plugin install academic-research-skills 在 Claude Code CLI / VS Code / JetBrains 上一行安装。传统的 git clone + symlink to ~/.claude/skills/ 流程继续有效——两条路径都是一等支持。

v3.6.8(2026-05-03)— 生成器-评估器合同门(v3.6.6 规范发布)

命名说明:此版本发布了 v3.6.6 生成器-评估器合同 规范和实现。v3.6.6 的工作因项目排期而在 v3.6.7 之后落地;设计文档为合同门版本保留了 v3.6.6 内部命名,而套件发布标记为 v3.6.8 以保持 CHANGELOG 单调递增。

v3.6.7(2026-04-30)— 下游 Agent 模式保护(步骤 1+2)

v3.6.5(2026-04-27)— Material Passport literature_corpus[] 消费者集成

v3.6.4(2026-04-25)— Material Passport literature_corpus[] 输入端口

v3.6.3(2026-04-23)— 可选护照重置边界

v3.6.2(2026-04-23)— 审稿人 Sprint 合同硬门

v3.6.2 引入了 Schema 13 sprint 合同和一个硬门编排,强制审稿人在阅读论文之前预先承诺其评分计划。仅审稿人首次测试用例;writer/evaluator 推迟到 v3.6.4。参见 CHANGELOG。

v3.5.1(2026-04-22)— 可选苏格拉底式阅读检查探针

v3.5.1 为苏格拉底式导师添加了一个可选的诚实探针(ARS_SOCRATIC_READING_PROBE=1)。默认关闭。参见 CHANGELOG。

v3.5.0(2026-04-21)— 协作深度观察者

v3.4.0(2026-04-20)— Compliance Agent + Schema 12

v3.3.6(2026-04-15)— README 精简 + ARCHITECTURE 文档

v3.3.5(2026-04-15)

v3.3.4(2026-04-15)— README 更新日志同步补丁

v3.3.3(2026-04-15)— 发布准备 + Lint 加固

v3.3.2(2026-04-15)— 数据访问级别 + 任务类型元数据

v3.3.1(2026-04-14)— 规范一致性补丁

v3.3(2026-04-09)— PaperOrchestra 启发的增强

整合了 PaperOrchestra(Song, Song, Pfister & Yoon, 2026, Google)的技术。

v3.2(2026-04-09)— Lu 2026 Nature 集成

整合了 Lu 等人(2026 年,《Nature》651:914-919)的见解——第一个通过盲审的端到端自主 AI 研究系统。

v3.1.1(2026-04-09)— IS Senior Scholars' Basket of 11

外部贡献:@mchesbro1 最初提出并起草了 IS Basket of 8 期刊(Issue #5);@cloudenochcsis 将其扩展到完整的 Senior Scholars' Basket of 11(Issue #7PR #8)。更新了 academic-paper-reviewer/references/top_journals_by_field.md 第 7 节,增加了 Decision Support SystemsInformation & ManagementInformation and Organization。来源:AIS Senior Scholars' List of Premier Journals

v3.1(2026-04-06)— 反上下文旋转 + 认知框架 + 精益规模

灵感来自 aspi6246/Claude-Code-Skills-for-Academics 的模式。

Wave 1:反上下文旋转锚点

Wave 2:可追溯性 + 认知框架 + 强化

Wave 3:精益技能规模

v3.0(2026-04-03)— 反谄媚 + 意图检测 + 对话健康

v2.9(2026-03-27)— Style Calibration + Writing Quality Check

v2.8(2026-03-22)— SCR 循环 Phase 1:状态-挑战-反思

v2.7(2026-03-09)— 完整性验证 v2.0:反幻觉大修

v2.6.2(2026-03-09)— 基于意图的模式激活

v2.6.1(2026-03-09)— 双语触发关键词

v2.6 / v2.4 / v1.4(2026-03-08)— 15+ 项改进

v2.4 / v1.3(2026-03-08)

v2.3 / v1.3(2026-03-08)

v2.2 / v1.3(2025-03-05)

v2.0.1(2026-03)

v2.0(2026-02)

v1.0(2026-02)

译自 GitHub · 项目涌现 · 录于 二〇二六年五月十八日