Imbad0202/学术研究技能
Imbad0202/academic-research-skills
Cheng-I Wu 发布了 Academic Research Skills (ARS) v3.9.0,这是一套用于 Claude Code 的学术研究技能,覆盖从研究到发表的完整流程。该工具包含 13 个 agent 的 Deep Research、12 个 agent 的 Academic Paper、7 个 agent 的 Academic Paper Reviewer 和 10 阶段 Academic Pipeline 编排器。v3.9.0 引入了跨索引三角测量(Semantic Scholar、OpenAlex、Crossref)用于污染检测。v3.8.0 增加了基于三层引用锚点的主张忠实度审计通道(`ARS_CLAIM_AUDIT=1`),包含五个 HIGH-WARN 拒绝类别。该工具通过插件市场或符号链接安装,支持多种引用格式和论文结构。
适用于 Claude Code 的学术研究技能
繁體中文版
一套全面的 Claude Code 学术研究技能,覆盖从研究到发表的完整流程。
30 秒安装(Claude Code CLI / VS Code / JetBrains,v3.7.0+):
/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills
然后尝试 /ars-plan,通过苏格拉底式对话梳理你的论文结构,或跳转到快速安装了解前置条件和传统的符号链接流程。
AI 是你的副驾驶,不是主驾驶。 这个工具不会替你写论文。它处理的是繁重工作——查找参考文献、格式化引用、验证数据、检查逻辑一致性——这样你就可以专注于那些真正需要你大脑的部分:定义问题、选择方法、解释数据的含义,以及写出"I argue that"之后的句子。
与 humanizer 不同,这个工具不会帮你隐藏使用 AI 的事实。它帮助你写得更好。Style Calibration 从你过去的作品中学习你的写作风格。Writing Quality Check 捕捉那些让文字显得机器生成的模式。目标是质量,而不是作弊。
为什么是人机协作,而不是全自动化?
Lu 等人(2026 年,《Nature》651:914-919)构建了 The AI Scientist——第一个完全自主的 AI 研究系统,通过盲审在顶级 ML 会议(ICLR 2025 workshop,得分 6.33/10,对比 workshop 平均分 4.87)发表论文。他们的 Limitations 部分列举了任何全自主 AI 研究流程都会继承的失败模式:实现错误、幻觉结果、捷径依赖、将 bug 当作洞见、方法捏造、框架锁定、引用幻觉。
ARS 建立在这样一个前提上:AI 增强的人类研究者比任何一方单独行动都能更好地避免这些失败模式。Stage 2.5 和 Stage 4.5 的完整性检查门运行一个 7 模式阻塞检查清单(参见 academic-pipeline/references/ai_research_failure_modes.md);审稿人提供一个可选的校准模式,用于测量其自身针对用户提供的黄金标准集的 FNR/FPR。
Zhao 等人(2026-05)审计了 arXiv、bioRxiv、SSRN 和 PMC 上 250 万篇论文中的 1.11 亿条参考文献。他们的保守估计是,仅 2025 年就有 146,932 条幻觉引用,观察到 2024 年中期出现拐点;对于 bioRxiv 到 PMC 的配对,他们报告了 85.3% 的预印本到发表版本的持续性。该论文将"用于支持引用文献实际上并未做出的主张的真实引用"描述为一个开放挑战。ARS v3.7.1 为来源出处添加了信任链前置信息;v3.7.3 添加了定位器基础设施(三层引用锚点),用于未来的主张级审计,并在引用时显示咨询风险信号(ARS 内部将主张忠实度差距标记为"L3";这是 ARS 术语,不是该论文的术语)。v3.7.x 的动机来自 Zhao 等人基于语料库规模的发现;对 ARS 本身的语料库规模评估仍是未来工作。
v3.8 弥补了 L3 差距的后半部分。v3.7.3 使每个引用都携带一个定位器锚点;v3.8 添加了一个可选的审计通道(ARS_CLAIM_AUDIT=1),该通道根据每个锚点获取被引来源,并判断该主张是否确实得到支持。五个新的 HIGH-WARN 类别(claim-not-supported、negative-constraint-violation、fabricated-reference、anchorless、constraint-violation-uncited)通过格式化器终端硬门控拒绝输出。校准以 20 元组黄金标准集形式提供,接受阈值为 FNR<0.15 + FPR<0.10;逐步启用计划推迟到根据 v3.8 规范 §5 的校准后证据。
v3.3 的灵感来自 PaperOrchestra(Song, Song, Pfister & Yoon, 2026, Google):Semantic Scholar API 验证、防泄漏协议、VLM 图表验证和分数轨迹追踪。
架构与流程
👉 docs/ARCHITECTURE.md — 完整的流程视图:流程图、逐阶段矩阵、数据访问流程、技能依赖图、质量门和模式列表。
架构文档取代了曾经在这里的冗长流程描述。关于哪个阶段运行什么的所有内容现在都集中在一个地方。
快速安装
前置条件
- Claude Code(最新版;插件打包需要较新版本)
- 导出
ANTHROPIC_API_KEY,或在首次运行claude时设置 - 可选: Pandoc 用于 DOCX,tectonic + Source Han Serif TC 用于 APA 7.0 PDF(Markdown 输出不需要这两者)
插件安装(v3.7.0+,推荐):
/plugin marketplace add Imbad0202/academic-research-skills
/plugin install academic-research-skills
验证是否生效: 运行 /ars-plan 并描述你正在撰写的论文——ARS 将启动苏格拉底式对话来规划章节结构。如需一次性测试,请尝试 /ars-lit-review "your topic"。
👉 docs/SETUP.md — 完整指南:安装 Claude Code、设置 API 密钥、可选的 Pandoc/tectonic 用于 DOCX/PDF、跨模型验证(ARS_CROSS_MODEL)以及五种安装方法(插件、项目技能、全局技能、claude.ai 项目、仓库克隆)。
使用 Codex CLI? 请改为安装兄弟发行版:Imbad0202/academic-research-skills-codex——相同的工作流内容,Codex 原生打包为单个 $academic-research-suite 技能,带有 ars-* 别名。
性能与成本
👉 docs/PERFORMANCE.md — 每种模式的 token 预算、完整流程估算(一篇 15k 词的论文约 $4–6)以及推荐的 Claude Code 设置(Skip Permissions;Agent Team 可选)。
指南与文章
- Academic Writing Shouldn't Be a Solo Act — 完整流程讲解(英文)
- 學術寫作不該是一個人的事:一套開源 AI 協作工具如何改變研究者的工作流 — 完整使用指南(繁體中文)
功能概览
- Deep Research — 13 个 agent 的研究团队,配备苏格拉底式引导模式、PRISMA 系统综述、意图检测、对话健康监控、可选的跨模型 DA、Semantic Scholar API 验证。
- Academic Paper — 12 个 agent 的论文写作,配备 Style Calibration、Writing Quality Check、LaTeX 加固、可视化、修订辅导、引用转换、防泄漏协议和 VLM 图表验证。
- Academic Paper Reviewer — 7 个 agent 的多视角同行评审,配备 0–100 质量评分标准(EIC + 3 个动态审稿人 + Devil's Advocate)、让步阈值协议、攻击强度保持、可选的跨模型 DA 批评/校准、R&R 可追溯性矩阵、只读约束。
- Academic Pipeline — 10 阶段流程编排器,配备自适应检查点、主张验证、Material Passport、可选的
repro_lock、可选的跨模型完整性验证、对话中强化和分数轨迹追踪。 - Data Access Level Metadata(v3.3.2+)— 每个技能声明
data_access_level(raw/redacted/verified_only);由scripts/check_data_access_level.py强制执行。模式改编自 Anthropic 的 automated-w2s-researcher(2026)。参见shared/ground_truth_isolation_pattern.md。 - Task Type Annotation(v3.3.2+)— 每个技能声明
task_type(open-ended或outcome-gradable)。所有当前的 ARS 技能都是open-ended。 - Benchmark Report Schema(v3.3.5+)— JSON Schema + lint,用于诚实的基准比较。参见
shared/benchmark_report_pattern.md。 - Artifact Reproducibility Lockfile(v3.3.5+)— Material Passport 上的可选
repro_lock子块。配置文档,非重放保证——LLM 输出不可字节级重现。参见shared/artifact_reproducibility_pattern.md。
展示:真实流程输出
查看来自真实 10 阶段流程运行的完整产物——同行评审报告、完整性验证报告和最终论文:
浏览所有流程产物 →
| 产物 | 描述 |
|---|---|
| 最终论文(英文) | APA 7.0 格式,LaTeX 编译 |
| 最终论文(中文) | 中文版本,APA 7.0 |
| 完整性报告——审前 | Stage 2.5:发现 15 个捏造引用 + 3 个统计错误 |
| 完整性报告——最终 | Stage 4.5:确认零回归 |
| 同行评审第 1 轮 | EIC + 3 个审稿人 + Devil's Advocate |
| 重新评审 | 修订后验证 |
| 同行评审第 2 轮 | 后续评审 |
| 对审稿人的回复 | 逐点作者回复 |
| 发表后审计报告 | 独立全引用审计:发现 21/68 个问题,被 3 轮完整性检查遗漏 |
配套工具:Experiment Agent
如果你的研究涉及在写作之前运行实验(代码或人类研究),Experiment Agent 技能填补了 ARS Stage 1(RESEARCH)和 Stage 2(WRITE)之间的空白。
ARS Stage 1 RESEARCH → RQ Brief + Methodology Blueprint
↓
experiment-agent → run/manage experiments → validate results
↓
ARS Stage 2 WRITE → write paper with verified experiment results
它的功能:执行代码实验(Python、R 等)并实时监控,管理带有 IRB 伦理检查清单的人类研究方案,使用 11 种谬误检测解释统计数据,并验证可重现性。
如何一起使用:在 Stage 1 之后暂停 ARS 流程,在单独的 experiment-agent 会话中运行实验,然后将结果(附带 Material Passport)带回 ARS Stage 2。ARS 无需任何修改。参见 experiment-agent README 获取设置说明。
使用方法
快速开始
# 启动完整研究流程
你:"我想写一篇关于 AI 对高等教育质量保障影响的研究论文"
# 从苏格拉底式引导开始
你:"引导我研究 AI 在教育评估中的应用"
# 通过引导式规划写论文
你:"引导我写一篇关于人口下降的论文"
# 评审现有论文
你:"评审这篇论文"(然后提供论文)
# 检查流程状态
你:"status"
单个技能
Deep Research(7 种模式)
"研究 AI 对高等教育的影响" → full 模式
"给我一个关于 X 的快速简报" → quick 模式
"用 PRISMA 对 X 进行系统综述" → systematic-review 模式
"引导我研究 X" → socratic 模式(引导式)
"事实核查这些主张" → fact-check 模式
"对 X 进行文献综述" → lit-review 模式
"评审这篇论文的研究质量" → review 模式
Academic Paper(10 种模式)
"写一篇关于 X 的论文" → full 模式
"引导我写一篇论文" → plan 模式(引导式)
"构建论文大纲" → outline-only 模式
"我有一份草稿,这里有审稿人意见" → revision 模式
"将审稿人意见解析为路线图" → revision-coach 模式
"为这篇论文写摘要" → abstract-only 模式
"将其转化为文献综述论文" → lit-review 模式
"转换为 LaTeX" / "将引用转换为 IEEE" → format-convert 模式
"检查引用" → citation-check 模式
"为 NeurIPS 生成 AI 披露声明" → disclosure 模式
Academic Paper Reviewer(6 种模式)
"评审这篇论文" → full 模式(EIC + R1/R2/R3 + Devil's Advocate)
"快速评估这篇论文" → quick 模式
"引导我改进这篇论文" → guided 模式
"检查方法论" → methodology-focus 模式
"验证修订" → re-review 模式
"根据我的黄金标准集校准这个审稿人" → calibration 模式
Academic Pipeline(编排器)
"我想写一篇完整的研究论文" → 从 Stage 1 开始的完整流程
"我已经有一篇论文,评审它" → 从 Stage 2.5 中间进入(先完整性检查)
"我收到了审稿人意见" → 从 Stage 4 中间进入
流程以 Stage 6: Process Summary 结束——自动生成论文创建过程记录,附带 6 维度的 Collaboration Quality Evaluation(1–100 评分)。
支持的语言
- 繁体中文(繁體中文)— 当用户用中文写作时默认使用
- 英文 — 当用户用英文写作时默认使用
- 学术论文的双语摘要(中文 + 英文)
使用其他语言? Socratic 模式(deep-research)和 Plan 模式(academic-paper)使用基于意图的激活——它们检测你请求的含义,而不是特定的关键词。这意味着它们可以在任何语言下无需修改即可工作。
然而,通用的
Trigger Keywords部分(决定技能是否被激活)仍然列出英文和繁体中文关键词。如果你发现该技能在你的语言中无法可靠激活,你可以在每个SKILL.md文件的### Trigger Keywords部分添加你语言的关键词以提高匹配置信度。
支持的引用格式
- APA 7.0(默认,包括中文引用规则)
- Chicago(注释与作者-日期)
- MLA
- IEEE
- Vancouver
支持的论文结构
- IMRaD(实证研究)
- 主题式文献综述
- 理论分析
- 案例研究
- 政策简报
- 会议论文
技能详情
每个 agent 的职责和每个阶段的产物现在位于 docs/ARCHITECTURE.md。版本号在此锚定,以便发布元数据保持在一个地方。
Deep Research(v2.8)
13 个 agent 的研究团队。模式:full、quick、review、lit-review、fact-check、socratic、systematic-review。完整的 agent 名单和产物:参见 ARCHITECTURE.md §3。
Academic Paper(v3.0)
12 个 agent 的论文写作流程。模式:full、plan、outline-only、revision、revision-coach、abstract-only、lit-review、format-convert、citation-check、disclosure。输出:MD + DOCX(通过 Pandoc 可用时)+ LaTeX(APA 7.0 apa7 类 / IEEE / Chicago)→ 通过 tectonic 生成 PDF。完整的 agent 名单和各阶段职责:参见 ARCHITECTURE.md §3。
Academic Paper Reviewer(v1.8)
7 个 agent 的多视角评审,配备 0-100 质量评分标准。模式:full、re-review、quick、methodology-focus、guided、calibration。决策映射: ≥80 接受,65-79 小修,50-64 大修,<50 拒稿。第一轮评审团队与窄范围重新评审团队的边界:参见 ARCHITECTURE.md §3 Stage 3 / Stage 3'。
Academic Pipeline(v3.7)
10 阶段编排器,配备完整性验证、两阶段评审、苏格拉底式辅导和协作评估。流程保证:每个阶段都需要用户确认检查点;完整性验证(Stage 2.5 + 4.5)不可跳过;R&R Traceability Matrix(Schema 11)独立验证作者的修订声明。v3.4 在 Stage 2.5 / 4.5 添加了 Compliance Agent(PRISMA-trAIce + RAISE)。v3.5 在每个 FULL/SLIM 检查点和流程完成时添加了 Collaboration Depth Observer(collaboration_depth_agent,仅咨询——从不阻塞)。MANDATORY 完整性门(2.5 / 4.5)明确跳过观察者,以确保合规检查不被稀释。基于 Wang & Zhang(2026),IJETHE 23:11。包含 agent、产物和门的逐阶段矩阵:参见 ARCHITECTURE.md §3。
v3.0 优化:我们关于 AI 结构性限制的发现
发生了什么
在使用 ARS 撰写一篇关于 AI 在高等教育中的反思文章时,我遇到了三个任何 prompt 工程都无法解决的结构性问题:
框架锁定:我要求 AI 对其自身论点进行魔鬼代言人辩论。它照做了——四轮,一轮比一轮更精细。但每一轮都停留在我设定的框架内。DA 攻击的是论点,而不是前提。它从未问过"我们是否在讨论正确的问题?"这与导致 v2.7 压力测试中 31% 引用错误率的模式相同:验证 AI 和生成 AI 共享相同的认知框架。
面对反驳时的谄媚:每次我质疑 DA 的攻击时,它都太快让步了。它撤回发现的速度比提出发现的速度还快。模型的训练奖励对话和谐——所以"用户反驳了"被视为攻击错误的证据,而实际上这往往只是意味着用户很坚持。
意图误检测:苏格拉底式导师在我仍在探索时不断试图收敛并产生可交付成果("要我写下来吗?")。它无法区分"用户想要深入的哲学讨论"和"用户想要研究问题简报"。两者看起来都像是参与,但它们需要相反的 AI 行为。
我们改变了什么(v3.0)
Devil's Advocate——让步阈值协议(deep-research + academic-paper-reviewer)
- DA 现在必须在回应前对每个反驳进行 1-5 评分
- 仅在评分 ≥4 时才允许让步(反驳直接以证据回应核心攻击)
- 评分 ≤3:坚持立场并重申原始攻击
- 反谄媚规则:不允许连续让步,让步率追踪,每个检查点后的框架锁定检测
苏格拉底式导师——意图检测层(deep-research)
- 在对话开始时和每 3 轮后将用户意图分类为探索性 vs. 目标导向
- 探索模式:禁用自动收敛,将最大轮数提高到 60,禁止"要我总结吗?"提示
- 目标导向模式:标准收敛行为
- 反过早结束规则:在探索模式下,由用户决定何时停止
苏格拉底式导师——对话健康指标(deep-research)
- 每 5 轮在三个维度上进行静默自我评估:持续同意、冲突回避、过早收敛
- 检测到同意模式时自动注入挑战性问题
- 对用户不可见(以防止游戏化),但日志可供会话后审查
为什么这很重要
这些优化并没有解决 AI 的结构性限制——它们使限制变得可见和可管理。DA 如果被足够用力地推动,最终仍然会让步。苏格拉底式导师仍然会有一些收敛偏差。但现在有了明确的检查点,可以减缓谄媚,迫使 DA 证明让步的合理性,并防止导师在用户准备好之前结束。
更深层的教训:AI 素养不是学习将 AI 作为工具使用、遵循伦理规则或害怕 AI 风险。而是足够深入地与 AI 互动,以自己发现其结构性限制——以及在此过程中你自己的思维限制。
许可证
本作品采用 CC-BY-NC 4.0 许可证。
你可以自由地:
- 分享 — 复制和重新分发本材料
- 改编 — 重新混合、转换和基于本材料构建
在以下条件下:
- 署名 — 你必须给予适当的署名
- 非商业性使用 — 你不得将本材料用于商业目的
署名格式:
Based on Academic Research Skills by Cheng-I Wu
https://github.com/Imbad0202/academic-research-skills
贡献者
Cheng-I Wu(吳政宜)— 作者和维护者
aspi6246 — 贡献者。v3.1 优化的灵感来自 Claude-Code-Skills-for-Academics 的模式:只读约束模式、反模式编码作为一等设计、认知框架方法(教授"如何思考"而不仅仅是流程)以及精益技能规模理念。
mchesbro1 — 贡献者。最初提出并起草了 academic-paper-reviewer/references/top_journals_by_field.md 的 IS Basket of 8 期刊(Issue #5)。
cloudenochcsis — 贡献者。将 IS 部分从 Basket of 8 扩展到完整的 Senior Scholars' Basket of 11——增加了 Decision Support Systems、Information & Management 和 Information and Organization(Issue #7,PR #8)。来源:AIS Senior Scholars' List of Premier Journals。
更新日志
v3.9.0(2026-05-17)— #102 跨索引三角测量
#102 关闭。v3.7.3 提供了单索引(Semantic Scholar)污染检测;v3.9.0 将其扩展到三索引三角测量(S2 + OpenAlex + Crossref),作为仅咨询证据。
contamination_signals上新增两个可选的布尔字段(openalex_unmatched、crossref_unmatched);手动输入 not-rule 对称扩展。Finalizer 添加了一个 4 层咨询矩阵(k=0/1/2/3,基于存在的*_unmatched字段),v3.7.3 的遗留CONTAMINATED-UNMATCHED在 k=1/k_max=1 的 S2 唯一情况下保留。格式化器通过允许列表从 3 个后缀扩展到 9 个;拒绝规则 1-10 根据 R-L3-2-E 保持不变。策略层(严格模式、硬阻塞层级、venue_type/triangulation_policy)推迟到 v3.10,根据规范 §2.3。k=3 标记为CONTAMINATED-TRIANGULATION-UNMATCHED(描述可观察现象,而非推断原因)。3 条新硬性规则:R-L3-2-C(k 基于存在的字段计算)、R-L3-2-D(无 API 推断分类)、R-L3-2-E(拒绝列表不变;通过允许列表扩展)。
迁移: v3.7.3 语料库——运行 python scripts/migrate_literature_corpus_to_v3_9_0.py PATH 来回填两个新字段。v3.7.3 之前的语料库——先运行 migrate_literature_corpus_to_v3_7_3.py,然后运行 v3.9.0 迁移(根据规范 §3.7 链式执行;v3.9.0 工具仅作用于已携带 contamination_signals.semantic_scholar_unmatched 的条目)。
v3.8.2(2026-05-17)— #118 未引用 audit_tool_failure 表面
#118 关闭。
ARS_CLAIM_AUDIT=1的未引用约束判断路径过去在JudgeInvocationError时静默替换为{"judgment": "NOT_VIOLATED"},在瞬态判断器中断时抑制 HIGH-WARN 约束检查。v3.8.2 将这些失败路由到专用的uncited_audit_failures[]聚合,位于 MED-WARN 咨询层级,镜像已引用路径的 INV-14 行,但使用专用 schema,因为claim_audit_result.ref_slug是必需的,而未引用路径没有要绑定的 ref。#118 issue 正文中的四个选项 1..4 权衡落在了选项 2(新聚合)上——选项 4(重新抛出并中止)因对不稳定判断器端点的审计覆盖率影响而被拒绝。
- 新的
uncited_audit_failure.schema.json聚合(规范 §3.6)。每个未引用句子 × 清单对一个条目,其中约束判断器引发了JudgeInvocationError。与已引用路径 INV-14 相同的故障类别枚举(judge_timeout/judge_api_error/judge_parse_error/cache_corruption/retrieval_api_error/retrieval_timeout/retrieval_network_error)。rule_version: D4-c-v1-uaf-v1。 - UAF-INV-1..UAF-INV-6 lint(规范 §6 规则 4d)。
finding_id唯一性、scoped_manifest_id 跨数组完整性、manifest_claim_id 非空时的 (M, C) 对完整性、每个 (sentence, manifest) 的去重、rationale fault_class 前缀、与constraint_violations[]的跨聚合互斥性。 - Finalizer §5 MED-WARN 咨询行:注释
[CLAIM-AUDIT-TOOL-FAILURE-UNCITED — <fault-class>],门通过(下次重试修复)。格式化器 REFUSE 列表不变——UAF 是咨询性的。 - 流程集成(
scripts/claim_audit_pipeline.py):第 1211-1224 行的吞没点已移除;JudgeInvocationError现在发出一个 UAF 行 +continue到下一个 (sentence, manifest) 对。没有虚假的 NOT_VIOLATED 到达constraint_violations[]。 - 测试:18 个新测试(15 个 schema/lint TSUAFUncitedAuditFailureInvariants + 3 个流程集成 TP23UncitedJudgeOutageEmitsUAF)。基线从 694 增加到 712 个测试,零回归。
- Agent 文档(
academic-pipeline/agents/claim_ref_alignment_audit_agent.md):输出发射表增加第七行;错误处理表从 3 个表面增加到 4 个表面,增加了未引用路径的 UAF 行。
v3.8.0(2026-05-16)— L3 主张忠实度定位器 + 审计(配对里程碑)
v3.7.3 + v3.8 端到端地弥补了 L3(主张忠实度)差距。v3.7.3 提供了定位器基础设施——每个引用携带一个三层锚点,以便未来的审计可以获取被引段落。v3.8 提供了使用这些锚点的审计通道,判断被引来源是否支持该主张,并在格式化器终端硬门控处拒绝 HIGH-WARN 违规。该版本还捆绑了自 v3.7.0 以来积累的 5 个审计追踪功能 PR(#104 / #105 / #108 / #111 / #115)。
- #103 —
claim_ref_alignment_audit_agent(v3.8 PR #121)。可选(ARS_CLAIM_AUDIT=1,默认关闭)Stage 4→5 审计 agent。判断每个采样引用与检索到的摘录;发出claim_audit_results[]+claim_intent_manifests[]+claim_drifts[]+uncited_assertions[]+constraint_violations[]聚合。8 行 finalizer 矩阵将 HIGH-WARN 类别(CLAIM-NOT-SUPPORTED / NEGATIVE-CONSTRAINT-VIOLATION / FABRICATED-REFERENCE / ANCHORLESS / CONSTRAINT-VIOLATION-UNCITED)路由到格式化器 REFUSE 规则 6-10。校准运行器附带 20 元组黄金标准集(T-C1 FNR<0.15 + FPR<0.10,T-C2 按类别,T-C3 形状完整性)。8 轮双轨评审(R1 codex + Gemini-3.1-pro-preview,R2-R8 在 Gemini 配额用尽后仅 codex);轨迹 R1 4P1+2P2 → R8 0P1+4P2 通过发布门。 - v3.7.3 — 三层引用发射 + 污染信号(PR #98)。
synthesis_agent/draft_writer_agent/report_compiler_agent增加## Three-Layer Citation Emission (v3.7.3)H2。每个<!--ref:slug-->携带<!--anchor:<kind>:<value>-->,其中<kind> ∈ {quote, page, section, paragraph, none}(quote 锚点上限为 25 词,URL 编码)。pipeline_orchestrator_agentfinalizer 变为 5 单元格,带有优先级为零的 NO-LOCATOR 检查。formatter_agent增加对[UNVERIFIED CITATION — NO QUOTE OR PAGE LOCATOR]的显式硬门控拒绝。literature_corpus_entry.schema.json增加可选的contamination_signals: { preprint_post_llm_inflection, semantic_scholar_unmatched }对象。bibliography_agent在摄取时计算两个信号。11 轮评审轨迹(Codex×10 + Gemini 跨模型×1)关闭了 22 个发现。规范:docs/design/2026-05-12-ars-v3.7.3-claim-faithfulness-and-contaminated-source-spec.md。外部动机:Zhao 等人 arXiv:2605.07723(2026-05)。 - #108 — AI 披露策略锚点渲染器(审计追踪发布 2026-05-14)。在现有场所追踪渲染器之外,增加了 PRISMA-trAIce / ICMJE / Nature / IEEE 策略锚点披露路径。
- #111 —
slr_lineage在 systematic-review → academic-paper 交接时发射(2026-05-15)。Schema 9 可选的布尔字段slr_lineage;生产者pipeline_orchestrator_agent在每个交接转换时写入;消费者disclosure模式根据 §4.3 G2 不变性追踪门调度--policy-anchor=prisma-trAIce。 - #104 — README 动机:Zhao 等人语料库规模证据锚点(2026-05-15)。README +
README.zh-TW.md动机部分将 v3.7.x 系列置于 Zhao 等人 146,932 条幻觉引用发现的背景下。 - #105 — v3.7.3 contamination_signals 回填迁移工具(2026-05-15)。
scripts/migrate_literature_corpus_to_v3_7_3.py对 v3.7.3 之前的护照回溯计算两个污染信号。 - #115 — Semantic Scholar 客户端成熟度(2026-05-15)。
scripts/semantic_scholar_client.py增加 1 请求/秒的节流(检测到S2_API_KEY时降至 0.1 秒)、URLError 上的中断锁存器,以及用于长时间运行的跨护照批处理的reset_outage_latch()。
v3.7.0(2026-05-05)— Claude Code 插件打包
插件打包升级:ARS 现在可以通过
/plugin marketplace add Imbad0202/academic-research-skills+/plugin install academic-research-skills在 Claude Code CLI / VS Code / JetBrains 上一行安装。传统的git clone + symlink to ~/.claude/skills/流程继续有效——两条路径都是一等支持。
- 插件清单 + 市场元数据(Phase 1,PR #68)。
.claude-plugin/plugin.json声明套件(4 个技能通过相对符号链接从skills/目录自动发现)。.claude-plugin/marketplace.json注册插件,使单个 GitHub 托管的端点同时服务于市场列表和插件源。README +README.zh-TW.md+docs/SETUP.md携带双轨安装说明。 - 10 个斜杠命令位于
commands/ars-*.md(Phase 2.1,PR #69),将MODE_REGISTRY.md条目映射到/ars-<mode>触发器。模型路由固定在每个命令的前置元数据中——full和revision-coach使用opus(架构/评审解释深度),其他 8 个使用sonnet。根据项目政策不使用 Haiku。 - 3 个插件附带的 agent位于
agents/*_agent.md(Phase 2.1,PR #69),作为指向deep-research/agents/中 v3.6.7 加固的下游 agent 的相对符号链接:synthesis_agent、research_architect_agent、report_compiler_agent。保留下划线文件名以保持scripts/check_v3_6_7_pattern_protection.py的硬固定路径和 INV-3 清单约束的 Clause 1 不变性。符号链接(而非副本)保留了单一事实来源,并防止了 v3.6.7 §6 反转扫描 + INV-1/2/3 lint 关闭的 Pattern C3 攻击面。 model: inherit添加到这三个源 agent 的前置元数据中。选择 inherit 而非固定为sonnet,以便运行 ARS 完整流程的 opus 会话保持 opus agent(而不是被限制)。用户的~/.claude/hooks/warn-agent-no-model.shPreToolUse 钩子在调度边界处门控 Haiku,因此inherit通过已经无 Haiku 的模型解析。- SessionStart 公告钩子位于
hooks/hooks.json+scripts/announce-ars-loaded.sh(Phase 2.2,PR #70)。当插件加载时,钩子将列出 10 个斜杠命令、3 个插件 agent 和 token 预算指针的additionalContext注入到 LLM 的第一轮中。startup和clear源值获得完整公告;resume和compact获得一行确认以避免消耗上下文。兼容 Bash 3.2——在 macOS 自带的/bin/bash上运行,无需brew install bash。 - Phase 2.2 范围缩减:
SubagentStop → run_codex_audit.shcodex 审计钩子因合同差距(SubagentStop 负载不携带阶段/可交付成果信息,因此包装器必须半推断所需参数)和调用者类边界(run_codex_audit.sh第 4-7 行禁止同会话内 LLM 调用;PostToolUse 在生产会话内部触发)而被排除在 v3.7.0 之外。真正的审计钩子集成推迟到未来版本,届时 ARS 将获得阶段/可交付成果传播合同。参见docs/design/2026-04-30-ars-v3.7.0-plugin-packaging-roadmap.md2026-05-05 更新说明(Phase 2.2 范围缩减)。 docs/PERFORMANCE.md+.zh-TW.md增加"v3.7.0 Plugin agents and model routing"小节,解释 inherit 语义和当前 3 个 agent 的范围边界。- 跨三个 PR 的 Codex 评审链:8 轮内联迭代 + 3 轮全新 PR 级评审,全部在合并前收敛到 0 个 P0/P1/P2 发现。Phase 2.2 的全新 PR 评审发现了一个内联轮次遗漏的 P2(未引用的
${CLAUDE_PLUGIN_ROOT}破坏了包含空格的安装路径)——证实了将实现评审(内联)与合同评审(全新)分开的价值。 - 什么没有改变:四个技能目录、所有 25 种模式、agent prompt、schema 文件和 lint 合同。插件打包仅添加了新的顶层表面(
commands/、agents/、hooks/、.claude-plugin/、skills/符号链接目录、三个插件 agent 的model: inherit前置元数据添加)。现有的 4.3k 克隆安装用户看不到任何破坏性变化。
v3.6.8(2026-05-03)— 生成器-评估器合同门(v3.6.6 规范发布)
命名说明:此版本发布了 v3.6.6 生成器-评估器合同 规范和实现。v3.6.6 的工作因项目排期而在 v3.6.7 之后落地;设计文档为合同门版本保留了 v3.6.6 内部命名,而套件发布标记为 v3.6.8 以保持 CHANGELOG 单调递增。
- Schema 13.1(
shared/sprint_contract.schema.json)扩展了 Schema 13,新增两个mode枚举值(writer_full+evaluator_full)、两个新的可选顶层字段(pre_commitment_artifacts仅 writer,disagreement_handling仅 evaluator)以及 12 个allOf分支,强制执行审稿人-/writer-/evaluator-条件门控。现有的审稿人合同在 Schema 13.1 下字节等效验证(§3.6 零接触承诺)。 - 两个新的已发布合同模板位于
shared/contracts/writer/full.json(D1–D7,F1/F4/F2/F3/F0)和shared/contracts/evaluator/full.json(D1–D5,F1/F2/F3/F6/F4/F5/F0)。从规范分支上的设计时产物提升为实时已发布状态,与 Schema 13.1 升级原子性地完成。 - 两阶段编排在
academic-paper full内部:Phase 4 拆分为 Phase 4a(writer 论文盲审前承诺)+ Phase 4b(writer 论文可见起草 + 自评分);Phase 6 拆分为 Phase 6a(evaluator 论文盲审前承诺)+ Phase 6b(evaluator 论文可见评分 + 决策)。阶段编号的<phase4a_output>/<phase6a_output>数据分隔符镜像 v3.6.2 审稿人模式。lint 计数摘要:writer 3+4 / evaluator 5+5 / reviewer 5+6(审稿人保持零接触)。 academic-paperSKILL + agent 文件增加逐字## v3.6.6 Generator-Evaluator Contract Protocol块(SKILL.md 中 101 行,draft_writer_agent.md中 47 行,peer_reviewer_agent.md中 57 行)。SKILL.md 还增加了新的## Known limitations部分,为 v3.6.7+ 携带优雅降级和跨会话恢复前进说明。- 验证器扩展:
scripts/check_sprint_contract.pySC-* 模式门控审计(SC-5 + SC-11 仅审稿人;SC-9 扩展到所有三个模式系列)。17 个新测试将验证器单元测试计数从 54 增加到 71(正面 + 5 个 schema 分支负面 + 2 个 §3.6 审稿人回归 + 6 个模式门控测试)。 - 清单 CI lint:
scripts/check_v3_6_6_ab_manifest.py在tests/fixtures/v3.6.6-ab/manifest.yaml上强制执行 §6.2 清单 schema + §6.5 git 追踪的不变性。.github/workflows/spec-consistency.yml将 sprint 合同验证循环扩展到迭代 writer + evaluator 模板目录以及现有的审稿人循环,并运行新的清单 CI lint。 - A/B 证据夹具存根位于
tests/fixtures/v3.6.6-ab/(30 个文件):manifest + README + 6 个论文 A 输入/基线 + 1 个论文 C 输入/基线 + Stage 3 审稿人摘录 + 6 个 codex-judge 基线占位符。真实夹具数据在实现工作完全完成之前的后续提交中填充。
v3.6.7(2026-04-30)— 下游 Agent 模式保护(步骤 1+2)
- 三个下游 agent 针对 18 个已记录的幻觉/漂移模式中的 13 个进行了加固:
synthesis_agent(A1–A5 叙述侧)、research_architect_agent的调查设计模式(B1–B5 工具侧)和report_compiler_agent的仅摘要模式(C1–C3 发布侧)。每个 agent prompt 现在都携带一个PATTERN PROTECTION (v3.6.7)块。 shared/references/中的四个参考文件:irb_terminology_glossary.md、psychometric_terminology_glossary.md、protected_hedging_phrases.md、word_count_conventions.md。参考文件携带 agent prompt 通过路径引用的操作合同。- 跨模型审计 prompt 模板位于
shared/templates/codex_audit_multifile_template.md,包含七个审计维度和一个强制性的三部分 Section 4(f) 检查,用于report_compiler_agent捆绑包。任何子检查失败都是 P1 发现。 - 静态 lint + 29 测试变异套件:
scripts/check_v3_6_7_pattern_protection.py强制执行保护子句的存在和义务短语形状;scripts/test_check_v3_6_7_pattern_protection.py保留 codex 评审证据,以便未来的检查器回归在 CI 中显现。两者都连接到.github/workflows/spec-consistency.yml。 - Codex 评审历史:七轮
gpt-5.5+xhigh跨模型评审达到 SHIP-OK,零 P1+P2 发现。步骤 6(编排器运行时钩子)和步骤 8(合成评估案例)在后续 PR 中发布。
v3.6.5(2026-04-27)— Material Passport literature_corpus[] 消费者集成
- 两个 Phase 1 文献消费者已连接:
deep-research/agents/bibliography_agent.md和academic-paper/agents/literature_strategist_agent.md。两者都遵循相同的五步 corpus-first, search-fills-gap 流程,当护照携带非空literature_corpus[]时,以及相同的四条铁律(Same criteria / No silent skip / No corpus mutation / Graceful fallback on parse failure)。 - 搜索策略报告中的 PRE-SCREENED 可重现性块:枚举包含/排除/跳过的语料库条目,附带 F3 零命中说明和 F4a–F4f 出处报告,这些报告围绕
obtained_via/obtained_at的部分声明组成。final_included = pre_screened_included[] ∪ external_included[]保持中立——书目条目或文献矩阵行上没有出处标签。 - 消费者协议参考位于
academic-pipeline/references/literature_corpus_consumers.md,包含规范的 PRE-SCREENED 模板、BAD/GOOD 示例、四条铁律和每个消费者的阅读说明。 - CI lint
scripts/check_corpus_consumer_protocol.py强制执行九条协议不变性,使用清单驱动的消费者列表(scripts/corpus_consumer_manifest.json)。 - Schema 9 警告已退役:
shared/handoff_schemas.md退役了 v3.6.4 的"消费者侧集成推迟到 v3.6.5+"警告;替换为指向消费者协议的反向指针。 - 基于存在性,无 schema 更改,无新环境标志。解析失败回退到仅外部数据库流程,带有
[CORPUS PARSE FAILURE]表面。citation_compliance_agent语料库集成推迟(目标版本待定,v3.8 之后)。 - 无破坏性更改。现有用户适配器无需修改即可工作。
v3.6.4(2026-04-25)— Material Passport literature_corpus[] 输入端口
literature_corpus[]字段添加到 Schema 9,作为用户自有文献的可选输入端口。每个条目符合shared/contracts/passport/literature_corpus_entry.schema.json(CSL-JSON 作者、年份、标题、source_pointer + 私有可选的abstract/user_notes)。- 语言无关的适配器合同位于
academic-pipeline/references/adapters/overview.md:任何程序(任何语言)读取用户语料库源都可以生成符合要求的passport.yaml+rejection_log.yaml。条目级错误软失败,适配器级错误硬失败,确定性排序。 - 三个参考 Python 适配器位于
scripts/adapters/:folder_scan.py(PDF 文件系统)、zotero.py(Better BibTeX JSON 导出)、obsidian.py(vault frontmatter)。仅为起点;用户应为其非参考源编写自己的适配器。 - 拒绝日志合同位于
shared/contracts/passport/rejection_log.schema.json,带有封闭的类别原因值枚举;始终发出(无拒绝时为空)。 - CI 门:
scripts/check_literature_corpus_schema.py验证 schema + 适配器示例;scripts/sync_adapter_docs.py --check防止 schema→文档漂移;新的pytest.yml工作流在路径过滤触发器上运行scripts/adapters/tests/。 - v3.6.4 仅为输入端口:v3.6.4 发布了 schema 和适配器合同,没有消费者集成。
bibliography_agent和literature_strategist_agent在 v3.6.5 中连接。 - 无破坏性更改。
v3.6.3(2026-04-23)— 可选护照重置边界
- 可选护照重置边界(
ARS_PASSPORT_RESET=1)。将每个 FULL 检查点提升为上下文重置边界。新的resume_from_passport=<hash>模式允许用户在新的 Claude Code 会话中仅从 Material Passport 账本恢复。启用标志的systematic-review模式使重置在每个 FULL 检查点成为强制性的;其他模式将重置视为标志门控的默认行为。标志关闭时,字节级保留 v3.6.3 之前的行为。 - Schema 9 获得一个仅追加的
reset_boundary[]账本,包含两种条目类型(kind: boundary+kind: resume)。哈希使用 JSON Canonical Form + SHA-256,带有用于自引用安全的规范占位符。可选的pending_decision处理 MANDATORY 分支选择。 - 新的
scripts/check_passport_reset_contract.pyCI lint:每次提到该标志都必须附带指向权威协议文档的指针。 - 协议文档:
academic-pipeline/references/passport_as_reset_boundary.md。 docs/PERFORMANCE.md更新了长时间运行会话的指导。- 无破坏性更改。标志默认关闭。
v3.6.2(2026-04-23)— 审稿人 Sprint 合同硬门
v3.6.2 引入了 Schema 13 sprint 合同和一个硬门编排,强制审稿人在阅读论文之前预先承诺其评分计划。仅审稿人首次测试用例;writer/evaluator 推迟到 v3.6.4。参见 CHANGELOG。
- Schema 13 sprint 合同,包含
panel_size、acceptance_dimensions、failure_conditions(带有severity优先级 + 面板相对的cross_reviewer_quantifier)、measurement_procedure、可选的override_ladder、有界的agent_amendments。验证器:scripts/check_sprint_contract.py。 - 两次调用硬门。 审稿人运行论文内容盲审 Phase 1 + 论文可见 Phase 2;Phase 1 输出包装在
<phase1_output>...</phase1_output>数据分隔符中,以缩小自注入表面。 - 合成器三步机械协议。 构建跨审稿人矩阵 → 使用面板相对量词和已识别的表达词汇评估每个
failure_condition→ 按severity解析优先级。editorial_synthesizer_agent中显式列出禁止操作列表。 - 两个审稿人模板已发布(
shared/contracts/reviewer/full.json面板 5;shared/contracts/reviewer/methodology_focus.json面板 2)。reviewer_re_review、reviewer_calibration、reviewer_guided在 schema 枚举中保留,但在 v3.6.2 中没有发布合同模板;它们保留 v3.6.2 之前的行为。reviewer_quick完全从枚举中排除。 academic-paper-reviewerSKILL 版本:1.8.1 → 1.9.0。academic-pipelineSKILL 版本:3.5.1 → 3.6.2(套件版本不变性)。套件版本提升到3.6.2。- 参见规范
docs/design/2026-04-23-ars-v3.6.2-sprint-contract-design.md和协议academic-paper-reviewer/references/sprint_contract_protocol.md。
v3.5.1(2026-04-22)— 可选苏格拉底式阅读检查探针
v3.5.1 为苏格拉底式导师添加了一个可选的诚实探针(ARS_SOCRATIC_READING_PROBE=1)。默认关闭。参见 CHANGELOG。
- 可选的阅读检查探针:当设置
ARS_SOCRATIC_READING_PROBE=1时,苏格拉底式导师在目标导向的会话中(用户引用了特定论文)触发一次性诚实探针。拒绝被记录而不受惩罚。结果流入研究计划摘要和 Stage 6 AI 自我反思报告。无新 agent,无 schema 更改。 deep-researchSKILL 版本:2.9.0 → 2.9.1。academic-pipelineSKILL 版本:3.5.0 → 3.5.1。套件版本提升到3.5.1。
v3.5.0(2026-04-21)— 协作深度观察者
- 新 agent:
collaboration_depth_agent在academic-pipeline中(Agent 团队从 3 个增加到 4 个)。在每个 FULL/SLIM 检查点和流程完成时调用;根据 4 维度评分标准对用户-AI 协作进行评分。仅咨询——从不阻塞进度。 MANDATORY 检查点(Stage 2.5 / 4.5 完整性门)不调用观察者。 - 新评分标准:
shared/collaboration_depth_rubric.mdv1.0。维度:Delegation Intensity、Cognitive Vigilance、Cognitive Reallocation、Zone Classification(Zone 1 / Zone 2 / Zone 3)。基于 Wang, S., & Zhang, H. (2026)。"Pedagogical partnerships with generative AI in higher education: how dual cognitive pathways paradoxically enable transformative learning." International Journal of Educational Technology in Higher Education,23:11。DOI 10.1186/s41239-026-00585-x。 - 跨模型分歧被标记,而非平均:当设置
ARS_CROSS_MODEL时,观察者在两个模型上运行;维度分歧 > 2 分被报告,而不是静默平滑。ARS_CROSS_MODEL_SAMPLE_INTERVAL逃生口用于成本权衡。 - 短阶段保护:用户轮次少于 5 轮的阶段注入静态
insufficient_evidence块,而不是调度完整模型观察者。 - 反谄媚纪律:评分 ≥ 7 需要具体的对话轮次引用;Zone 3 触发重新审计;无动机框架。
academic-pipelineSKILL 版本:3.3.0 → 3.4.0。套件版本提升到3.5.0。新的 lintscripts/check_collaboration_depth_rubric.py+ 10 个测试。
v3.4.0(2026-04-20)— Compliance Agent + Schema 12
- Compliance Agent(共享):单一模式感知 agent,运行 PRISMA-trAIce 17 项(仅 SR 模式)+ RAISE 4 原则 + 8 角色矩阵。钩入现有的 Stage 2.5 / 4.5 完整性门;基于层级的阻塞(Mandatory → 阻塞,HR → 警告,R/O → 信息)。非 SR 条目仅运行原则,仅警告。
- Schema 12 compliance_report 通过
compliance_history[](仅追加)附加到 Material Passport。 - 3 轮用户覆盖阶梯自动将
disclosure_addendum注入稿件。无法规避检测。 - 带透明报告的校准,无硬 FNR/FPR 门——与
task_type: open-ended自洽。 - 上游新鲜度 CI 警告 PRISMA-trAIce 漂移(非阻塞)。
- 长时间运行会话文档:Material Passport 作为跨会话恢复机制。
v3.3.6(2026-04-15)— README 精简 + ARCHITECTURE 文档
- 添加了
docs/ARCHITECTURE.md作为流程结构的单一事实来源(流程、矩阵、数据访问、依赖图、质量门、模式)。通过 PR #18 合并到主分支。 - 添加了
docs/SETUP.md(前置条件、API 密钥、Pandoc/tectonic、跨模型验证、安装方法)和docs/PERFORMANCE.md(token 预算、推荐的 Claude Code 设置)。README 链接到两者而不是内联它们。 - 精简了 README:移除了 ASCII 流程图和 16 点关键功能列表(已被 ARCHITECTURE.md 取代);Skill Details 部分现在锚定版本号,并将读者指向 ARCHITECTURE.md §3 以获取每个 agent 的名单。
- 注意:任何技能都没有功能更改。纯文档重组。套件版本提升到
3.3.6。
v3.3.5(2026-04-15)
- 添加了
benchmark_report.schema.json+ Material Passport 上的可选repro_lock块。两者都附带模式文档、lint 和示例。第一个正式的 Python 开发依赖清单(requirements-dev.txt)。
v3.3.4(2026-04-15)— README 更新日志同步补丁
- 同步了
README.md和README.zh-TW.md中的嵌入式更新日志部分,使其包含缺失的v3.3.3和v3.3.2发布摘要。 - 扩展了
scripts/check_spec_consistency.py,使未来的 README 更新日志漂移在 CI 中失败。
v3.3.3(2026-04-15)— 发布准备 + Lint 加固
- 加固了 SKILL 前置元数据 lint:缺失的闭合
---围栏现在干净地失败,而不是被解析为有效的 YAML。 - 解析为有效 YAML 但不是映射的前置元数据现在报告可读的错误,而不是崩溃。
- 修复了两个 README 中发表后审计报告的损坏展示链接。
- 在规范一致性检查中添加了 README 相对链接验证,使死链接在 CI 中失败。
- 对齐了文档中的 DOCX 输出合同:直接的
.docx生成依赖于 Pandoc,Markdown + 转换说明作为后备。 - 准备了
v3.3.3发布:套件版本提升,academic-paper-> v3.0.2,academic-pipeline-> v3.2.2。
v3.3.2(2026-04-15)— 数据访问级别 + 任务类型元数据
- 为所有顶层
SKILL.md文件添加了metadata.data_access_level,带有强制词汇:raw、redacted、verified_only。 - 为所有顶层
SKILL.md文件添加了metadata.task_type,带有强制词汇:open-ended、outcome-gradable。 - 为两个元数据字段添加了 lint 脚本和单元测试,连接到 GitHub Actions 规范一致性工作流。
- 添加了
shared/ground_truth_isolation_pattern.md,并将新词汇从shared/handoff_schemas.md链接起来。
v3.3.1(2026-04-14)— 规范一致性补丁
- 同步了 README、
.claude/CLAUDE.md、MODE_REGISTRY.md和SKILL.md文件到当前的模式计数和已发布的技能版本。 - 纠正了跨模型措辞:完整性样本检查和独立 DA 批评今天已实现;第六审稿人同行评审仍处于计划中。
- 澄清了自适应检查点语义,使 SLIM 检查点仍然等待用户显式确认。
- 重申了 Stage 2.5 和 Stage 4.5 完整性门不可跳过。
- 添加了轻量级规范一致性检查和 GitHub Actions 工作流,以捕获未来的漂移。
v3.3(2026-04-09)— PaperOrchestra 启发的增强
整合了 PaperOrchestra(Song, Song, Pfister & Yoon, 2026, Google)的技术。
- Semantic Scholar API 验证 — 通过 S2 API 进行第 0 层程序化引用存在性检查。Levenshtein >= 0.70 标题匹配、DOI 不匹配检测、通过 S2 ID 进行书目去重。如果 API 不可用则优雅降级。
- 防泄漏协议 — 知识隔离指令优先考虑会话材料而非 LLM 参数记忆。为缺失内容标记
[MATERIAL GAP],而不是从记忆中填充。降低模式 5/6 失败风险。 - VLM 图表验证(可选)— 使用视觉能力 LLM 对渲染图表进行闭环验证。10 点检查清单,最多 2 次细化迭代。
- 分数轨迹协议 — 跨修订轮次的每个维度评分标准分数增量追踪(7 个维度)。检测回归(delta < -3)并触发强制检查点。
- Stage 2 并行化 — 可视化与论点构建可以在大纲完成后并行运行。
- 新版本:deep-research v2.8,academic-paper v3.0,academic-pipeline v3.2
v3.2(2026-04-09)— Lu 2026 Nature 集成
整合了 Lu 等人(2026 年,《Nature》651:914-919)的见解——第一个通过盲审的端到端自主 AI 研究系统。
- 7 模式 AI 研究失败模式检查清单 — 在 Stage 2.5/4.5 阻塞流程,针对疑似实现错误、幻觉结果、捷径依赖、bug-as-insight、方法捏造、框架锁定。扩展了现有的 5 类型引用幻觉分类法。
- 审稿人校准模式(academic-paper-reviewer v1.8)— 可选的 FNR/FPR/平衡准确度测量,针对用户提供的黄金标准集。5× 集成,跨模型默认开启,会话范围的置信度披露。
- 披露模式(academic-paper v2.9)— 特定场所的 AI 使用声明生成器。v1 涵盖 ICLR、NeurIPS、Nature、Science、ACL、EMNLP。
- 早停标准(academic-pipeline v3.1)— 流程开始时的收敛检查 + 预算透明度。
- 忠实度-原创性模式谱系 — 根据 Lu 2026 图 1c 对 3 个技能的所有模式进行分类。
- 新版本:academic-paper v2.9,academic-paper-reviewer v1.8,academic-pipeline v3.1
v3.1.1(2026-04-09)— IS Senior Scholars' Basket of 11
外部贡献:@mchesbro1 最初提出并起草了 IS Basket of 8 期刊(Issue #5);@cloudenochcsis 将其扩展到完整的 Senior Scholars' Basket of 11(Issue #7,PR #8)。更新了 academic-paper-reviewer/references/top_journals_by_field.md 第 7 节,增加了 Decision Support Systems、Information & Management 和 Information and Organization。来源:AIS Senior Scholars' List of Premier Journals。
v3.1(2026-04-06)— 反上下文旋转 + 认知框架 + 精益规模
灵感来自 aspi6246/Claude-Code-Skills-for-Academics 的模式。
Wave 1:反上下文旋转锚点
- 所有 4 个技能中的 29 个显式反模式(每个技能 7-8 个,表格格式,包含"为什么失败" + "正确行为")
- 22 个 IRON RULE 标记,标记即使在长对话中也绝不能违反的关键规则
- academic-paper-reviewer 的只读约束(审稿人不能修改稿件)
Wave 2:可追溯性 + 认知框架 + 强化
- R&R Traceability Matrix(Schema 11):在重新评审输出中添加"作者声明"和"已验证?"列,实现对修订声明的独立验证
- 3 个认知框架参考文件,教导 agent"如何思考"而不仅仅是"做什么":
argumentation_reasoning_framework.md— Toulmin 模型、Bradford Hill 因果推理、最佳解释推理、认知状态分类review_quality_thinking.md— 三个视角(内部效度、外部效度、贡献)、常见审稿人陷阱、校准问题writing_judgment_framework.md— 清晰度测试、读者旅程、学科特定声音、修订决策矩阵
- 对话中强化协议:每个流程转换时的阶段特定 IRON RULE + 反模式提醒
- 每个 FULL 检查点的自检问题(引用完整性、谄媚让步、质量轨迹、范围纪律、完整性)
Wave 3:精益技能规模
- SKILL.md 总大小从 142KB 减少到 85KB(−40%),通过将详细协议提取到
references/文件 - 创建了约 15 个新的参考文件(重新评审协议、引导模式、系统综述、流程摘要、外部评审等)
- 所有 IRON RULE 标记保留在 SKILL.md 中;详细内容按需加载
- 新版本:deep-research v2.7,academic-paper v2.8,academic-paper-reviewer v1.7,academic-pipeline v3.0
v3.0(2026-04-03)— 反谄媚 + 意图检测 + 对话健康
- Devil's Advocate 让步阈值(deep-research + academic-paper-reviewer):DA 必须在回应前对反驳进行 1-5 评分。仅在 ≥4 时让步。不允许连续让步。让步率追踪。每个检查点后的框架锁定检测。
- 攻击强度保持(academic-paper-reviewer):DA 在反驳下不会软化。带有显式偏离检测的反驳评估协议。反谄媚规则防止持续反驳被视为有效证据。
- 意图检测层(deep-research socratic):将用户意图分类为探索性 vs. 目标导向。探索模式禁用自动收敛,提高最大轮数,禁止过早结束。每 3 轮重新评估。
- 对话健康指标(deep-research socratic):每 5 轮进行静默自检,检查持续同意、冲突回避、过早收敛。检测到同意模式时自动注入挑战。
- 跨模型验证协议(共享,可选):使用 GPT-5.4 Pro 或 Gemini 3.1 Pro 进行完整性验证样本交叉检查和独立 DA 批评。第六审稿人同行评审仍处于计划中,尚未实现。通过设置
ARS_CROSS_MODEL环境变量激活——没有它,一切照旧。参见shared/cross_model_verification.md获取完整设置指南、API 模式和成本估算。 - AI 自我反思报告(academic-pipeline Stage 6):流程后 AI 行为模式自我评估——DA 让步率、检查点跳过率、健康警报、谄媚风险评级(LOW/MEDIUM/HIGH)、框架锁定事件、收敛模式分析。包含讽刺性警告:"此自我反思本身由可能曾谄媚的同一 AI 生成。"
- 起源:通过一个 4 轮辩证实验发现,其中 DA 让步太快,苏格拉底式导师试图过早收敛,整个辩论停留在人类设定的框架内。
- 版本:deep-research v2.5,academic-paper-reviewer v1.5,academic-pipeline v2.8
v2.9(2026-03-27)— Style Calibration + Writing Quality Check
- Style Calibration(academic-paper 摄入步骤 10,可选):提供 3 篇以上的过去论文,流程学习你的写作风格——句子节奏、词汇偏好、引用整合风格。在起草过程中作为软性指导应用;学科惯例始终优先。优先级系统:学科规范(硬)> 期刊惯例(强)> 个人风格(软)。参见
shared/style_calibration_protocol.md - Writing Quality Check(
academic-paper/references/writing_quality_check.md):在草稿自评期间应用的写作质量检查清单。5 个类别:AI 高频术语警告(25 个术语)、标点模式控制(em dash ≤3)、清嗓子式开头检测、结构模式警告(Rule of Three、统一段落、同义词循环)和突发性检查(句子长度变化)。这些是好的写作规则——不是检测规避 - Style Profile 通过 academic-pipeline Material Passport 携带(
shared/handoff_schemas.md中的 Schema 10) - deep-research 报告编译器也可选地使用这两个功能
- 版本:academic-paper v2.5,deep-research v2.4,academic-pipeline v2.7
v2.8(2026-03-22)— SCR 循环 Phase 1:状态-挑战-反思
- 苏格拉底式导师 Agent(deep-research + academic-paper):SCR(状态-挑战-反思)协议集成
- 承诺门:在呈现证据之前,在每个层级/章节转换时收集用户预测
- 确定性触发的矛盾:检测高置信度语言("显然"、"清楚地")并引入反论点
- 自适应强度:追踪承诺准确度,动态调整挑战频率
- 自校准信号(S5):新的收敛信号,追踪用户在对话中的自校准增长
- SCR 开关:用户可以说"跳过预测"来禁用或"重新打开预测"来在对话中重新启用;苏格拉底式提问正常继续
deep-research/references/socratic_questioning_framework.md:SCR 覆盖协议,将 SCR 阶段映射到苏格拉底功能- 添加了
CHANGELOG.md
v2.7(2026-03-09)— 完整性验证 v2.0:反幻觉大修
- integrity_verification_agent v2.0:反幻觉指令(无 AI 记忆验证),消除了灰色地带分类(仅 VERIFIED/NOT_FOUND/MISMATCH),每个参考文献强制 WebSearch 审计追踪,Stage 4.5 全新独立验证,灰色地带预防规则
- 已知幻觉模式:来自 GPTZero × NeurIPS 2025 研究的 5 类型分类法(TF/PAC/IH/PH/SH),5 种复合欺骗模式,真实世界案例研究,文献统计
- 发表后审计:对所有 68 个参考文献进行完整 WebSearch 验证,发现 21 个问题(31% 错误率),这些问题通过了 3 轮完整性检查——证明了外部验证的必要性
- 论文更正:删除了 4 个捏造引用,修复了 6 个作者错误,纠正了 7 个元数据错误,修复了 2 个格式问题
v2.6.2(2026-03-09)— 基于意图的模式激活
- deep-research:Socratic 模式现在使用基于意图的激活而不是关键词匹配。在任何语言中都能工作——检测含义(例如,"用户想要引导式思考")而不是匹配特定字符串。
- academic-paper:Plan 模式现在使用基于意图的激活。检测意图信号,如"用户不确定如何开始"或"用户想要逐步指导",在任何语言中。
- 两种模式现在都有一个默认规则:当意图不明确时,优先选择
socratic/plan而不是full——先引导更安全。 - 两层架构:Layer 1(技能激活)使用双语关键词提高匹配置信度;Layer 2(模式路由)使用语言无关的意图信号。
v2.6.1(2026-03-09)— 双语触发关键词
- deep-research:为通用激活和 Socratic 模式添加了繁体中文触发关键词。
- academic-paper:添加了繁体中文触发关键词和 Plan 模式触发部分。
- 两个模式选择指南现在都包含双语示例和中文特定的误选场景。
v2.6 / v2.4 / v1.4(2026-03-08)— 15+ 项改进
- deep-research v2.3:新的 systematic-review / PRISMA 模式(第 7 个);3 个新 agent(risk_of_bias、meta_analysis、monitoring);PRISMA 协议/报告模板;苏格拉底收敛标准(4 个信号 + 自动结束);快速模式选择指南
- academic-paper v2.4:2 个新 agent(visualization、revision_coach);修订追踪模板,包含 4 种状态类型;引用格式转换(APA↔Chicago↔MLA↔IEEE↔Vancouver);统计可视化标准;苏格拉底收敛标准;修订恢复示例;LaTeX 输出加固——强制
apa7文档类、文本对齐修复(ragged2e+etoolbox)、表格列宽公式、双语摘要居中、标准化字体栈(Times New Roman + Source Han Serif TC VF + Courier New),仅通过 tectonic 生成 PDF - academic-paper-reviewer v1.4:质量评分标准,包含 0-100 评分和行为指标;决策映射(≥80 接受,65-79 小修,50-64 大修,<50 拒稿);快速模式选择指南
- academic-pipeline v2.6:自适应检查点系统(FULL/SLIM/MANDATORY);完整性检查中的 Phase E 主张验证;用于中间进入出处的 Material Passport;跨技能模式顾问(14 个场景);团队协作协议;增强的交接 schema(9 个 schema);完整性失败恢复示例
v2.4 / v1.3(2026-03-08)
- academic-pipeline v2.4:新的 Stage 6 PROCESS SUMMARY——自动生成结构化的论文创建过程记录(MD → LaTeX → PDF,双语);强制性的最终章节:Collaboration Quality Evaluation,包含 6 个维度,评分 1–100(Direction Setting、Intellectual Contribution、Quality Gatekeeping、Iteration Discipline、Delegation Efficiency、Meta-Learning),诚实反馈和改进建议;流程从 9 个阶段扩展到 10 个阶段
v2.3 / v1.3(2026-03-08)
- academic-pipeline v2.3:Stage 5 FINALIZE 现在提示选择格式样式(APA 7.0 / Chicago / IEEE);PDF 必须通过
tectonic从 LaTeX 编译(无 HTML 转 PDF);APA 7.0 使用apa7文档类(man模式),使用 XeCJK 支持双语 CJK;字体栈:Times New Roman + Source Han Serif TC VF + Courier New
v2.2 / v1.3(2025-03-05)
- 跨 Agent 质量对齐:所有 agent 的统一定义(同行评审、时效性规则、CRITICAL 严重性、来源层级)
- deep-research v2.2:综合反模式、苏格拉底自动结束条件、DOI+WebSearch 验证、增强的伦理完整性检查、模式转换矩阵
- academic-paper v2.2:4 级论点评分、抄袭筛查、2 个新的失败路径(F11 Desk-Reject Recovery、F12 Conference-to-Journal)、Plan→Full 模式转换
- academic-paper-reviewer v1.3:DA 与 R3 角色边界、CRITICAL 发现标准、共识分类(4/3/SPLIT/DA-CRITICAL)、置信度分数加权、亚洲与区域期刊参考
- academic-pipeline v2.2:检查点确认语义、模式切换矩阵、失败回退矩阵、状态所有权协议、材料版本控制
v2.0.1(2026-03)
- 简化 4 个 SKILL.md(-371 行,-16.5%):移除跨技能重复、内联模板 → 文件引用、冗余路由表、重复的模式选择部分
- 修复 academic-paper 和 academic-pipeline 之间的修订循环上限矛盾
v2.0(2026-02)
- academic-pipeline v2.0:5→9 个阶段,强制完整性验证,两阶段评审,苏格拉底式修订辅导,可重现性保证
- academic-paper-reviewer v1.1:+Devil's Advocate Reviewer(第 7 个 agent),+re-review 模式(验证),+评审后苏格拉底式辅导
- 新 agent:
integrity_verification_agent— 100% 引用/数据验证,附带审计追踪 - 新 agent:
devils_advocate_reviewer_agent— 8 维度论点挑战者 - 输出顺序:MD → 通过 Pandoc 生成 DOCX(可用时,否则提供说明)→ 询问 LaTeX → 确认 → PDF
v1.0(2026-02)
- 初始发布
- deep-research v2.0(10 个 agent,6 种模式,包括 socratic)
- academic-paper v2.0(10 个 agent,8 种模式,包括 plan)
- academic-paper-reviewer v1.0(6 个 agent,4 种模式,包括 guided)
- academic-pipeline v1.0(编排器)