Hugging Face · Daily Papers

MedSkillAudit：面向医学研究 agent 技能的领域特定审计框架

MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills

Yingyong Hou, Xinyuan Lao, Huimei Wang, Qianyu Yao, Wei Chen, Bocheng Huang, Fei Sun, Yuxian Lv 等 13 位

来自 AIPOCH

二〇二六年五月八日 · arXiv:2604.20441 · PDF · Code

摘要

背景：Agent skills 正越来越多地作为模块化、可复用的能力单元部署在 AI agent 系统中。医学研究 agent skills 需要超出通用评估范围的 safeguards（防护机制），包括科学完整性、方法学有效性、可复现性和边界安全。本研究开发并初步评估了一个面向医学研究 agent skills 的领域专用 audit framework（审计框架），重点考察其相对于专家评审的可靠性。

方法：我们开发了 MedSkillAudit（skill-auditor@1.0），这是一个分层框架，用于在部署前评估 skill 的发布准备度。我们评估了五类医学研究中的 75 个 skills（每类 15 个）。两名专家分别独立给出质量评分（0-100）、有序发布处置等级（Production Ready / Limited Release / Beta Only / Reject）以及高风险失败标记。系统与专家的一致性使用 ICC(2,1) 和线性加权 Cohen's kappa 量化，并以人工评审者之间的一致性作为 benchmark。

结果：共识质量评分均值为 72.4（SD = 13.0）；57.3% 的 skills 低于 Limited Release 阈值。MedSkillAudit 达到 ICC(2,1) = 0.449（95% CI: 0.250-0.610），高于人工评审者之间的 ICC 0.300。系统与专家共识评分的差异（SD = 9.5）小于专家之间的差异（SD = 12.4），且没有方向性偏差（Wilcoxon p = 0.613）。Protocol Design 在类别层面表现出最强一致性（ICC = 0.551）；Academic Writing 的 ICC 为负（-0.567），反映出 rubric（评分准则）与专家判断之间存在结构性不匹配。

结论：面向特定领域的部署前 audit 可能为医学研究 agent skills 的治理提供实用基础，通过针对科学使用场景设计的结构化 audit workflows（审计流程），补充通用质量检查。