一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

MedSkillAudit:面向医学研究 agent 技能的领域特定审计框架

MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills

Yingyong Hou, Xinyuan Lao, Huimei Wang, Qianyu Yao, Wei Chen, Bocheng Huang, Fei Sun, Yuxian Lv 等 13 位
来自 AIPOCH
二〇二六年五月八日 · arXiv:2604.20441 · PDF · Code

背景:Agent skills 正越来越多地作为模块化、可复用的能力单元部署在 AI agent 系统中。医学研究 agent skills 需要超出通用评估范围的 safeguards(防护机制),包括科学完整性、方法学有效性、可复现性和边界安全。本研究开发并初步评估了一个面向医学研究 agent skills 的领域专用 audit framework(审计框架),重点考察其相对于专家评审的可靠性。

方法:我们开发了 MedSkillAudit(skill-auditor@1.0),这是一个分层框架,用于在部署前评估 skill 的发布准备度。我们评估了五类医学研究中的 75 个 skills(每类 15 个)。两名专家分别独立给出质量评分(0-100)、有序发布处置等级(Production Ready / Limited Release / Beta Only / Reject)以及高风险失败标记。系统与专家的一致性使用 ICC(2,1) 和线性加权 Cohen's kappa 量化,并以人工评审者之间的一致性作为 benchmark。

结果:共识质量评分均值为 72.4(SD = 13.0);57.3% 的 skills 低于 Limited Release 阈值。MedSkillAudit 达到 ICC(2,1) = 0.449(95% CI: 0.250-0.610),高于人工评审者之间的 ICC 0.300。系统与专家共识评分的差异(SD = 9.5)小于专家之间的差异(SD = 12.4),且没有方向性偏差(Wilcoxon p = 0.613)。Protocol Design 在类别层面表现出最强一致性(ICC = 0.551);Academic Writing 的 ICC 为负(-0.567),反映出 rubric(评分准则)与专家判断之间存在结构性不匹配。

结论:面向特定领域的部署前 audit 可能为医学研究 agent skills 的治理提供实用基础,通过针对科学使用场景设计的结构化 audit workflows(审计流程),补充通用质量检查。

译自 Hugging Face · Daily Papers · arXiv:2604.20441 · 录于 二〇二六年五月八日