一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@cwolferesearch 强烈推荐 LLM-as-a-Verifier 这篇文章。最大的收获…

@cwolferesearch Strongly recommend the LLM-as-a-Verifier writeup. Biggest takea…

二〇二六年五月八日 · 英文原文

LLM-as-a-Verifier writeup 讨论基于 logprobs 的 verifier:对各 score token 概率加权求分,并扩展到 criterion 数 C、重复次数 K、评分粒度 G。实验显示 accuracy 随 G、K、C 增加而提升;论文在 inference time 用 pairwise round-robin 从 N 个 trajectory 中按胜场选择输出。

强烈推荐阅读 LLM-as-a-Verifier 这篇 writeup。

对我来说最大的 takeaway 是:提高评分粒度会让 verifier 更有效。这表明 LLM judge / verifier 正在发展出新的(且更好的)能力。

1-2 年前这种做法效果并不好。事实上,LLM-as-a-Judge 的 best practice 是较低的评分粒度(例如 binary、ternary,或 1-5 Likert score)比细粒度分数(例如 1-100 scale)好得多。这是我在正确搭建 LLM judge 时一直给出的建议。现在看来,近期的 frontier LLM 已经更擅长在更细粒度上打分,使得这一 best practice(可能)过时了。

对这一发现的一个 caveat 是,这篇 writeup 中使用的评分设置是一种基于 logprobs 的特定设置。它们不是直接使用 LLM 输出的 score token 作为结果,而是计算每个可能 score token 的 logprob,并对分数做加权平均(权重由概率给出)。然后,它们进一步把这个加权平均扩展到重复验证和多个 criterion 上:

Reward = (1 / CK) * ∑{c=1}^{C} ∑{k=1}^{K} ∑_{g=1}^{G} score_logprob * score_value

其中 C 是 evaluation criterion 的总数,K 是重复验证次数,G 是评分粒度(即唯一评分输出选项的数量)。reward 决定某个特定输出是否能在各项 criterion 上通过 verification。

使用这种 logprob 设置时,我们可以看到 verifier accuracy 会随着以下因素一致提升:

后两项发现与既有工作一致,但更高评分粒度有帮助这一点很有意思!

在 LLM-as-a-Verifier 论文中,这个系统在 inference time 以如下所述的 pairwise 方式使用。

“为了在给定任务的 N 个候选中选出最佳 trajectory,会进行一轮 round-robin tournament。对于每一对 (i, j),verifier 使用上述公式生成 Reward(i) 和 Reward(j)。reward 更高的 trajectory 获得一次胜利,最终选择在全部 \binom{N}{2} 对比较中获胜次数最多的 trajectory。”

writeup 链接:https://t.co/OhXz8XJ5GO

译自 X · 研究者一手 · 录于 二〇二六年五月八日