X · 研究者一手

@cwolferesearch 强烈推荐 LLM-as-a-Verifier 这篇文章。最大的收获…

@cwolferesearch Strongly recommend the LLM-as-a-Verifier writeup. Biggest takea…

二〇二六年五月八日 · 英文原文

摘要

LLM-as-a-Verifier writeup 讨论基于 logprobs 的 verifier：对各 score token 概率加权求分，并扩展到 criterion 数 C、重复次数 K、评分粒度 G。实验显示 accuracy 随 G、K、C 增加而提升；论文在 inference time 用 pairwise round-robin 从 N 个 trajectory 中按胜场选择输出。

强烈推荐阅读 LLM-as-a-Verifier 这篇 writeup。

对我来说最大的 takeaway 是：提高评分粒度会让 verifier 更有效。这表明 LLM judge / verifier 正在发展出新的（且更好的）能力。

1-2 年前这种做法效果并不好。事实上，LLM-as-a-Judge 的 best practice 是较低的评分粒度（例如 binary、ternary，或 1-5 Likert score）比细粒度分数（例如 1-100 scale）好得多。这是我在正确搭建 LLM judge 时一直给出的建议。现在看来，近期的 frontier LLM 已经更擅长在更细粒度上打分，使得这一 best practice（可能）过时了。

对这一发现的一个 caveat 是，这篇 writeup 中使用的评分设置是一种基于 logprobs 的特定设置。它们不是直接使用 LLM 输出的 score token 作为结果，而是计算每个可能 score token 的 logprob，并对分数做加权平均（权重由概率给出）。然后，它们进一步把这个加权平均扩展到重复验证和多个 criterion 上：

Reward = (1 / CK) * ∑{c=1}^{C} ∑{k=1}^{K} ∑_{g=1}^{G} score_logprob * score_value

其中 C 是 evaluation criterion 的总数，K 是重复验证次数，G 是评分粒度（即唯一评分输出选项的数量）。reward 决定某个特定输出是否能在各项 criterion 上通过 verification。

使用这种 logprob 设置时，我们可以看到 verifier accuracy 会随着以下因素一致提升：

提高评分粒度 G。
增加重复验证次数 K。
增加 evaluation criterion 的数量 C。

后两项发现与既有工作一致，但更高评分粒度有帮助这一点很有意思！

在 LLM-as-a-Verifier 论文中，这个系统在 inference time 以如下所述的 pairwise 方式使用。

“为了在给定任务的 N 个候选中选出最佳 trajectory，会进行一轮 round-robin tournament。对于每一对 (i, j)，verifier 使用上述公式生成 Reward(i) 和 Reward(j)。reward 更高的 trajectory 获得一次胜利，最终选择在全部 \binom{N}{2} 对比较中获胜次数最多的 trajectory。”

writeup 链接：https://t.co/OhXz8XJ5GO

译自 X · 研究者一手 · 录于二〇二六年五月八日