X · 研究者一手

@cwolferesearch 我刚发表了一份关于用于…的 LLM-as-a-Judge 系统的报告

@cwolferesearch I just published a report on the LLM-as-a-Judge system used to …

二〇二六年五月八日 · 英文原文

摘要

Netflix 发布用于评估剧集 synopsis 的 LLM-as-a-Judge 系统，基于 precision、factuality、tone、clarity 四项 rubric。三位写作专家经八轮 calibration 标注约 1K 样例，并形成约 600 条 golden set。系统采用 reasoning、5x consensus 和 Agents-as-a-Judge，factuality 准确率由 72.5% 提至 83.95%，各标准准确率为 83% 至 92%。

我刚发布了一份报告，介绍 Netflix 用于评估剧集 synopsis（简介）的 LLM-as-a-Judge 系统。下面是我们如何构建这个系统……

什么是 synopsis？它们是 Netflix 上简短的剧集描述。我们希望确保所有 synopsis 都是高质量的，但 Netflix 有数十万条这样的内容。我们需要一个评估系统，来为快速扩展的片库规模化提供高质量的 synopsis 覆盖。

Rubric（评分规程）。我们的评估系统基于一个多维度的创意质量 rubric，包含四项标准：precision、factuality、tone 和 clarity。这些也是人类写作者在创作 synopsis 时遵循的标准。我们为每项标准分别创建一个 LLM judge 系统，提供评分解释和二元（pass / fail）分数。

数据质量。为了把这些质量标准转化为可供 LLM judge 使用的 rubric，我们需要一组 golden set 评估样例，用来对齐我们的 LLM judge。我们与三位写作专家合作，评估了约 1K 条 synopsis。

为了提升这一主观任务上的一致性，我们进行了八轮 calibration，暴露专家之间的分歧，并迭代评分指南。随后，我们使用 model-in-the-loop 共识方法，创建了最终约 600 条 synopsis 的 golden set：

多位写作者为每条 synopsis 打分。
一个由 rubric 引导的 LLM 聚合得到最终 label。
写作者人工复核存在显著分歧的案例。

在此基础上，我们构建 LLM-as-a-Judge 系统，并以这些 golden evaluation examples 的对齐为指导，使用以下三种技术。

(1) Reasoning。输出更长的 reasoning trace 会持续提升评分准确率。我们的评估系统采用分层 rationale 方法，要求 LLM：

写出对其评分的长解释。
提供该解释的人类可读摘要。
输出最终分数。

通过这种方式，我们既能获得长 reasoning trace 带来的收益，又能为评分提供人类可读的解释，这对人类写作者很有用。

(2) 在使用 reasoning 时，consensus scoring 很有帮助。例如，让同一个 judge 运行 5 次并对分数取平均，在某些标准上可将准确率提高约 5%。有意思的是，在不使用 reasoning 时，consensus scoring 的帮助较小，因为我们发现不使用较长 reasoning trace 时，输出分数的方差更低。

(3) Agents-as-a-Judge。Factuality 有许多方面，例如剧情、演职人员、地点，或剧集 metadata。我们没有用一个 judge 评估所有方面，而是创建了一个 agent 系统，包含四个 agent——每个都有定制的 context 和逻辑——用于评估 factuality 的不同方面。随后，我们将它们的分数和 reasoning 聚合为单一输出。使用多个 agent judge 将 factuality 标准上的评分准确率从 72.5% 提高到 83.95%。

我们最终的 LLM-as-a-Judge 系统结合了这些技术：

Precision 使用标准的基于 reasoning 的 LLM judge。
Clarity 和 Tone 使用带 5x consensus 的分层 rationale judge。
Factuality 使用 agents-as-a-judge，并在每个 agent 中采用分层 rational 和 consensus。

我们在各项标准上的评分准确率达到 83% 到 92%，与写作专家评估 synopsis 时的一致性水平相当或更高。

这是文章链接： https://t.co/uUumJuWi6M

译自 X · 研究者一手 · 录于二〇二六年五月八日