一声棒喝,本不立文字
偏要著録,已是二义

X · 研究者一手

@cwolferesearch 我刚发表了一份关于用于…的 LLM-as-a-Judge 系统的报告

@cwolferesearch I just published a report on the LLM-as-a-Judge system used to …

二〇二六年五月八日 · 英文原文

Netflix 发布用于评估剧集 synopsis 的 LLM-as-a-Judge 系统,基于 precision、factuality、tone、clarity 四项 rubric。三位写作专家经八轮 calibration 标注约 1K 样例,并形成约 600 条 golden set。系统采用 reasoning、5x consensus 和 Agents-as-a-Judge,factuality 准确率由 72.5% 提至 83.95%,各标准准确率为 83% 至 92%。

我刚发布了一份报告,介绍 Netflix 用于评估剧集 synopsis(简介)的 LLM-as-a-Judge 系统。下面是我们如何构建这个系统……

什么是 synopsis?它们是 Netflix 上简短的剧集描述。我们希望确保所有 synopsis 都是高质量的,但 Netflix 有数十万条这样的内容。我们需要一个评估系统,来为快速扩展的片库规模化提供高质量的 synopsis 覆盖。

Rubric(评分规程)。我们的评估系统基于一个多维度的创意质量 rubric,包含四项标准:precision、factuality、tone 和 clarity。这些也是人类写作者在创作 synopsis 时遵循的标准。我们为每项标准分别创建一个 LLM judge 系统,提供评分解释和二元(pass / fail)分数。

数据质量。为了把这些质量标准转化为可供 LLM judge 使用的 rubric,我们需要一组 golden set 评估样例,用来对齐我们的 LLM judge。我们与三位写作专家合作,评估了约 1K 条 synopsis。

为了提升这一主观任务上的一致性,我们进行了八轮 calibration,暴露专家之间的分歧,并迭代评分指南。随后,我们使用 model-in-the-loop 共识方法,创建了最终约 600 条 synopsis 的 golden set:

在此基础上,我们构建 LLM-as-a-Judge 系统,并以这些 golden evaluation examples 的对齐为指导,使用以下三种技术。

(1) Reasoning。输出更长的 reasoning trace 会持续提升评分准确率。我们的评估系统采用分层 rationale 方法,要求 LLM:

  1. 写出对其评分的长解释。
  2. 提供该解释的人类可读摘要。
  3. 输出最终分数。

通过这种方式,我们既能获得长 reasoning trace 带来的收益,又能为评分提供人类可读的解释,这对人类写作者很有用。

(2) 在使用 reasoning 时,consensus scoring 很有帮助。例如,让同一个 judge 运行 5 次并对分数取平均,在某些标准上可将准确率提高约 5%。有意思的是,在不使用 reasoning 时,consensus scoring 的帮助较小,因为我们发现不使用较长 reasoning trace 时,输出分数的方差更低。

(3) Agents-as-a-Judge。Factuality 有许多方面,例如剧情、演职人员、地点,或剧集 metadata。我们没有用一个 judge 评估所有方面,而是创建了一个 agent 系统,包含四个 agent——每个都有定制的 context 和逻辑——用于评估 factuality 的不同方面。随后,我们将它们的分数和 reasoning 聚合为单一输出。使用多个 agent judge 将 factuality 标准上的评分准确率从 72.5% 提高到 83.95%。

我们最终的 LLM-as-a-Judge 系统结合了这些技术:

我们在各项标准上的评分准确率达到 83% 到 92%,与写作专家评估 synopsis 时的一致性水平相当或更高。

这是文章链接: https://t.co/uUumJuWi6M

译自 X · 研究者一手 · 录于 二〇二六年五月八日