EvalVerse：面向专业影视生成的流水线感知与专家校准基准测试

EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation

Songlin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang 等 26 位

来自 Tencent

二〇二六年五月二十七日 · arXiv:2605.23271 · PDF

摘要

生成式视频基础模型的快速演进，正推动该领域向专业级电影合成迈进。为达到如此严苛的质量要求，业界正转向强化学习（RL）与智能体工作流。然而，可靠的评估已成为关键瓶颈。现有基准主要评估"是否正确"（基础指令遵循），而从根本上忽视了"是否优秀"（电影质感、表演与美学）。此外，当前的自动化指标缺乏领域特定的严谨性，无法提供可信信号，导致人类审美感知与机器评分之间存在严重的可信度鸿沟。为弥合这一差距，我们提出EvalVerse——一个全面、面向管线且经专家校准的评估框架。我们将视频生成评估不仅视为工程任务，更作为核心科学问题：对主观电影专业知识的系统数字化。首先，我们将领域知识组织为与专业电影制作流程（前期、中期、后期）对齐的评估分类体系。其次，我们将人类专家判断提炼为包含大规模人工标注的精选数据集。第三，通过专家校准的微调策略，将这些知识注入视觉语言模型（VLM），使其能够执行显式的思维链推理。与先前工作相比，EvalVerse不仅保留了对基础"正确性"指标的兼容性，还显著扩展了"优秀性"标准，并将任务覆盖范围拓宽至复杂的多镜头序列与视听整合。因此，通过提供细粒度的诊断信号，EvalVerse超越了静态排行榜，为未来工作（如奖励模型与评估智能体）建立了基础性基础设施。

译自 Hugging Face · Daily Papers · arXiv:2605.23271 · 录于二〇二六年五月二十七日