EvalVerse:面向专业影视生成的流水线感知与专家校准基准测试
EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation
来自 Tencent
摘要
生成式视频基础模型的快速演进,正推动该领域向专业级电影合成迈进。为达到如此严苛的质量要求,业界正转向强化学习(RL)与智能体工作流。然而,可靠的评估已成为关键瓶颈。现有基准主要评估"是否正确"(基础指令遵循),而从根本上忽视了"是否优秀"(电影质感、表演与美学)。此外,当前的自动化指标缺乏领域特定的严谨性,无法提供可信信号,导致人类审美感知与机器评分之间存在严重的可信度鸿沟。为弥合这一差距,我们提出EvalVerse——一个全面、面向管线且经专家校准的评估框架。我们将视频生成评估不仅视为工程任务,更作为核心科学问题:对主观电影专业知识的系统数字化。首先,我们将领域知识组织为与专业电影制作流程(前期、中期、后期)对齐的评估分类体系。其次,我们将人类专家判断提炼为包含大规模人工标注的精选数据集。第三,通过专家校准的微调策略,将这些知识注入视觉语言模型(VLM),使其能够执行显式的思维链推理。与先前工作相比,EvalVerse不仅保留了对基础"正确性"指标的兼容性,还显著扩展了"优秀性"标准,并将任务覆盖范围拓宽至复杂的多镜头序列与视听整合。因此,通过提供细粒度的诊断信号,EvalVerse超越了静态排行榜,为未来工作(如奖励模型与评估智能体)建立了基础性基础设施。
译自 Hugging Face · Daily Papers · arXiv:2605.23271 · 录于 二〇二六年五月二十七日