Hugging Face · Daily Papers

参数高效的多视角熟练度估计：从判别式分类到生成式反馈

Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback

Edoardo Bianchi, Antonio Liotta

二〇二六年五月七日 · arXiv:2605.03848 · PDF

摘要

评估一个人执行某项动作的水平，而不是识别其执行的是哪项动作，是指导训练、康复和人才识别的核心。这项任务具有挑战性，因为熟练程度体现在时机、平衡、身体力学和执行方式上的细微差异中，而这些差异往往分布在多个视角和短时序事件中。

我们讨论了 Ego-Exo4D 上多视角 proficiency estimation 的三项近期贡献。SkillFormer 提出了一种参数高效的 discriminative architecture，用于选择性 multi-view fusion；PATS 通过保留基础动作的局部密集片段来改进 temporal sampling；ProfVLM 则将 proficiency estimation 重新表述为 conditional language generation，通过 gated cross-view projector 和紧凑的 language backbone，同时生成 proficiency label 和专家式反馈。

这些方法在 Ego-Exo4D 上共同取得了 SOTA 准确率，相比 video-transformer baseline，最多减少 20x 可训练参数，并最多减少 3x 训练 epoch，同时将任务从 closed-set classification 推向可解释的反馈生成。这些结果表明，研究正在转向高效的多视角系统，将 selective fusion、proficiency-aware sampling 和可操作的生成式反馈结合起来。