一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

参数高效的多视角熟练度估计:从判别式分类到生成式反馈

Parameter-Efficient Multi-View Proficiency Estimation: From Discriminative Classification to Generative Feedback

Edoardo Bianchi, Antonio Liotta
二〇二六年五月七日 · arXiv:2605.03848 · PDF

评估一个人执行某项动作的水平,而不是识别其执行的是哪项动作,是指导训练、康复和人才识别的核心。这项任务具有挑战性,因为熟练程度体现在时机、平衡、身体力学和执行方式上的细微差异中,而这些差异往往分布在多个视角和短时序事件中。

我们讨论了 Ego-Exo4D 上多视角 proficiency estimation 的三项近期贡献。SkillFormer 提出了一种参数高效的 discriminative architecture,用于选择性 multi-view fusion;PATS 通过保留基础动作的局部密集片段来改进 temporal sampling;ProfVLM 则将 proficiency estimation 重新表述为 conditional language generation,通过 gated cross-view projector 和紧凑的 language backbone,同时生成 proficiency label 和专家式反馈。

这些方法在 Ego-Exo4D 上共同取得了 SOTA 准确率,相比 video-transformer baseline,最多减少 20x 可训练参数,并最多减少 3x 训练 epoch,同时将任务从 closed-set classification 推向可解释的反馈生成。这些结果表明,研究正在转向高效的多视角系统,将 selective fusion、proficiency-aware sampling 和可操作的生成式反馈结合起来。

译自 Hugging Face · Daily Papers · arXiv:2605.03848 · 录于 二〇二六年五月七日