一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

基于 In-Context Sparse Attention 的快速统一视频编辑

Lightning Unified Video Editing via In-Context Sparse Attention

Shitong Shao, Zikai Zhou, Haopeng Li, Yingwei Song, Wenliang Zhong, Lichen Bai, Zeke Xie
二〇二六年五月七日 · arXiv:2605.04569 · PDF

Video editing 已逐渐转向 In-Context Learning(ICL)范式,但由此产生的二次 attention 成本带来了关键的计算瓶颈。在本文中,我们提出 In-context Sparse Attention(ISA),这是首个为 ICL video editing 定制的近无损经验 sparse 框架。我们的设计基于两个关键观察:第一,context tokens 的 saliency 明显低于 source tokens;第二,我们从理论上证明并通过实验验证,Query sharpness 与近似误差相关。基于这些发现,ISA 采用一种高效的预选择策略来剪枝冗余 context,随后使用动态 query grouping 机制,将高误差 query 路由到 full attention,将低误差 query 路由到计算高效的 0 阶 Taylor sparse attention。

此外,我们基于 ISA 和提出的 video-editing 数据流水线构建了 \texttt{LIVEditor},这是一个新的 lightning video editing 模型,并整理得到一个包含 1.7M 高质量样本的数据集。大量实验表明,LIVEditor 可将 attention-module latency 降低 sim60%,同时在 EditVerseBench、IVE-Bench 和 VIE-Bench 上超过 state-of-the-art 方法,实现近无损加速且不损害视觉保真度。

译自 Hugging Face · Daily Papers · arXiv:2605.04569 · 录于 二〇二六年五月七日