Hugging Face · Daily Papers
基于 In-Context Sparse Attention 的快速统一视频编辑
Lightning Unified Video Editing via In-Context Sparse Attention
摘要
Video editing 已逐渐转向 In-Context Learning(ICL)范式,但由此产生的二次 attention 成本带来了关键的计算瓶颈。在本文中,我们提出 In-context Sparse Attention(ISA),这是首个为 ICL video editing 定制的近无损经验 sparse 框架。我们的设计基于两个关键观察:第一,context tokens 的 saliency 明显低于 source tokens;第二,我们从理论上证明并通过实验验证,Query sharpness 与近似误差相关。基于这些发现,ISA 采用一种高效的预选择策略来剪枝冗余 context,随后使用动态 query grouping 机制,将高误差 query 路由到 full attention,将低误差 query 路由到计算高效的 0 阶 Taylor sparse attention。
此外,我们基于 ISA 和提出的 video-editing 数据流水线构建了 \texttt{LIVEditor},这是一个新的 lightning video editing 模型,并整理得到一个包含 1.7M 高质量样本的数据集。大量实验表明,LIVEditor 可将 attention-module latency 降低 sim60%,同时在 EditVerseBench、IVE-Bench 和 VIE-Bench 上超过 state-of-the-art 方法,实现近无损加速且不损害视觉保真度。