Hugging Face · Daily Papers

基于 In-Context Sparse Attention 的快速统一视频编辑

Lightning Unified Video Editing via In-Context Sparse Attention

Shitong Shao, Zikai Zhou, Haopeng Li, Yingwei Song, Wenliang Zhong, Lichen Bai, Zeke Xie

二〇二六年五月七日 · arXiv:2605.04569 · PDF

摘要

Video editing 已逐渐转向 In-Context Learning（ICL）范式，但由此产生的二次 attention 成本带来了关键的计算瓶颈。在本文中，我们提出 In-context Sparse Attention（ISA），这是首个为 ICL video editing 定制的近无损经验 sparse 框架。我们的设计基于两个关键观察：第一，context tokens 的 saliency 明显低于 source tokens；第二，我们从理论上证明并通过实验验证，Query sharpness 与近似误差相关。基于这些发现，ISA 采用一种高效的预选择策略来剪枝冗余 context，随后使用动态 query grouping 机制，将高误差 query 路由到 full attention，将低误差 query 路由到计算高效的 0 阶 Taylor sparse attention。

此外，我们基于 ISA 和提出的 video-editing 数据流水线构建了 \texttt{LIVEditor}，这是一个新的 lightning video editing 模型，并整理得到一个包含 1.7M 高质量样本的数据集。大量实验表明，LIVEditor 可将 attention-module latency 降低 sim60%，同时在 EditVerseBench、IVE-Bench 和 VIE-Bench 上超过 state-of-the-art 方法，实现近无损加速且不损害视觉保真度。