Hugging Face · Daily Papers

StateSMix：基于 Mamba 状态空间模型与稀疏 N-gram 上下文混合的在线无损压缩

StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

Roberto Tacconelli

二〇二六年五月六日 · arXiv:2605.02904 · PDF · Code

摘要

我们提出 StateSMix：一种完全自包含的 lossless compressor（无损压缩器），将在线训练的 Mamba-style State Space Model（SSM）与稀疏 n-gram context mixing 和 arithmetic coding 结合起来。该模型从零初始化，并在被压缩文件上逐 token 训练，不需要 pre-trained weights、不需要 GPU，也不依赖外部组件。SSM（DM=32，NL=2，每个文件约 120K active parameters）为 BPE tokens 提供持续更新的概率估计；同时，九个稀疏 n-gram hash tables（从 bigram 到 32-gram，每个 16M slots）通过 softmax-invariant logit-bias 机制加入精确的局部与长程模式记忆，且只更新非零计数 tokens。entropy-adaptive scaling 机制会根据 SSM 的预测置信度调节 n-gram 的贡献，避免在 neural model 已经校准良好时过度修正。

在标准 enwik8 benchmark 上，StateSMix 在 1 MB、3 MB 和 10 MB 上分别达到 2.123 bpb、2.149 bpb 和 2.162 bpb，相比 xz -9e（LZMA2）分别提升 8.7%、5.4% 和 0.7%。Ablation experiments 表明，SSM 是主要的压缩引擎：仅 SSM 就相对于基于频率计数的 baseline 实现 46.6% 的大小缩减，并且在没有任何 n-gram 组件的情况下超过 xz；而 n-gram tables 通过精确的 context memorisation 提供了额外 4.1% 的收益。训练循环的 OpenMP parallelisation 在 4 cores 上带来 1.9x 加速。该系统使用纯 C 实现，采用 AVX2 SIMD，在普通 x86-64 硬件上每秒可处理约 2,000 tokens。