一声棒喝,本不立文字
偏要著録,已是二义

Hugging Face · Daily Papers

StateSMix:基于 Mamba 状态空间模型与稀疏 N-gram 上下文混合的在线无损压缩

StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

Roberto Tacconelli
二〇二六年五月六日 · arXiv:2605.02904 · PDF · Code

我们提出 StateSMix:一种完全自包含的 lossless compressor(无损压缩器),将在线训练的 Mamba-style State Space Model(SSM)与稀疏 n-gram context mixing 和 arithmetic coding 结合起来。该模型从零初始化,并在被压缩文件上逐 token 训练,不需要 pre-trained weights、不需要 GPU,也不依赖外部组件。SSM(DM=32,NL=2,每个文件约 120K active parameters)为 BPE tokens 提供持续更新的概率估计;同时,九个稀疏 n-gram hash tables(从 bigram 到 32-gram,每个 16M slots)通过 softmax-invariant logit-bias 机制加入精确的局部与长程模式记忆,且只更新非零计数 tokens。entropy-adaptive scaling 机制会根据 SSM 的预测置信度调节 n-gram 的贡献,避免在 neural model 已经校准良好时过度修正。

在标准 enwik8 benchmark 上,StateSMix 在 1 MB、3 MB 和 10 MB 上分别达到 2.123 bpb、2.149 bpb 和 2.162 bpb,相比 xz -9e(LZMA2)分别提升 8.7%、5.4% 和 0.7%。Ablation experiments 表明,SSM 是主要的压缩引擎:仅 SSM 就相对于基于频率计数的 baseline 实现 46.6% 的大小缩减,并且在没有任何 n-gram 组件的情况下超过 xz;而 n-gram tables 通过精确的 context memorisation 提供了额外 4.1% 的收益。训练循环的 OpenMP parallelisation 在 4 cores 上带来 1.9x 加速。该系统使用纯 C 实现,采用 AVX2 SIMD,在普通 x86-64 硬件上每秒可处理约 2,000 tokens。

译自 Hugging Face · Daily Papers · arXiv:2605.02904 · 录于 二〇二六年五月六日