Hugging Face · Daily Papers

MinT：训练与服务百万级LLM的托管基础设施

MinT: Managed Infrastructure for Training and Serving Millions of LLMs

Mind Lab, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan 等 62 位

来自 Mind Lab

二〇二六年五月十四日 · arXiv:2605.13779 · PDF · Code

摘要

我们提出 MindLab 工具包（MinT），一种用于低秩适配（LoRA）后训练与在线推理的托管基础设施系统。MinT 针对这样一种场景：在少量昂贵的基座模型部署上，产生大量训练好的策略。MinT 不将每个策略物化为合并后的完整检查点，而是让基座模型常驻内存，通过回滚、更新、导出、评估、推理和回退等环节移动导出的 LoRA 适配器修订版本，将分布式训练、推理、调度和数据移动隐藏在服务接口之后。MinT 沿三个维度扩展这一流程。向上扩展（Scale Up）将 LoRA 强化学习扩展到前沿规模的稠密和 MoE 架构，包括 MLA 和 DSA 注意力路径，训练和推理已验证超过 1T 总参数量。向下扩展（Scale Down）仅移动导出的 LoRA 适配器，在 rank-1 设置下其大小可低于基座模型参数的 1%；仅适配器交接使 4B 稠密模型的测量步骤减少 18.3 倍，30B MoE 模型减少 2.85 倍，同时并发多策略 GRPO 在不提高峰值内存的情况下将挂钟时间缩短 1.77 倍和 1.45 倍。向外扩展（Scale Out）将持久策略可寻址性与 CPU/GPU 工作集分离：一个张量并行部署支持 10^6 量级的可寻址目录（单引擎扫描 100K 的测量结果）和集群规模下千适配器级别的活跃波，冷加载被视为计划性服务工作，而打包的 MoE LoRA 张量将在线引擎加载速度提升 8.5-8.7 倍。因此，MinT 在共享的 1T 级基座模型上训练和推理选定的适配器修订版本的同时，管理着百万量级的 LoRA 策略目录。