MinT:训练与服务百万级LLM的托管基础设施
MinT: Managed Infrastructure for Training and Serving Millions of LLMs
我们提出 MindLab 工具包(MinT),一种用于低秩适配(LoRA)后训练与在线推理的托管基础设施系统。MinT 针对这样一种场景:在少量昂贵的基座模型部署上,产生大量训练好的策略。MinT 不将每个策略物化为合并后的完整检查点,而是让基座模型常驻内存,通过回滚、更新、导出、评估、推理和回退等环节移动导出的 LoRA 适配器修订版本,将分布式训练、推理、调度和数据移动隐藏在服务接口之后。MinT 沿三个维度扩展这一流程。向上扩展(Scale Up)将 LoRA 强化学习扩展到前沿规模的稠密和 MoE 架构,包括 MLA 和 DSA 注意力路径,训练和推理已验证超过 1T 总参数量。向下扩展(Scale Down)仅移动导出的 LoRA 适配器,在 rank-1 设置下其大小可低于基座模型参数的 1%;仅适配器交接使 4B 稠密模型的测量步骤减少 18.3 倍,30B MoE 模型减少 2.85 倍,同时并发多策略 GRPO 在不提高峰值内存的情况下将挂钟时间缩短 1.77 倍和 1.45 倍。向外扩展(Scale Out)将持久策略可寻址性与 CPU/GPU 工作集分离:一个张量并行部署支持 10^6 量级的可寻址目录(单引擎扫描 100K 的测量结果)和集群规模下千适配器级别的活跃波,冷加载被视为计划性服务工作,而打包的 MoE LoRA 张量将在线引擎加载速度提升 8.5-8.7 倍。因此,MinT 在共享的 1T 级基座模型上训练和推理选定的适配器修订版本的同时,管理着百万量级的 LoRA 策略目录。