Hugging Face · Daily Papers

使用 RoundPipe 在多个消费级 GPUs 上高效训练

Efficient Training on Multiple Consumer GPUs with RoundPipe

Yibin Luo, Shiwei Gao, Huichuan Zheng, Youyou Lu, Jiwu Shu

二〇二六年五月一日 · arXiv:2604.27085 · PDF · Code

摘要

在消费级 GPU 上 fine-tuning Large Language Models (LLMs) 具有很高的成本效益，但受限于 GPU 内存有限以及 PCIe 互连速度较慢。Pipeline parallelism 结合 CPU offloading 可通过降低通信开销来缓解这些硬件瓶颈。然而，现有的 PP 调度存在一种固有限制，称为 weight binding 问题。将不均衡的模型 stage（例如 LM head 较大）绑定到 GPU，会使 pipeline 的吞吐量受限于负载最重的 GPU，从而产生严重的 pipeline bubbles。

本文提出 RoundPipe，这是一种新的 pipeline schedule，可在消费级 GPU 服务器上打破 weight binding 约束。RoundPipe 将 GPU 视为一组无状态执行 worker，并以 round-robin 方式在设备之间动态分发计算 stage，从而实现接近零 bubble 的 pipeline。为确保训练正确性和系统效率，RoundPipe 集成了具备优先级感知能力的传输调度引擎、细粒度的分布式 event-based synchronization protocol，以及自动化的 layer partitioning algorithm。基于一台 8times RTX 4090 服务器的评测表明，在 fine-tuning 1.7B 至 32B 模型时，RoundPipe 相比 SOTA baseline 实现了 1.48--2.16times 的加速。值得注意的是，RoundPipe 支持在单台服务器上对 Qwen3-235B 模型进行 31K sequence length 的 LoRA fine-tuning。

RoundPipe 已作为开源 Python library 公开发布，并提供了完整文档。