apple-ml-research

SpecMD：推测式专家预取的全面研究

SpecMD: A Comprehensive Study on Speculative Expert Prefetching

二〇二六年五月八日 · 英文原文

摘要

文章提出 SpecMD，一个用于在多种硬件配置上 benchmark MoE 临时 expert caching policy 的标准化 framework，研究稀疏 expert 激活、不同 caching policy 之间的相互作用，以及它们与硬件规格对 inference 性能的影响。

Mixture-of-Experts（MoE）模型支持稀疏 expert 激活，这意味着每次 inference 期间只会使用模型参数的一个子集。然而，要将这种稀疏性转化为实际性能，需要 expert caching 机制。此前的研究提出了以硬件为中心的 caching policy，但这些不同的 caching policy 如何相互作用，以及它们与不同硬件规格之间如何相互影响，目前仍缺乏充分理解。为弥补这一缺口，我们开发了 SpecMD，这是一个标准化 framework，用于在各种硬件配置上 benchmark 临时 cache policy。使用 SpecMD……

译自 apple-ml-research · 录于二〇二六年五月八日