一声棒喝,本不立文字
偏要著録,已是二义

apple-ml-research

SpecMD:推测式专家预取的全面研究

SpecMD: A Comprehensive Study on Speculative Expert Prefetching

二〇二六年五月八日 · 英文原文

文章提出 SpecMD,一个用于在多种硬件配置上 benchmark MoE 临时 expert caching policy 的标准化 framework,研究稀疏 expert 激活、不同 caching policy 之间的相互作用,以及它们与硬件规格对 inference 性能的影响。

Mixture-of-Experts(MoE)模型支持稀疏 expert 激活,这意味着每次 inference 期间只会使用模型参数的一个子集。然而,要将这种稀疏性转化为实际性能,需要 expert caching 机制。此前的研究提出了以硬件为中心的 caching policy,但这些不同的 caching policy 如何相互作用,以及它们与不同硬件规格之间如何相互影响,目前仍缺乏充分理解。为弥补这一缺口,我们开发了 SpecMD,这是一个标准化 framework,用于在各种硬件配置上 benchmark 临时 cache policy。使用 SpecMD……

译自 apple-ml-research · 录于 二〇二六年五月八日