allenai-blog
OlmPool:小的架构选择如何叠加削弱长上下文扩展
OlmPool: How small architectural choices compound to undermine long context extension
摘要
文章围绕 OlmPool,讨论 small architectural choices 在模型设计中如何相互叠加,并可能削弱 long context extension 的效果,重点关注架构选择与长上下文能力之间的关系。
OlmPool:小型架构选择如何叠加并削弱 long context extension
译自 allenai-blog · 录于 二〇二六年五月八日