X · 研究者一手

@karpathy 所有 LLM 中 personalization 的一个常见问题是它有多分散注意力 …

@karpathy One common issue with personalization in all LLMs is how distracting …

二〇二六年五月八日 · 英文原文

摘要

作者讨论 LLM personalization 中 memory 容易干扰回答的问题：模型会反复引用用户过去某次提问，将其误判为长期兴趣。作者称多种 LLM 都存在类似现象，推测原因可能是训练中 context window 信息多与任务相关，使模型倾向使用输入内容；测试时通过 memory 以 RAG 进入上下文的信息可能导致 overfit。

所有 LLM 在 personalization（个性化）上都有一个常见问题：memory（记忆）似乎很容易分散模型注意力。两个月前我就某个话题问过一个问题，它就会不断被提起，仿佛那是我某种很深的兴趣，而且会一直被不恰当地提到。有点像用力过猛。

（我会在一段时间里轮流使用所有 LLM，它们似乎都会这样，所以这不是某个特定实现的问题，而是更深层的东西。例如，也许在训练期间，context window（上下文窗口）里的很多信息都与任务相关，因此 LLM 形成了一种偏向：使用给定的信息；然后在测试时，对任何碰巧通过 memory 功能以 RAG 方式进入上下文的内容发生 overfit（过拟合）（？））

译自 X · 研究者一手 · 录于二〇二六年五月八日