词术语频次

reward hacking

▅█▅ · 12 次 · 收录于 8 篇

强化学习代理利用奖励函数缺陷最大化奖励但不学习预期行为的现象