reward hacking
▅█▅
·
12 次
·
收录于 8 篇
强化学习代理利用奖励函数缺陷最大化奖励但不学习预期行为的现象
-
最新开放制品(#21):开放模型大爆发!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。
评测 · Interconnects · 05-17
-
我们如何弥合AI能力与防护之间的差距
研究 · UK AISI · 05-16
-
Flow-OPD:流匹配模型的在策略蒸馏
研究 · HF Papers · 05-12
-
rohitg00/从零开始的 AI 工程
工程 · GitHub · 05-08
-
克服奖励信号挑战:在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习
工程 · AWS ML · 05-08
-
文章讨论 reward hacking 及 LLM/RLHF 缓解研究
研究 · X · 05-07
-
大语言模型中的情感概念及其功能
Anthropic Research · 04-30
-
自动化对齐研究者:使用 LLM 扩展可扩展监督
Anthropic Research · 04-30