实録译稿 社区 24h

术语频次

封存归档

cwolferesearch

█▄▂ · 16 次 · 收录于 16 篇

  1. 多智能体系统构建指南:何时需要及两种常见设计模式 工程 · X · 05-22
  2. 发布 agent 评估指南:涵盖基础概念、评估框架与主流 benchmark 案例 研究 · X · 05-19
  3. 综述评估 agent 的基准:Terminal-Bench、Tau-Bench 等十余项及校准方法 研究 · X · 05-16
  4. 置信度校准技术概述:模型变化但经验可迁移 研究 · X · 05-15
  5. 研究提出用期望校准误差衡量大语言模型可靠性 研究 · X · 05-14
  6. Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本 工程 · X · 05-13
  7. 讨论 multi-teacher distillation 合并领域专家的效率优势 研究 · X · 05-10
  8. SimpleStream以最近4帧作为视频流理解强baseline 研究 · X · 05-07
  9. 比较 RLI、GDPval、APEX-agents 的评估设计取舍 研究 · X · 05-07
  10. Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告 工程 · X · 05-07
  11. LLM-as-a-Verifier称细粒度评分提升verifier准确率 研究 · X · 05-07
  12. 总结RL scaling laws与pretraining scaling laws的差异 研究 · X · 05-07
  13. 比较 pretraining 与 RL 中 scaling laws 的用法差异 研究 · X · 05-07
  14. NGC论文提出用RL训练LLM管理自身KV cache 研究 · X · 05-07
  15. 综述梳理 MOPD 在近期 LLM 后训练中的应用 研究 · X · 05-07
  16. 介绍 LLM RL 中的 entropy bonus 正则化作用 研究 · X · 05-07