録实録译稿议社区 24h

词术语频次

历封存归档

cwolferesearch

█▄▂ · 16 次 · 收录于 16 篇

多智能体系统构建指南：何时需要及两种常见设计模式工程 · X · 05-22
发布 agent 评估指南：涵盖基础概念、评估框架与主流 benchmark 案例研究 · X · 05-19
综述评估 agent 的基准：Terminal-Bench、Tau-Bench 等十余项及校准方法研究 · X · 05-16
置信度校准技术概述：模型变化但经验可迁移研究 · X · 05-15
研究提出用期望校准误差衡量大语言模型可靠性研究 · X · 05-14
Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本工程 · X · 05-13
讨论 multi-teacher distillation 合并领域专家的效率优势研究 · X · 05-10
SimpleStream以最近4帧作为视频流理解强baseline 研究 · X · 05-07
比较 RLI、GDPval、APEX-agents 的评估设计取舍研究 · X · 05-07
Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告工程 · X · 05-07
LLM-as-a-Verifier称细粒度评分提升verifier准确率研究 · X · 05-07
总结RL scaling laws与pretraining scaling laws的差异研究 · X · 05-07
比较 pretraining 与 RL 中 scaling laws 的用法差异研究 · X · 05-07
NGC论文提出用RL训练LLM管理自身KV cache 研究 · X · 05-07
综述梳理 MOPD 在近期 LLM 后训练中的应用研究 · X · 05-07
介绍 LLM RL 中的 entropy bonus 正则化作用研究 · X · 05-07

更新于五月二十五日 09:40