cwolferesearch
█▄▂
·
16 次
·
收录于 16 篇
-
多智能体系统构建指南:何时需要及两种常见设计模式
工程 · X · 05-22
-
发布 agent 评估指南:涵盖基础概念、评估框架与主流 benchmark 案例
研究 · X · 05-19
-
综述评估 agent 的基准:Terminal-Bench、Tau-Bench 等十余项及校准方法
研究 · X · 05-16
-
置信度校准技术概述:模型变化但经验可迁移
研究 · X · 05-15
-
研究提出用期望校准误差衡量大语言模型可靠性
研究 · X · 05-14
-
Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本
工程 · X · 05-13
-
讨论 multi-teacher distillation 合并领域专家的效率优势
研究 · X · 05-10
-
SimpleStream以最近4帧作为视频流理解强baseline
研究 · X · 05-07
-
比较 RLI、GDPval、APEX-agents 的评估设计取舍
研究 · X · 05-07
-
Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告
工程 · X · 05-07
-
LLM-as-a-Verifier称细粒度评分提升verifier准确率
研究 · X · 05-07
-
总结RL scaling laws与pretraining scaling laws的差异
研究 · X · 05-07
-
比较 pretraining 与 RL 中 scaling laws 的用法差异
研究 · X · 05-07
-
NGC论文提出用RL训练LLM管理自身KV cache
研究 · X · 05-07
-
综述梳理 MOPD 在近期 LLM 后训练中的应用
研究 · X · 05-07
-
介绍 LLM RL 中的 entropy bonus 正则化作用
研究 · X · 05-07