实録译稿 社区 24h

术语频次

封存归档

BrowseComp

█▂▁▁ · 39 次 · 收录于 12 篇

用于评估搜索代理的基准

  1. 开放Agent排行榜 评测 · HF Blog · 05-18
  2. 印度发布 Sarvam 30B 和 105B 开源推理模型,105B 采用 DeepSeek 风格 MLA 注意力 研究 · X · 05-13
  3. 混元3 preview Agentic 跑分补全:编程接近 GLM-4.7 研究 · X · 05-07
  4. Gemini Deep Research 更新,支持MCP和多模态输入 产品 · X · 05-07
  5. OpenSeeker-v2:用信息量高且高难度的轨迹推动搜索 agent 的极限 HF Papers · 05-06
  6. 揭秘 AI agents 的 evals Anthropic Engineering · 05-03
  7. 介绍 GPT-5.5 OpenAI · 05-03
  8. moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
  9. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  10. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  11. 我们如何构建多-agent研究系统 Anthropic Engineering · 05-01
  12. Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness Anthropic Engineering · 05-01