録实録译稿议社区 24h

词术语频次

历封存归档

BrowseComp

█▂▁▁ · 39 次 · 收录于 12 篇

用于评估搜索代理的基准

开放Agent排行榜评测 · HF Blog · 05-18
印度发布 Sarvam 30B 和 105B 开源推理模型，105B 采用 DeepSeek 风格 MLA 注意力研究 · X · 05-13
混元3 preview Agentic 跑分补全：编程接近 GLM-4.7 研究 · X · 05-07
Gemini Deep Research 更新，支持MCP和多模态输入产品 · X · 05-07
OpenSeeker-v2：用信息量高且高难度的轨迹推动搜索 agent 的极限 HF Papers · 05-06
揭秘 AI agents 的 evals Anthropic Engineering · 05-03
介绍 GPT-5.5 OpenAI · 05-03
moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
我们如何构建多-agent研究系统 Anthropic Engineering · 05-01
Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness Anthropic Engineering · 05-01

更新于五月二十五日 09:40