词
历BrowseComp
用于评估搜索代理的基准
- 开放Agent排行榜
- 印度发布 Sarvam 30B 和 105B 开源推理模型,105B 采用 DeepSeek 风格 MLA 注意力
- 混元3 preview Agentic 跑分补全:编程接近 GLM-4.7
- Gemini Deep Research 更新,支持MCP和多模态输入
- OpenSeeker-v2:用信息量高且高难度的轨迹推动搜索 agent 的极限
- 揭秘 AI agents 的 evals
- 介绍 GPT-5.5
- moonshotai/Kimi-K2.6
- deepseek-ai/DeepSeek-V4-Pro
- deepseek-ai/DeepSeek-V4-Flash
- 我们如何构建多-agent研究系统
- Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness