词
历SWE-bench
真实软件工程任务基准 · 测代码修改能力
- 大规模推理基准测试:编码智能体
- SkillsVote:从收集、推荐到演进的Agent技能全生命周期治理
- 开放Agent排行榜
- 新型评估与Agent脚手架赏金计划
- 发布 Inspect Evals
- vLLM x Mooncake 规模化服务 Agent 工作负载
- 印度发布 Sarvam 30B 和 105B 开源推理模型,105B 采用 DeepSeek 风格 MLA 注意力
- Import AI 455:AI系统即将开始自我构建
- rohitg00/从零开始的 AI 工程
- 自然语言 Autoencoders
- 混元3 preview Agentic 跑分补全:编程接近 GLM-4.7
- 总结robotics三点教训:硬件可靠性、benchmark混乱与VLA错位
- 用 vLLM x Mooncake 大规模服务 Agentic 工作负载
- Vibe 中的远程 agent,由 Mistral Medium 3.5 驱动
- Qwen3.6-27B-FP8
- Qwen3.6-27B
- Claude Opus 4.7 介绍
- 揭秘 AI agents 的 evals
- 介绍 GPT-5.5
- moonshotai/Kimi-K2.6
- DeepSeek-V4 Pro 现已在 Together AI 上可用
- 用 AI agents 编写高效工具
- “think”工具:让 Claude 停下来思考
- 量化 agentic 编码评测中的基础设施噪声