实録译稿 社区 24h

术语频次

封存归档

SWE-bench

█▃▄▂ · 58 次 · 收录于 24 篇

真实软件工程任务基准 · 测代码修改能力

  1. 大规模推理基准测试:编码智能体 评测 · Together AI · 05-20
  2. SkillsVote:从收集、推荐到演进的Agent技能全生命周期治理 研究 · HF Papers · 05-19
  3. 开放Agent排行榜 评测 · HF Blog · 05-18
  4. 新型评估与Agent脚手架赏金计划 研究 · UK AISI · 05-16
  5. 发布 Inspect Evals 工程 · UK AISI · 05-16
  6. vLLM x Mooncake 规模化服务 Agent 工作负载 工程 · vLLM · 05-15
  7. 印度发布 Sarvam 30B 和 105B 开源推理模型,105B 采用 DeepSeek 风格 MLA 注意力 研究 · X · 05-13
  8. Import AI 455:AI系统即将开始自我构建 研究 · Import AI · 05-12
  9. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  10. 自然语言 Autoencoders 研究 · Anthropic Research · 05-08
  11. 混元3 preview Agentic 跑分补全:编程接近 GLM-4.7 研究 · X · 05-07
  12. 总结robotics三点教训:硬件可靠性、benchmark混乱与VLA错位 研究 · X · 05-07
  13. 用 vLLM x Mooncake 大规模服务 Agentic 工作负载 工程 · vLLM · 05-07
  14. Vibe 中的远程 agent,由 Mistral Medium 3.5 驱动 Mistral · 05-04
  15. Qwen3.6-27B-FP8 产品 · Qwen · 05-03
  16. Qwen3.6-27B 产品 · Qwen · 05-03
  17. Claude Opus 4.7 介绍 Anthropic · 05-03
  18. 揭秘 AI agents 的 evals Anthropic Engineering · 05-03
  19. 介绍 GPT-5.5 OpenAI · 05-03
  20. moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
  21. DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
  22. 用 AI agents 编写高效工具 Anthropic Engineering · 05-01
  23. “think”工具:让 Claude 停下来思考 Anthropic Engineering · 05-01
  24. 量化 agentic 编码评测中的基础设施噪声 Anthropic Engineering · 05-01