録实録译稿议社区 24h

词术语频次

历封存归档

SWE-bench

█▃▄▂ · 58 次 · 收录于 24 篇

真实软件工程任务基准 · 测代码修改能力

大规模推理基准测试：编码智能体评测 · Together AI · 05-20
SkillsVote：从收集、推荐到演进的Agent技能全生命周期治理研究 · HF Papers · 05-19
开放Agent排行榜评测 · HF Blog · 05-18
新型评估与Agent脚手架赏金计划研究 · UK AISI · 05-16
发布 Inspect Evals 工程 · UK AISI · 05-16
vLLM x Mooncake 规模化服务 Agent 工作负载工程 · vLLM · 05-15
印度发布 Sarvam 30B 和 105B 开源推理模型，105B 采用 DeepSeek 风格 MLA 注意力研究 · X · 05-13
Import AI 455：AI系统即将开始自我构建研究 · Import AI · 05-12
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
自然语言 Autoencoders 研究 · Anthropic Research · 05-08
混元3 preview Agentic 跑分补全：编程接近 GLM-4.7 研究 · X · 05-07
总结robotics三点教训：硬件可靠性、benchmark混乱与VLA错位研究 · X · 05-07
用 vLLM x Mooncake 大规模服务 Agentic 工作负载工程 · vLLM · 05-07
Vibe 中的远程 agent，由 Mistral Medium 3.5 驱动 Mistral · 05-04
Qwen3.6-27B-FP8 产品 · Qwen · 05-03
Qwen3.6-27B 产品 · Qwen · 05-03
Claude Opus 4.7 介绍 Anthropic · 05-03
揭秘 AI agents 的 evals Anthropic Engineering · 05-03
介绍 GPT-5.5 OpenAI · 05-03
moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
用 AI agents 编写高效工具 Anthropic Engineering · 05-01
“think”工具：让 Claude 停下来思考 Anthropic Engineering · 05-01
量化 agentic 编码评测中的基础设施噪声 Anthropic Engineering · 05-01