实録译稿 社区 24h

术语频次

封存归档

Inspect

▂▂█▁ · 166 次 · 收录于 61 篇

AISI 开发的开源 AI 评估框架

  1. walkinglabs/learn-harness-engineering 工程 · GitHub · 05-23
  2. Modal C轮融资:以46.5亿美元估值募资3.55亿美元 产品 · Modal · 05-22
  3. AISI 高级 AI 评估:五月更新 评测 · UK AISI · 05-17
  4. 前沿AI问答评估开发早期洞察 研究 · UK AISI · 05-17
  5. AISI的安全案例 研究 · UK AISI · 05-17
  6. 第四次进展报告 评测 · UK AISI · 05-17
  7. 评估前沿AI系统的早期经验 评测 · UK AISI · 05-16
  8. 新型评估与Agent脚手架赏金计划 研究 · UK AISI · 05-16
  9. 发布 Inspect Evals 工程 · UK AISI · 05-16
  10. 我们的第一年 评测 · UK AISI · 05-16
  11. RepliBench:衡量AI系统中的自主复制能力 研究 · UK AISI · 05-16
  12. HiBayES:用分层贝叶斯建模改进LLM评估 研究 · UK AISI · 05-15
  13. Inspect Cyber:Agentic网络评估新标准 工程 · UK AISI · 05-15
  14. Inspect 沙箱工具包:可扩展且安全的 AI agent 评估 工程 · UK AISI · 05-15
  15. Frontier AI趋势报告首期5项关键发现 评测 · UK AISI · 05-15
  16. Introducing ControlArena:用于运行AI控制实验的库 工程 · UK AISI · 05-15
  17. 我们的2025年度回顾 评测 · UK AISI · 05-14
  18. Devin 现已支持 Android 模拟器 产品 · Cognition · 05-14
  19. 使用Inspect Scout进行转录分析的工作流 工程 · UK AISI · 05-14
  20. 资助60个项目推进AI对齐研究 研究 · UK AISI · 05-14
  21. AI agent 能逃出沙箱吗?容器逃逸能力安全基准测试 研究 · UK AISI · 05-14
  22. AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率 研究 · UK AISI · 05-14
  23. 沙盒AI智能体能从评估环境中学到什么? 研究 · UK AISI · 05-13
  24. 参数高尔夫教给我们的AI辅助研究经验 产品 · OpenAI · 05-13
  25. 如何与AI协作并实现复利 工程 · Eugene Yan · 05-12
  26. 在 Modal 上构建 RL 定理证明工作流 工程 · Modal · 05-09
  27. 自动扩缩 Autoresearch:在 Modal 上为你的 agents 提供弹性 GPU 工程 · Modal · 05-09
  28. 当“正确”并非确定性时验证 agentic 行为 研究 · GitHub AI/ML · 05-09
  29. 提升 GitHub Agentic Workflows 中的 token 效率 工程 · GitHub AI/ML · 05-09
  30. 在 OpenAI 安全运行 Codex 工程 · OpenAI · 05-09
  31. EMO:为涌现模块化预训练 Mixture of Experts | Ai2 研究 · Allen AI · 05-09
  32. EMO:为涌现模块化预训练混合专家 研究 · HF Blog · 05-09
  33. holaboss-ai/holaOS 工程 · GitHub · 05-08
  34. 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问 产品 · OpenAI · 05-08
  35. 捐赠我们的开源对齐工具 工程 · Anthropic Research · 05-08
  36. Gemini API 更新 Interactions steps 与 File Search 多模态检索 产品 · X · 05-08
  37. Farzapedia 展示基于本地文件的 AI 个性化方案 工程 · X · 05-07
  38. Gemini API File Search 支持 PDF 与图像多模态 RAG 产品 · X · 05-07
  39. HKUDS/Vibe-Trading 工程 · GitHub · 05-07
  40. MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2 Allen AI · 05-06
  41. Vibe 中的远程 agent,由 Mistral Medium 3.5 驱动 Mistral · 05-04
  42. Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_50 产品 · Qwen · 05-03
  43. Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_100 研究 · Qwen · 05-03
  44. Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W32K-L0_50 产品 · Qwen · 05-03
  45. Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
  46. Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
  47. SAE-Res-Qwen3.5-2B-Base-W32K-L0_50 工程 · Qwen · 05-03
  48. SAE-Res-Qwen3-1.7B-Base-W32K-L0_50 产品 · Qwen · 05-03
  49. SAE-Res-Qwen3-1.7B-Base-W32K-L0_100 产品 · Qwen · 05-03
  50. SAE-Res-Qwen3.5-2B-Base-W32K-L0_100 研究 · Qwen · 05-03
  51. Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50 研究 · Qwen · 05-03
  52. Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100 研究 · Qwen · 05-03
  53. SAE-Res-Qwen3-8B-Base-W64K-L0_50 研究 · Qwen · 05-03
  54. SAE-Res-Qwen3-8B-Base-W64K-L0_100 工程 · Qwen · 05-03
  55. Qwen/SAE-Res-Qwen3-30B-A3B-Base-W32K-L0_50 研究 · Qwen · 05-03
  56. 用于编排的开源规范:Symphony OpenAI · 05-03
  57. vLLM 中的 DeepSeek V4:高效长上下文 Attention vLLM · 05-03
  58. 揭秘 AI agents 的 evals Anthropic Engineering · 05-03
  59. DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
  60. Coding Agent 的组成部分 Sebastian Raschka · 05-03
  61. 我理解 LLM 架构的工作流 Sebastian Raschka · 05-03