词
历Inspect
AISI 开发的开源 AI 评估框架
- walkinglabs/learn-harness-engineering
- Modal C轮融资:以46.5亿美元估值募资3.55亿美元
- AISI 高级 AI 评估:五月更新
- 前沿AI问答评估开发早期洞察
- AISI的安全案例
- 第四次进展报告
- 评估前沿AI系统的早期经验
- 新型评估与Agent脚手架赏金计划
- 发布 Inspect Evals
- 我们的第一年
- RepliBench:衡量AI系统中的自主复制能力
- HiBayES:用分层贝叶斯建模改进LLM评估
- Inspect Cyber:Agentic网络评估新标准
- Inspect 沙箱工具包:可扩展且安全的 AI agent 评估
- Frontier AI趋势报告首期5项关键发现
- Introducing ControlArena:用于运行AI控制实验的库
- 我们的2025年度回顾
- Devin 现已支持 Android 模拟器
- 使用Inspect Scout进行转录分析的工作流
- 资助60个项目推进AI对齐研究
- AI agent 能逃出沙箱吗?容器逃逸能力安全基准测试
- AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率
- 沙盒AI智能体能从评估环境中学到什么?
- 参数高尔夫教给我们的AI辅助研究经验
- 如何与AI协作并实现复利
- 在 Modal 上构建 RL 定理证明工作流
- 自动扩缩 Autoresearch:在 Modal 上为你的 agents 提供弹性 GPU
- 当“正确”并非确定性时验证 agentic 行为
- 提升 GitHub Agentic Workflows 中的 token 效率
- 在 OpenAI 安全运行 Codex
- EMO:为涌现模块化预训练 Mixture of Experts | Ai2
- EMO:为涌现模块化预训练混合专家
- holaboss-ai/holaOS
- 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问
- 捐赠我们的开源对齐工具
- Gemini API 更新 Interactions steps 与 File Search 多模态检索
- Farzapedia 展示基于本地文件的 AI 个性化方案
- Gemini API File Search 支持 PDF 与图像多模态 RAG
- HKUDS/Vibe-Trading
- MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2
- Vibe 中的远程 agent,由 Mistral Medium 3.5 驱动
- Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_50
- Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_100
- Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W32K-L0_50
- Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100
- Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100
- SAE-Res-Qwen3.5-2B-Base-W32K-L0_50
- SAE-Res-Qwen3-1.7B-Base-W32K-L0_50
- SAE-Res-Qwen3-1.7B-Base-W32K-L0_100
- SAE-Res-Qwen3.5-2B-Base-W32K-L0_100
- Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50
- Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100
- SAE-Res-Qwen3-8B-Base-W64K-L0_50
- SAE-Res-Qwen3-8B-Base-W64K-L0_100
- Qwen/SAE-Res-Qwen3-30B-A3B-Base-W32K-L0_50
- 用于编排的开源规范:Symphony
- vLLM 中的 DeepSeek V4:高效长上下文 Attention
- 揭秘 AI agents 的 evals
- DeepSeek-V4 Pro 现已在 Together AI 上可用
- Coding Agent 的组成部分
- 我理解 LLM 架构的工作流