録实録译稿议社区 24h

词术语频次

历封存归档

Inspect

▂▂█▁ · 166 次 · 收录于 61 篇

AISI 开发的开源 AI 评估框架

walkinglabs/learn-harness-engineering 工程 · GitHub · 05-23
Modal C轮融资：以46.5亿美元估值募资3.55亿美元产品 · Modal · 05-22
AISI 高级 AI 评估：五月更新评测 · UK AISI · 05-17
前沿AI问答评估开发早期洞察研究 · UK AISI · 05-17
AISI的安全案例研究 · UK AISI · 05-17
第四次进展报告评测 · UK AISI · 05-17
评估前沿AI系统的早期经验评测 · UK AISI · 05-16
新型评估与Agent脚手架赏金计划研究 · UK AISI · 05-16
发布 Inspect Evals 工程 · UK AISI · 05-16
我们的第一年评测 · UK AISI · 05-16
RepliBench：衡量AI系统中的自主复制能力研究 · UK AISI · 05-16
HiBayES：用分层贝叶斯建模改进LLM评估研究 · UK AISI · 05-15
Inspect Cyber：Agentic网络评估新标准工程 · UK AISI · 05-15
Inspect 沙箱工具包：可扩展且安全的 AI agent 评估工程 · UK AISI · 05-15
Frontier AI趋势报告首期5项关键发现评测 · UK AISI · 05-15
Introducing ControlArena：用于运行AI控制实验的库工程 · UK AISI · 05-15
我们的2025年度回顾评测 · UK AISI · 05-14
Devin 现已支持 Android 模拟器产品 · Cognition · 05-14
使用Inspect Scout进行转录分析的工作流工程 · UK AISI · 05-14
资助60个项目推进AI对齐研究研究 · UK AISI · 05-14
AI agent 能逃出沙箱吗？容器逃逸能力安全基准测试研究 · UK AISI · 05-14
AI网络任务中推理扩展的证据：增加评估预算揭示更高成功率研究 · UK AISI · 05-14
沙盒AI智能体能从评估环境中学到什么？研究 · UK AISI · 05-13
参数高尔夫教给我们的AI辅助研究经验产品 · OpenAI · 05-13
如何与AI协作并实现复利工程 · Eugene Yan · 05-12
在 Modal 上构建 RL 定理证明工作流工程 · Modal · 05-09
自动扩缩 Autoresearch：在 Modal 上为你的 agents 提供弹性 GPU 工程 · Modal · 05-09
当“正确”并非确定性时验证 agentic 行为研究 · GitHub AI/ML · 05-09
提升 GitHub Agentic Workflows 中的 token 效率工程 · GitHub AI/ML · 05-09
在 OpenAI 安全运行 Codex 工程 · OpenAI · 05-09
EMO：为涌现模块化预训练 Mixture of Experts | Ai2 研究 · Allen AI · 05-09
EMO：为涌现模块化预训练混合专家研究 · HF Blog · 05-09
holaboss-ai/holaOS 工程 · GitHub · 05-08
用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问产品 · OpenAI · 05-08
捐赠我们的开源对齐工具工程 · Anthropic Research · 05-08
Gemini API 更新 Interactions steps 与 File Search 多模态检索产品 · X · 05-08
Farzapedia 展示基于本地文件的 AI 个性化方案工程 · X · 05-07
Gemini API File Search 支持 PDF 与图像多模态 RAG 产品 · X · 05-07
HKUDS/Vibe-Trading 工程 · GitHub · 05-07
MolmoAct 2：面向现实世界机器人工作的开放基础 | Ai2 Allen AI · 05-06
Vibe 中的远程 agent，由 Mistral Medium 3.5 驱动 Mistral · 05-04
Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_50 产品 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_100 研究 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W32K-L0_50 产品 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
SAE-Res-Qwen3.5-2B-Base-W32K-L0_50 工程 · Qwen · 05-03
SAE-Res-Qwen3-1.7B-Base-W32K-L0_50 产品 · Qwen · 05-03
SAE-Res-Qwen3-1.7B-Base-W32K-L0_100 产品 · Qwen · 05-03
SAE-Res-Qwen3.5-2B-Base-W32K-L0_100 研究 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50 研究 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100 研究 · Qwen · 05-03
SAE-Res-Qwen3-8B-Base-W64K-L0_50 研究 · Qwen · 05-03
SAE-Res-Qwen3-8B-Base-W64K-L0_100 工程 · Qwen · 05-03
Qwen/SAE-Res-Qwen3-30B-A3B-Base-W32K-L0_50 研究 · Qwen · 05-03
用于编排的开源规范：Symphony OpenAI · 05-03
vLLM 中的 DeepSeek V4：高效长上下文 Attention vLLM · 05-03
揭秘 AI agents 的 evals Anthropic Engineering · 05-03
DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
Coding Agent 的组成部分 Sebastian Raschka · 05-03
我理解 LLM 架构的工作流 Sebastian Raschka · 05-03