二〇二六年五月十六日

收録 31 篇

研究 14 · 产品 4 · 工程 9 · 评测 4

推进系统性AI安全领域：资助开放研究 · uk-aisi · 05-16
新型评估与Agent脚手架赏金计划研究 · uk-aisi · 05-13
评估前沿AI系统的早期经验评测 · uk-aisi · 05-16
OpenAI o1 模型部署前评估评测 · uk-aisi · 05-16
长文本任务研究 · uk-aisi · 05-16
Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估评测 · uk-aisi · 05-16
我们的第一年评测 · uk-aisi · 05-16
发布 Inspect Evals工程 · uk-aisi · 05-15
OpenAI 在 ChatGPT 中推出个人理财功能，可连接银行账户分析交易数据产品 · twitter-trending-ai · 05-15
综述评估 agent 的基准：Terminal-Bench、Tau-Bench 等十余项及校准方法研究 · twitter@cwolferesearch · 05-15
Claude 百万上下文窗口可设自动压缩阈值避免污染工程 · twitter@trq212 · 04-16
Claude Code 百万 token 上下文窗口的双刃剑效应与会话管理策略工程 · twitter@trq212 · 04-15
关于AI委托与长期可靠性近期研究的进一步说明研究 · microsoft-research · 05-15
datasette-llm-limits 0.1a0工程 · simon-willison · 05-15
iNaturalist-Clumper 0.1工程 · simon-willison · 05-15
Eric Jang – 从零构建AlphaGo工程 · 🎧 Dwarkesh · 05-15
安全评估原则研究 · uk-aisi · 05-14
我们如何弥合AI能力与防护之间的差距研究 · uk-aisi · 05-15
安全案例如何助力前沿AI安全研究 · uk-aisi · 05-15
增强AI韧性研究 · uk-aisi · 05-15
RepliBench：衡量AI系统中的自主复制能力研究 · uk-aisi · 05-14
AISI挑战基金新更新产品 · uk-aisi · 05-13
LLM 裁判受审：评估自动评分器的新统计框架研究 · uk-aisi · 05-14
如何评估AI agent的控制措施？研究 · uk-aisi · 05-15
Causal Forcing++：面向实时交互视频生成的可扩展少步自回归扩散蒸馏研究 · HF Papers · 05-15
为何编码代理在大型代码库中失败（以及应对方法）研究 · sourcegraph · 05-08
Together AI 与 Pearl Research Labs 合作降低 AI 推理成本产品 · together-ai · 05-15
autoresearch 项目发布单 GPU 自包含版，AI agent 自主迭代训练代码优化 LLM工程 · twitter@karpathy · 03-07
nanochat 单节点 8XH100 训练 2 小时达 GPT-2 级别能力，数据集切换至 NVIDIA ClimbMix工程 · twitter@karpathy · 03-05
构建通用无障碍代理——过程中的经验教训工程 · github-ai-ml · 05-15
ChatGPT 中的全新个人理财体验产品 · OpenAI · 05-15