词
历Claude Opus
Claude 系列大型档
- Project Glasswing:初步更新
- 专业化胜过规模化:多数AI采购决策忽视的战略变量
- 大规模推理基准测试:编码智能体
- 五分钟看懂LLM过去六个月
- DavidAU 团队基于 Qwen3.5-27B 拼接训练出非官方 Qwen3.5-40B Dense 模型
- esengine/DeepSeek-Reasonix
- 研究不对齐模型
- 我们对Claude Mythos Preview网络能力的评估
- Anthropic 风险报告(2026年2月)中“自动化研发风险”章节评述
- Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点
- Import AI 455:AI系统即将开始自我构建
- Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4
- 教 Claude 理解为什么
- wanshuiyin/睡眠中自动 Claude Code 研究
- 自然语言 Autoencoders
- moonshotai/Kimi-K2.6
- Coding Agent 的组成部分
- 介绍 talkie:来自 1930 年的 13B 复古语言模型
- 近期 Claude Code 质量报告更新
- 我们如何构建多-agent研究系统
- Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness
- 长时间运行的应用开发的 harness 设计
- Claude Code auto 模式:更安全地跳过权限确认
- 扩展 Managed Agents:将大脑与双手解耦
- Anthropic 经济指数报告:学习曲线
- 自动化对齐研究者:使用 LLM 扩展可扩展监督