实録译稿 社区 24h

术语频次

封存归档

agent

█▇▆▅ · 4736 次 · 收录于 404 篇

AI 代理 · 能自主调用工具 / 感知环境的 LLM 应用形态

  1. datasette-agent 0.1a4 工程 · Simon Willison · 05-25
  2. 引用 Armin Ronacher 工程 · Simon Willison · 05-25
  3. Emmi 加入 Mistral 加速 AI 原生行业 产品 · Mistral · 05-23
  4. walkinglabs/learn-harness-engineering 工程 · GitHub · 05-23
  5. Project Glasswing:初步更新 研究 · Anthropic Research · 05-23
  6. Google DeepMind CEO 汇总第三方评测:Gemini 3.5 Flash 在 agent、编程、视觉、金融领域表现良好 评测 · X · 05-23
  7. 为何你的追踪与评估应放在同一处 工程 · Braintrust · 05-23
  8. Qwen 3.7-Max 在 agent 任务中以更低成本击败 Opus 4.7 和 GPT-5.5 评测 · X Trending · 05-23
  9. GitHub 连续第三年获评 Gartner® 企业 AI 编码代理魔力象限™ 领导者 产品 · GitHub AI/ML · 05-23
  10. Gemini Managed Agents 新 API 提供托管 Linux 沙箱执行代码 产品 · X · 05-23
  11. π-Bench:长周期工作流中主动式个人助理Agent的评估 研究 · HF Papers · 05-22
  12. 如何通过评估与可观测性赢得利益相关者信任 产品 · Braintrust · 05-22
  13. MagenticLite、MagenticBrain、Fara1.5:为小模型优化的智能体体验 研究 · MS Research · 05-22
  14. Amazon Nova Act 现已符合 HIPAA 标准 产品 · AWS ML · 05-22
  15. 给Agent配电脑 — Ivan Burazin, Daytona 工程 · Latent Space · 05-22
  16. 谷歌DeepMind加速器项目落地亚太,应对环境风险 产品 · DeepMind · 05-22
  17. datasette-agent 0.1a2 工程 · Simon Willison · 05-22
  18. datasette-agent-charts 0.1a1 工程 · Simon Willison · 05-22
  19. datasette-agent 0.1a3 工程 · Simon Willison · 05-22
  20. Datasette Agent 工程 · Simon Willison · 05-22
  21. AI系统监管会变得更难吗? 研究 · UK AISI · 05-22
  22. Modal C轮融资:以46.5亿美元估值募资3.55亿美元 产品 · Modal · 05-22
  23. 多智能体系统构建指南:何时需要及两种常见设计模式 工程 · X · 05-22
  24. 用一条 curl 命令调用 Gemini API 构建 GitHub Issue 分类 Agent 工程 · X · 05-22
  25. Vega:AI时代数字身份的零知识证明 研究 · MS Research · 05-22
  26. Video2GUI:合成大规模交互轨迹用于通用GUI Agent预训练 研究 · HF Papers · 05-21
  27. Cursor 自动化改进 产品 · Cursor · 05-21
  28. 铁路:面向Agent的原生云 — Jake Cooper 产品 · Latent Space · 05-21
  29. Cohere 收购 Reliant AI 以扩展主权企业 AI 产品 · Cohere · 05-21
  30. 宣布与Indra Group和Multiverse Computing签署战略合作备忘录 产品 · Cohere · 05-21
  31. Midjourney 创始人自曝因用TPU弃N卡导致产品迭代落后一年 工程 · X · 05-21
  32. 掌握Agent技术:AI Agent定制 工程 · NVIDIA Developer · 05-21
  33. 在应用计算中扩展强化学习 工程 · Modal · 05-21
  34. Google I/O、Gemini Spark、反重力 产品 · Simon Willison · 05-21
  35. 为Agent Harness添加专项深度研究技能 工程 · NVIDIA Developer · 05-21
  36. 全屏标签页与紧凑聊天 产品 · Cursor · 05-21
  37. 强化新加坡AI未来:新国家伙伴关系 产品 · DeepMind · 05-20
  38. Cursor 集成 Jira 产品 · Cursor · 05-20
  39. NVIDIA 验证的 Agent 技能为 AI Agent 提供能力治理 工程 · NVIDIA Developer · 05-20
  40. vLLM 中的弹性专家并行 工程 · vLLM · 05-20
  41. Gemini 3.5 Flash 正式发布,编码和 agent 任务优于 3.1 Pro 产品 · X · 05-20
  42. Google 推出 Gemini API 托管代理,支持代码执行与网页浏览 产品 · X · 05-20
  43. Google 推出 Antigravity Agent 与 Gemini Managed Agents,并发布 Gemini 3.5 迁移指南 产品 · X · 05-20
  44. 字节跳动发布开源全模态模型Lance,3B参数支持图文视频理解与生成 产品 · X · 05-20
  45. Gemini 3.5 Flash:更贵,但谷歌计划用它做所有事 产品 · Simon Willison · 05-20
  46. 掌握智能体技术:AI Agent评估 评测 · NVIDIA Developer · 05-20
  47. 大规模推理基准测试:编码智能体 评测 · Together AI · 05-20
  48. 代码即代理工具 研究 · HF Papers · 05-20
  49. 推出带 Modal 沙箱的 Claude 托管 Agent 产品 · Modal · 05-20
  50. Google 推出基于 Gemini 3.5 的 24/7 个人 AI agent Gemini Spark 产品 · X Trending · 05-20
  51. Gemini 3.5:具备行动能力的前沿智能 产品 · DeepMind · 05-20
  52. 发现可对抗肝纤维化的老药新用 研究 · DeepMind · 05-20
  53. Co-Scientist:加速科研的多智能体AI伙伴 研究 · DeepMind · 05-20
  54. 让内容创建与编辑过程更易理解 产品 · DeepMind · 05-20
  55. 开辟衰老研究新路径 研究 · DeepMind · 05-20
  56. 整合生物工具包,探索ALS新疗法 研究 · DeepMind · 05-20
  57. 发现新型传染病背后的分子开关 研究 · DeepMind · 05-20
  58. 加速发现肝病机制 研究 · DeepMind · 05-20
  59. 用 Project Genie 和街景模拟真实世界地点 产品 · DeepMind · 05-20
  60. Gemini for Science:新发现时代的AI实验与工具 产品 · DeepMind · 05-20
  61. 快速追踪遗传线索逆转细胞衰老 研究 · DeepMind · 05-20
  62. 谷歌反重力 2.0 发布 产品 · DeepMind · 05-20
  63. 可扩展语音代理设计:Amazon Nova Sonic 的多代理、工具与会话分割 工程 · AWS ML · 05-20
  64. 推出 Ettin Reranker 系列 产品 · HF Blog · 05-19
  65. SkillsVote:从收集、推荐到演进的Agent技能全生命周期治理 研究 · HF Papers · 05-19
  66. AgriciDaniel/claude-obsidian 工程 · GitHub · 05-19
  67. Import AI 457:AI 震网;诅咒的 Muon 优化器;与正向对齐 研究 · Import AI · 05-19
  68. 五分钟看懂LLM过去六个月 评测 · Simon Willison · 05-19
  69. Google 发布 Gemini Interactions API 流式传输指南 产品 · X · 05-19
  70. 阿里千问发布Qwen3.7-Max-Preview,数学能力升至总榜第七 字节跳动开源3B全模态模型Lance,统一处理文本、图像与视频 评测 · X · 05-19
  71. 字节跳动开源3B全模态模型Lance,训练仅用128张A100显卡 评测 · X · 05-19
  72. 用 Amazon Nova 2 提示词做内容审核 工程 · AWS ML · 05-19
  73. 使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频 工程 · HF Blog · 05-19
  74. PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务 工程 · HF Blog · 05-19
  75. 将本地 GitHub 会话带到任何地方 产品 · GitHub AI/ML · 05-19
  76. 发布 agent 评估指南:涵盖基础概念、评估框架与主流 benchmark 案例 研究 · X · 05-19
  77. 开放Agent排行榜 评测 · HF Blog · 05-18
  78. MMSkills:面向通用视觉智能体的多模态技能 研究 · HF Papers · 05-18
  79. 搭建 agentic 系统前五步基础设施:Tailscale、Termius、tmux、私有 Git 仓库、全脚本化 工程 · X Trending · 05-18
  80. Imbad0202/学术研究技能 工程 · GitHub · 05-18
  81. AISI 高级 AI 评估:五月更新 评测 · UK AISI · 05-17
  82. LLM架构最新进展:KV共享、mHC与压缩注意力 研究 · Sebastian Raschka · 05-17
  83. Warelay -> OpenClaw 工程 · Simon Willison · 05-17
  84. AI系统应该像人一样行事吗? 研究 · UK AISI · 05-17
  85. 第四次进展报告 评测 · UK AISI · 05-17
  86. 最新开放制品(#21):开放模型大爆发!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。 评测 · Interconnects · 05-17
  87. 推进系统性AI安全领域:资助开放 UK AISI · 05-16
  88. 评估前沿AI系统的早期经验 评测 · UK AISI · 05-16
  89. 新型评估与Agent脚手架赏金计划 研究 · UK AISI · 05-16
  90. OpenAI o1 模型部署前评估 评测 · UK AISI · 05-16
  91. Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估 评测 · UK AISI · 05-16
  92. 发布 Inspect Evals 工程 · UK AISI · 05-16
  93. 我们的第一年 评测 · UK AISI · 05-16
  94. 综述评估 agent 的基准:Terminal-Bench、Tau-Bench 等十余项及校准方法 研究 · X · 05-16
  95. Claude Code 百万 token 上下文窗口的双刃剑效应与会话管理策略 工程 · X · 05-16
  96. 关于AI委托与长期可靠性近期研究的进一步说明 研究 · MS Research · 05-16
  97. datasette-llm-limits 0.1a0 工程 · Simon Willison · 05-16
  98. iNaturalist-clumper 0.1 工程 · Simon Willison · 05-16
  99. 我们如何弥合AI能力与防护之间的差距 研究 · UK AISI · 05-16
  100. RepliBench:衡量AI系统中的自主复制能力 研究 · UK AISI · 05-16
  101. 增强AI韧性 研究 · UK AISI · 05-16
  102. 如何评估AI agent的控制措施? 研究 · UK AISI · 05-16
  103. 为何编码代理在大型代码库中失败(以及应对方法) 研究 · Sourcegraph · 05-16
  104. autoresearch 项目发布单 GPU 自包含版,AI agent 自主迭代训练代码优化 LLM 工程 · X · 05-16
  105. nanochat 单节点 8XH100 训练 2 小时达 GPT-2 级别能力,数据集切换至 NVIDIA ClimbMix 工程 · X · 05-16
  106. 构建通用无障碍代理——过程中的经验教训 工程 · GitHub AI/ML · 05-16
  107. HiBayES:用分层贝叶斯建模改进LLM评估 研究 · UK AISI · 05-15
  108. AI将如何助长未来犯罪? 研究 · UK AISI · 05-15
  109. Inspect Cyber:Agentic网络评估新标准 工程 · UK AISI · 05-15
  110. 国际联合测试演习:Agentic 测试 评测 · UK AISI · 05-15
  111. 结构化引出实验协议 研究 · UK AISI · 05-15
  112. esengine/DeepSeek-Reasonix 工程 · GitHub · 05-15
  113. op7418/guizang-ppt-skill 工程 · GitHub · 05-15
  114. Intern-S2-Preview 研究 · InternLM · 05-15
  115. Intern-S2-Preview-FP8 研究 · InternLM · 05-15
  116. 穿越未知:构建社会对前沿AI的韧性 研究 · UK AISI · 05-15
  117. Inspect 沙箱工具包:可扩展且安全的 AI agent 评估 工程 · UK AISI · 05-15
  118. Frontier AI趋势报告首期5项关键发现 评测 · UK AISI · 05-15
  119. 自主AI网络能力进步有多快? 评测 · UK AISI · 05-15
  120. 当前AI系统的局限性映射 研究 · UK AISI · 05-15
  121. 压力测试AI编码代理的异步监控 研究 · UK AISI · 05-15
  122. 引用 Mitchell Hashimoto 工程 · Simon Willison · 05-15
  123. 不再那么锁定了 工程 · Simon Willison · 05-15
  124. 智能体异步大规模协作研究:GitHub 分支模式原型设计 研究 · X · 05-15
  125. 随时随地使用 Codex 工作 产品 · OpenAI · 05-15
  126. AI agent评估的转录分析 评测 · UK AISI · 05-15
  127. UKAISI 亮相 NeurIPS 2025 研究 · UK AISI · 05-15
  128. Introducing ControlArena:用于运行AI控制实验的库 工程 · UK AISI · 05-15
  129. Stream Vision Agents 与 Amazon Nova 2 Sonic 实时语音代理 工程 · AWS ML · 05-15
  130. NVIDIA Vera Rubin 平台如何解决 Agentic AI 的扩展问题 工程 · NVIDIA Developer · 05-15
  131. 有效训练长上下文视觉语言模型,泛化能力超越128K上下文 研究 · HF Papers · 05-15
  132. Qwen3-TTS:低成本、高性能文本转语音 工程 · Baseten · 05-15
  133. vLLM x Mooncake 规模化服务 Agent 工作负载 工程 · vLLM · 05-15
  134. Apollo 2026年5月更新 产品 · Apollo Research · 05-14
  135. 研究不对齐模型 研究 · UK AISI · 05-14
  136. AI与工作的未来:衡量AI驱动的工作任务生产力提升 研究 · UK AISI · 05-14
  137. AI Agent 如何使用?来自 17.7 万 AI Agent 工具的证据 研究 · UK AISI · 05-14
  138. 我们的2025年度回顾 评测 · UK AISI · 05-14
  139. AI评估中的国际共识与开放问题 研究 · UK AISI · 05-14
  140. Devin 现已支持 Android 模拟器 产品 · Cognition · 05-14
  141. 云代理的开发环境 产品 · Cursor · 05-14
  142. mimalloc:面向现代的高性能可扩展内存分配器 工程 · MS Research · 05-14
  143. 欢迎来到 Datasette 博客 工程 · Simon Willison · 05-14
  144. Android 16 原生内置 MCP,Gemini 智能体可跨应用调用 AppFunction 工具 产品 · X · 05-14
  145. 使用Inspect Scout进行转录分析的工作流 工程 · UK AISI · 05-14
  146. 资助60个项目推进AI对齐研究 研究 · UK AISI · 05-14
  147. AI agent 能逃出沙箱吗?容器逃逸能力安全基准测试 研究 · UK AISI · 05-14
  148. 前沿AI智能体在多步网络攻击场景中表现如何? 评测 · UK AISI · 05-14
  149. AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率 研究 · UK AISI · 05-14
  150. 使用 Amazon Nova Sonic 和 WebRTC 构建实时语音流应用 工程 · AWS ML · 05-14
  151. 构建安全有效的沙箱,在 Windows 上启用 Codex 工程 · OpenAI · 05-14
  152. 引用 Boris Mann 工程 · Simon Willison · 05-14
  153. 用AI Agent与技能将视频转化为即时可搜索、可行动的情报 产品 · NVIDIA Developer · 05-14
  154. δ-mem:大语言模型的高效在线记忆 研究 · HF Papers · 05-13
  155. Apollo Research 将转型为公益公司 产品 · Apollo Research · 05-13
  156. 利用前沿AI进行网络防御 工程 · UK AISI · 05-13
  157. 沙盒AI智能体能从评估环境中学到什么? 研究 · UK AISI · 05-13
  158. 环境因素如何影响AI行为? 研究 · UK AISI · 05-13
  159. 我们对OpenAI GPT-5.5网络能力的评估 评测 · UK AISI · 05-13
  160. 评估AI模型是否会破坏AI安全研究 评测 · UK AISI · 05-13
  161. 红队测试Anthropic内部Agent监控系统 研究 · METR · 05-13
  162. Anthropic 风险报告(2026年2月)中“自动化研发风险”章节评述 评测 · METR · 05-13
  163. SenseNova-U1:基于NEO-unify架构统一多模态理解与生成 研究 · HF Papers · 05-13
  164. MemPrivacy:面向边缘-云智能体的隐私保护个性化记忆管理 研究 · HF Papers · 05-13
  165. 印度发布 Sarvam 30B 和 105B 开源推理模型,105B 采用 DeepSeek 风格 MLA 注意力 研究 · X · 05-13
  166. 参数高尔夫教给我们的AI辅助研究经验 产品 · OpenAI · 05-13
  167. 推出语音查找器——从600多种声音中快速为你的应用找到合适声音的新工具 产品 · Together AI · 05-13
  168. Gemini Interactions API 发布思考与签名指南,支持有状态与无状态模式 产品 · X · 05-13
  169. Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本 工程 · X · 05-13
  170. 地牢与桌面:用 GitHub Copilot CLI 构建程序化生成 Roguelike 工程 · GitHub AI/ML · 05-12
  171. 如何与AI协作并实现复利 工程 · Eugene Yan · 05-12
  172. 如何实现真正的无服务器GPU 工程 · Modal · 05-12
  173. Opus 4.7:你需要知道的一切 产品 · Artificial Analysis · 05-12
  174. Sub-32B 开放权重 产品 · Artificial Analysis · 05-12
  175. Kimi K2.6:新的领先开源权重模型 产品 · Artificial Analysis · 05-12
  176. DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列 产品 · Artificial Analysis · 05-12
  177. OpenAI的GPT-5.5成为领先AI模型 产品 · Artificial Analysis · 05-12
  178. 近期开源权重模型发布 产品 · Artificial Analysis · 05-12
  179. xAI 推出 Grok 4.3,提升智能体性能并降低定价 产品 · Artificial Analysis · 05-12
  180. 中国AI实验室内部笔记 对话 · Interconnects · 05-12
  181. 解读今日开放-封闭性能差距 研究 · Interconnects · 05-12
  182. 我一直在做的事:ATOM报告、后训练课程、完成书籍与持续研究 研究 · Interconnects · 05-12
  183. 我对开源模型的押注,2026年中 研究 · Interconnects · 05-12
  184. Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点 研究 · Import AI · 05-12
  185. Import AI 455:AI系统即将开始自我构建 研究 · Import AI · 05-12
  186. Import AI 456:RSI与经济增长;AI监管的激进可选性;神经计算机 研究 · Import AI · 05-12
  187. Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4 研究 · Import AI · 05-12
  188. 如何自动化故障分类并10倍提升测试生成:我们在HIL/SIL工作流中部署AI的经验 工程 · Cognition · 05-12
  189. Cursor 集成 Microsoft Teams 产品 · Cursor · 05-12
  190. SocialReasoning-Bench:衡量AI智能体是否以用户最佳利益行事 研究 · MS Research · 05-12
  191. 关于GitLab裁员及"结构与战略决策"的思考 产品 · Simon Willison · 05-12
  192. 引用James Shore 对话 · Simon Willison · 05-12
  193. 你的AI使用正在摧毁我的大脑 对话 · Simon Willison · 05-12
  194. 车间学习 产品 · Simon Willison · 05-12
  195. MachinaCheck:基于 AMD MI300X 构建 Multi-Agent CNC 可制造性系统 工程 · HF Blog · 05-11
  196. open-multi-agent/open-multi-agent 工程 · GitHub · 05-10
  197. OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架 研究 · HF Blog · 05-10
  198. 自适应并行推理:高效推理扩展的下一范式 研究 · BAIR · 05-09
  199. Claude Code 团队成员分享用 HTML 替代 Markdown 的场景 工程 · X · 05-09
  200. Claude Code 源码快照泄露,展示 repo context 与 subagent 设计 工程 · X · 05-09
  201. 提出两种 MCP servers 使用模式以避免 context 膨胀 工程 · X · 05-09
  202. 提出四种subagent编排模式及适用边界 工程 · X · 05-09
  203. 部署并推理 HuggingFace 上的任意模型 工程 · Together AI · 05-09
  204. Harness 是一切:如何优化你的 Harness 工程 · Baseten · 05-09
  205. 构建企业级 Slack agent 时的 UX、安全与规模经验 工程 · Sourcegraph · 05-09
  206. 用一个 Python 字典将多模态推理性能提升 >10% 工程 · Modal · 05-09
  207. 自动扩缩 Autoresearch:在 Modal 上为你的 agents 提供弹性 GPU 工程 · Modal · 05-09
  208. 用 Modal 和 OpenAI Agents SDK 构建 工程 · Modal · 05-09
  209. Butter 加入 Modal 产品 · Modal · 05-09
  210. 如何通过 Gemini API 使用 Deep Research 工程 · Phil Schmid · 05-09
  211. 如何在 AI Agents 中正确使用 MCP servers 工程 · Phil Schmid · 05-09
  212. Agent 如何管理其他 Agent:2026 年四种 Subagent 模式 工程 · Phil Schmid · 05-09
  213. 立即报名 OpenClaw: After Hours @ GitHub 产品 · GitHub AI/ML · 05-09
  214. Agent pull request 无处不在,如何 review 它们 工程 · GitHub AI/ML · 05-09
  215. 当“正确”并非确定性时验证 agentic 行为 研究 · GitHub AI/ML · 05-09
  216. 面向初学者的 GitHub Copilot CLI:交互模式与非交互模式 工程 · GitHub AI/ML · 05-09
  217. 提升 GitHub Agentic Workflows 中的 token 效率 工程 · GitHub AI/ML · 05-09
  218. Narcooo/inkos 工程 · GitHub · 05-09
  219. 教 Claude 理解为什么 研究 · Anthropic Research · 05-09
  220. Fitbit Air 发布,新增 Google Health API 支持31类健康数据 产品 · X · 05-09
  221. 在 OpenAI 安全运行 Codex 工程 · OpenAI · 05-09
  222. CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型 产品 · HF Blog · 05-09
  223. 流式 Tokens 与工具:NVIDIA Dynamo 中的多轮 Agentic Harness 支持 工程 · NVIDIA Developer · 05-09
  224. 通过语法约束解码改进小型语言模型的 Bash 生成 研究 · NVIDIA Developer · 05-09
  225. 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题 工程 · Together AI · 05-09
  226. MedQA:在 AMD ROCm 上微调临床 AI,无需 CUDA 工程 · HF Blog · 05-08
  227. Arthur-Ficial/apfel 工程 · GitHub · 05-08
  228. holaboss-ai/holaOS 工程 · GitHub · 05-08
  229. nidhinjs/prompt-master 工程 · GitHub · 05-08
  230. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  231. wanshuiyin/睡眠中自动 Claude Code 研究 工程 · GitHub · 05-08
  232. PR 审查、并行制定计划和拆分 PR 产品 · Cursor · 05-08
  233. 自然语言 Autoencoders 研究 · Anthropic Research · 05-08
  234. 捐赠我们的开源对齐工具 工程 · Anthropic Research · 05-08
  235. Gemini API 更新 Interactions steps 与 File Search 多模态检索 产品 · X · 05-08
  236. llm-gemini 0.31 工程 · Simon Willison · 05-08
  237. 大词 工程 · Simon Willison · 05-08
  238. 通过 API 中的新模型推进语音智能 产品 · OpenAI · 05-08
  239. AlphaEvolve:我们的 Gemini 驱动 coding agent 如何在各领域扩大影响 研究 · DeepMind · 05-08
  240. The Anthropic Institute 的重点领域 研究 · Anthropic Research · 05-07
  241. harness AI 自动游戏开发框架展示 SCP 游戏 demo 工程 · X · 05-07
  242. Kimi-K2.6 实测展示游戏生成与 Agent 编程能力 工程 · X · 05-07
  243. Qwen3.6-35B-A3B多项benchmark显示Agent能力提升 研究 · X · 05-07
  244. 混元3 preview Agentic 跑分补全:编程接近 GLM-4.7 研究 · X · 05-07
  245. DeepSeek-V4 测试新增 SillyTavern 工程能力评测 研究 · X · 05-07
  246. DeepSeek-V4需回传空reasoning_content以避免400 工程 · X · 05-07
  247. Google 发布 Gemma 4 专用 draft model,推测解码最高提速 3.1x 产品 · X · 05-07
  248. 短文梳理 coding agent 的四类构建模块 工程 · X · 05-07
  249. 文章讨论 reward hacking 及 LLM/RLHF 缓解研究 研究 · X · 05-07
  250. 比较 RLI、GDPval、APEX-agents 的评估设计取舍 研究 · X · 05-07
  251. Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告 工程 · X · 05-07
  252. NGC论文提出用RL训练LLM管理自身KV cache 研究 · X · 05-07
  253. 综述梳理 MOPD 在近期 LLM 后训练中的应用 研究 · X · 05-07
  254. autoresearch使nanochat的Time to GPT-2缩短11% 工程 · X · 05-07
  255. 提出 IDE 需扩展以管理 agentic org code 工程 · X · 05-07
  256. 提出 agent 应接管从接服务到部署的 DevOps 流程 工程 · X · 05-07
  257. 提出用 LLM 编译研究资料为 Obsidian 知识库 工程 · X · 05-07
  258. 作者以 gist 分享可由 agent 构建的 LLM wiki 想法 工程 · X · 05-07
  259. Farzapedia 展示基于本地文件的 AI 个性化方案 工程 · X · 05-07
  260. AI能力认知差距被指源于SOTA agentic models体验分层 研究 · X · 05-07
  261. Sequoia对谈梳理LLM新边界、锯齿能力与agent-native经济 对话 · X · 05-07
  262. vibe agents 被指让整个文件系统成为攻击面 工程 · X · 05-07
  263. CaP-X开源:机器人agentic toolkit与CaP-Gym 研究 · X · 05-07
  264. Gemini 3 Flash 编排 subagents 生成 16 个视频变体 产品 · X · 05-07
  265. Gemini API 为 Deep Research 加入协作规划控制 产品 · X · 05-07
  266. 介绍用 Gemma 4 26B 和 Pi 本地运行 coding agent 工程 · X · 05-07
  267. 提出两种 MCP servers 使用模式以避免臃肿 工程 · X · 05-07
  268. Interactions API 更新错误提示,标明字段与修复信息 产品 · X · 05-07
  269. 文章概览 2026 年 agent 管理 subagent 的四种模式 工程 · X · 05-07
  270. MedSkillAudit:面向医学研究 agent 技能的领域特定审计框架 研究 · HF Papers · 05-07
  271. 重新思考推理密集型检索:评估并改进 Agentic 搜索系统中的检索器 研究 · HF Papers · 05-07
  272. OpenSearch-VL:面向前沿多模态搜索 agent 的开放方案 研究 · HF Papers · 05-07
  273. PhysForge:为交互式虚拟世界生成基于物理的 3D 资产 研究 · HF Papers · 05-07
  274. ConardLi/garden-skills 工程 · GitHub · 05-07
  275. EKKOLearnAI/hermes-web-ui 工程 · GitHub · 05-07
  276. HKUDS/Vibe-Trading 工程 · GitHub · 05-07
  277. JackChen-me/open-multi-agent 工程 · GitHub · 05-07
  278. nesquena/hermes-webui 工程 · GitHub · 05-07
  279. 上下文使用明细 产品 · Cursor · 05-07
  280. 从物体的位置到用途:多模态 LLM 空间–功能智能 benchmark 研究 · Apple ML · 05-07
  281. 用 vLLM x Mooncake 大规模服务 Agentic 工作负载 工程 · vLLM · 05-07
  282. 生成、过滤、控制、回放:LLM 强化学习 rollout 策略全面综述 研究 · HF Papers · 05-07
  283. Vibe coding 和 agentic engineering 比我希望的更接近了 对话 · Simon Willison · 05-06
  284. Skills-Coach:通过免训练 GRPO 实现的自进化技能优化器 研究 · HF Papers · 05-06
  285. ESARBench:用于 Agentic UAV 具身搜索与救援的 Benchmark 研究 · HF Papers · 05-06
  286. ARIS:通过对抗式多 agent 协作实现自主研究 研究 · HF Papers · 05-06
  287. 面向医疗 agent 的 Healthcare AI GYM HF Papers · 05-06
  288. OpenSeeker-v2:用信息量高且高难度的轨迹推动搜索 agent 的极限 HF Papers · 05-06
  289. 具备统一动作生成框架的交互式世界模型 benchmark HF Papers · 05-06
  290. 基于编排轨迹的 LLM multi-agent 系统强化学习 HF Papers · 05-06
  291. HeavySkill:将 Heavy Thinking 作为 Agentic Harness 的内在技能 HF Papers · 05-06
  292. Workspace-Bench 1.0:在具有大规模文件依赖的 Workspace 任务上 benchmark AI agents HF Papers · 05-06
  293. SymptomAI:迈向用于日常症状评估的对话式 AI Agent HF Papers · 05-06
  294. Microsoft 在 NSDI 2026:大规模网络系统进展 MS Research · 05-06
  295. 我们的 AI 在斯德哥尔摩开了一家咖啡馆 Simon Willison · 05-06
  296. 如何用 NVIDIA 构建车载 AI agent:从云端到汽车 NVIDIA Developer · 05-06
  297. 用 Extreme Co-Design 应对 Agentic 系统日益增长的复杂性 NVIDIA Developer · 05-06
  298. GPT-5.5 Instant:更智能、更清晰、更个性化 OpenAI · 05-06
  299. 用于跨文档 RAG 的层次化摘要树 HF Papers · 05-05
  300. AcademiClaw:当学生为 AI agent 设定挑战 HF Papers · 05-05
  301. T^2PO:用于稳定多轮 Agentic 强化学习的不确定性引导探索控制 HF Papers · 05-05
  302. PhysicianBench:在真实世界 EHR 环境中评估 LLM agent HF Papers · 05-05
  303. 从上下文到技能:语言模型能否熟练地从上下文中学习 HF Papers · 05-05
  304. 模型控制、支出管理和使用分析 Cursor · 05-05
  305. PORTool:用于多工具集成推理的奖励树重要性感知 Policy Optimization Apple ML · 05-05
  306. OpenAI 如何大规模交付低延迟语音 AI OpenAI · 05-05
  307. Redis 数组 Playground Simon Willison · 05-05
  308. 支撑大规模高效推理的基础研究 Together AI · 05-05
  309. Web2BigTable:用于互联网规模信息搜索与抽取的双层多 agent LLM 系统 HF Papers · 05-04
  310. AnalogRetriever:学习用于模拟电路检索的跨模态表征 HF Papers · 05-04
  311. 从技能文本到技能结构:面向 agent 技能的调度-结构-逻辑表示 HF Papers · 05-04
  312. 面向分布式黑盒共识优化的行动与协作学习 HF Papers · 05-04
  313. [工程] 两类用户,一个 CLI:人和 agent 为 agent 设计迫使我们构建更好的工具,从内部工具开始 Mistral · 05-04
  314. Vibe 中的远程 agent,由 Mistral Medium 3.5 驱动 Mistral · 05-04
  315. [研究] 谈谈 Voxtral Voxtral TTS:一个快速、可即时适配、为 voice agents 生成逼真语音的前沿开放权重文本转语音模型 Mistral · 05-04
  316. [研究] Leanstral:可信 vibe-coding 的开源基础,首个面向 Lean 4 的开源 code agent Mistral · 05-04
  317. Qwen3.6-27B-FP8 产品 · Qwen · 05-03
  318. Together AI 与 Adaption 建立合作伙伴关系 Together AI · 05-03
  319. microsoft/VibeVoice 产品 · Simon Willison · 05-03
  320. 现代 LLM 中 Attention 变体的可视化指南 Sebastian Raschka · 05-03
  321. Qwen3.6-27B 产品 · Qwen · 05-03
  322. 用于编排的开源规范:Symphony OpenAI · 05-03
  323. Claude Code 最佳实践 - Claude Code 文档 Anthropic Engineering · 05-03
  324. Claude Opus 4.7 介绍 Anthropic · 05-03
  325. 工作区代理 产品 · OpenAI · 05-03
  326. vLLM 中的 DeepSeek V4:高效长上下文 Attention vLLM · 05-03
  327. 揭秘 AI agents 的 evals Anthropic Engineering · 05-03
  328. 介绍 GPT-5.5 OpenAI · 05-03
  329. Choco 用 AI agent 自动化食品分销 OpenAI · 05-03
  330. moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
  331. NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
  332. DeepInfra 登陆 Hugging Face 推理服务提供商 🔥 产品 · HF Blog · 05-03
  333. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  334. vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
  335. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  336. 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
  337. NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
  338. 用 Amazon Nova 2 Sonic 将文本 agent 迁移为语音助手 AWS ML · 05-03
  339. Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
  340. DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
  341. 数据科学家的复仇 Hamel Husain · 05-03
  342. 从 732 字节到无处可去:在生产环境中关闭 Copy Fail 工程 · Together AI · 05-03
  343. 用 Generative AI 辅助编码赢得 Kaggle 竞赛 NVIDIA Developer · 05-03
  344. 缓解 Agentic 环境中的间接 AGENTS.md 注入攻击 NVIDIA Developer · 05-03
  345. 24/7 仿真循环:Agentic AI 如何让地下工程持续推进 NVIDIA Developer · 05-03
  346. NVIDIA Nemotron 3 Nano Omni 以单一高效开放模型支持多模态 agent 推理 NVIDIA Developer · 05-03
  347. 评估用于科学发现的 agent Allen AI · 05-03
  348. Coding Agent 的组成部分 Sebastian Raschka · 05-03
  349. 我们能靠 AI 走向更可持续的世界吗 对话 · MS Research · 05-03
  350. SWE-Check:Bug 检测快 10 倍 Cognition · 05-03
  351. 强化 Agent:面向工具调用 Agent 的推理时反馈 Apple ML · 05-03
  352. Windsurf 中的 Devin Cognition · 05-03
  353. Multi-Agent:哪些真正有效 Cognition · 05-03
  354. 我们在构建 Cloud Agents 中学到的事 Cognition · 05-03
  355. Agents 窗口中的平铺布局和升级的语音输入 Cursor · 05-03
  356. CLI 调试模式和 /btw 支持 Cursor · 05-03
  357. 画布 Cursor · 05-03
  358. 团队 Marketplace 更新 Cursor · 05-03
  359. 多任务、Worktrees 和多根工作区 Cursor · 05-03
  360. 用 Cursor SDK 构建程序化 agent Cursor · 05-03
  361. AutoAdapt:大语言模型的自动化领域适应 MS Research · 05-03
  362. Cursor 安全评审 Cursor · 05-03
  363. 引用 Matthew Yglesias Simon Willison · 05-03
  364. 对agent网络进行红队测试:理解AI agent大规模交互时会出什么问题 MS Research · 05-03
  365. DeepSeek-V4:agent 真能用的百万 token 上下文 HF Blog · 05-03
  366. 引用 Andrew Kelley Simon Willison · 05-03
  367. Codex CLI 0.128.0 新增 /goal Simon Willison · 05-03
  368. Nemotron 3 Nano Omni:高效开放的多模态智能 HF Papers · 05-02
  369. FlashRT:面向 Prompt Injection 和 Knowledge Corruption 的计算与内存高效 Red-Teaming HF Papers · 05-02
  370. 高效计算机使用 agent 的步骤级优化 HF Papers · 05-02
  371. Claw-Eval-Live:面向演进中真实世界工作流的实时 Agent Benchmark HF Papers · 05-01
  372. 最后一篇人类撰写的论文:Agent-Native 研究成果 HF Papers · 05-01
  373. InteractWeb-Bench:Multimodal Agent 能否在交互式网站生成中摆脱盲目执行 HF Papers · 05-01
  374. Intern-Atlas:面向 AI 科学家的方法演化图研究基础设施 HF Papers · 05-01
  375. 用于长时程生产力模拟的大规模合成计算机 HF Papers · 05-01
  376. 新时代的视觉生成:从原子映射到 Agentic 世界建模的演进 HF Papers · 05-01
  377. 异构科学 Foundation Model 协作 HF Papers · 05-01
  378. 近期 Claude Code 质量报告更新 Anthropic Engineering · 05-01
  379. 我们如何构建多-agent研究系统 Anthropic Engineering · 05-01
  380. 面向 AI agents 的有效 context engineering Anthropic Engineering · 05-01
  381. Claude Developer Platform 推出高级工具使用 Anthropic Engineering · 05-01
  382. 用 Agent Skills 让 agent 适应真实世界 Anthropic Engineering · 05-01
  383. 用 AI agents 编写高效工具 Anthropic Engineering · 05-01
  384. 长时间运行 agent 的有效 harness Anthropic Engineering · 05-01
  385. 用 sandboxing 让 Claude Code 更安全、更自主 Anthropic Engineering · 05-01
  386. “think”工具:让 Claude 停下来思考 Anthropic Engineering · 05-01
  387. 使用 MCP 执行代码:构建更高效的 AI agents Anthropic Engineering · 05-01
  388. Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness Anthropic Engineering · 05-01
  389. 长时间运行的应用开发的 harness 设计 Anthropic Engineering · 05-01
  390. Claude Code auto 模式:更安全地跳过权限确认 Anthropic Engineering · 05-01
  391. 用一组并行 Claude 构建 C 编译器 Anthropic Engineering · 05-01
  392. 扩展 Managed Agents:将大脑与双手解耦 Anthropic Engineering · 05-01
  393. 量化 agentic 编码评测中的基础设施噪声 Anthropic Engineering · 05-01
  394. 真实资金下链上语言模型 agent 的操作层控制 HF Papers · 05-01
  395. FAMA:面向交互式工具使用环境中开源 LLM 的失败感知 Meta-Agentic 框架 HF Papers · 05-01
  396. RADIO-ViPE:面向动态环境中开放词汇语义 SLAM 的在线紧耦合多模态融合 HF Papers · 05-01
  397. 用 Responses API 中的 WebSockets 加速 agentic 工作流 OpenAI · 04-30
  398. 在 ChatGPT 中引入工作区 agents OpenAI · 04-30
  399. OpenAI 模型、Codex 和 Managed Agents 登陆 AWS OpenAI · 04-30
  400. 实践中的可信 agent Anthropic Research · 04-30
  401. Anthropic 经济指数报告:学习曲线 Anthropic Research · 04-30
  402. AIE Europe Debrief + Agent Labs Thesis: Unsupervised Learning x Latent Space Crossover Special (2026) Latent Space · 04-30
  403. ClawGym:用于构建有效 Claw agent 的可扩展框架 HF Papers · 04-30
  404. GLM-5V-Turbo:迈向多模态 agent 的原生基础模型 HF Papers · 04-30