録实録译稿议社区 24h

词术语频次

历封存归档

agent

█▇▆▅ · 4736 次 · 收录于 404 篇

AI 代理 · 能自主调用工具 / 感知环境的 LLM 应用形态

datasette-agent 0.1a4 工程 · Simon Willison · 05-25
引用 Armin Ronacher 工程 · Simon Willison · 05-25
Emmi 加入 Mistral 加速 AI 原生行业产品 · Mistral · 05-23
walkinglabs/learn-harness-engineering 工程 · GitHub · 05-23
Project Glasswing：初步更新研究 · Anthropic Research · 05-23
Google DeepMind CEO 汇总第三方评测：Gemini 3.5 Flash 在 agent、编程、视觉、金融领域表现良好评测 · X · 05-23
为何你的追踪与评估应放在同一处工程 · Braintrust · 05-23
Qwen 3.7-Max 在 agent 任务中以更低成本击败 Opus 4.7 和 GPT-5.5 评测 · X Trending · 05-23
GitHub 连续第三年获评 Gartner® 企业 AI 编码代理魔力象限™ 领导者产品 · GitHub AI/ML · 05-23
Gemini Managed Agents 新 API 提供托管 Linux 沙箱执行代码产品 · X · 05-23
π-Bench：长周期工作流中主动式个人助理Agent的评估研究 · HF Papers · 05-22
如何通过评估与可观测性赢得利益相关者信任产品 · Braintrust · 05-22
MagenticLite、MagenticBrain、Fara1.5：为小模型优化的智能体体验研究 · MS Research · 05-22
Amazon Nova Act 现已符合 HIPAA 标准产品 · AWS ML · 05-22
给Agent配电脑 — Ivan Burazin, Daytona 工程 · Latent Space · 05-22
谷歌DeepMind加速器项目落地亚太，应对环境风险产品 · DeepMind · 05-22
datasette-agent 0.1a2 工程 · Simon Willison · 05-22
datasette-agent-charts 0.1a1 工程 · Simon Willison · 05-22
datasette-agent 0.1a3 工程 · Simon Willison · 05-22
Datasette Agent 工程 · Simon Willison · 05-22
AI系统监管会变得更难吗？研究 · UK AISI · 05-22
Modal C轮融资：以46.5亿美元估值募资3.55亿美元产品 · Modal · 05-22
多智能体系统构建指南：何时需要及两种常见设计模式工程 · X · 05-22
用一条 curl 命令调用 Gemini API 构建 GitHub Issue 分类 Agent 工程 · X · 05-22
Vega：AI时代数字身份的零知识证明研究 · MS Research · 05-22
Video2GUI：合成大规模交互轨迹用于通用GUI Agent预训练研究 · HF Papers · 05-21
Cursor 自动化改进产品 · Cursor · 05-21
铁路：面向Agent的原生云 — Jake Cooper 产品 · Latent Space · 05-21
Cohere 收购 Reliant AI 以扩展主权企业 AI 产品 · Cohere · 05-21
宣布与Indra Group和Multiverse Computing签署战略合作备忘录产品 · Cohere · 05-21
Midjourney 创始人自曝因用TPU弃N卡导致产品迭代落后一年工程 · X · 05-21
掌握Agent技术：AI Agent定制工程 · NVIDIA Developer · 05-21
在应用计算中扩展强化学习工程 · Modal · 05-21
Google I/O、Gemini Spark、反重力产品 · Simon Willison · 05-21
为Agent Harness添加专项深度研究技能工程 · NVIDIA Developer · 05-21
全屏标签页与紧凑聊天产品 · Cursor · 05-21
强化新加坡AI未来：新国家伙伴关系产品 · DeepMind · 05-20
Cursor 集成 Jira 产品 · Cursor · 05-20
NVIDIA 验证的 Agent 技能为 AI Agent 提供能力治理工程 · NVIDIA Developer · 05-20
vLLM 中的弹性专家并行工程 · vLLM · 05-20
Gemini 3.5 Flash 正式发布，编码和 agent 任务优于 3.1 Pro 产品 · X · 05-20
Google 推出 Gemini API 托管代理，支持代码执行与网页浏览产品 · X · 05-20
Google 推出 Antigravity Agent 与 Gemini Managed Agents，并发布 Gemini 3.5 迁移指南产品 · X · 05-20
字节跳动发布开源全模态模型Lance，3B参数支持图文视频理解与生成产品 · X · 05-20
Gemini 3.5 Flash：更贵，但谷歌计划用它做所有事产品 · Simon Willison · 05-20
掌握智能体技术：AI Agent评估评测 · NVIDIA Developer · 05-20
大规模推理基准测试：编码智能体评测 · Together AI · 05-20
代码即代理工具研究 · HF Papers · 05-20
推出带 Modal 沙箱的 Claude 托管 Agent 产品 · Modal · 05-20
Google 推出基于 Gemini 3.5 的 24/7 个人 AI agent Gemini Spark 产品 · X Trending · 05-20
Gemini 3.5：具备行动能力的前沿智能产品 · DeepMind · 05-20
发现可对抗肝纤维化的老药新用研究 · DeepMind · 05-20
Co-Scientist：加速科研的多智能体AI伙伴研究 · DeepMind · 05-20
让内容创建与编辑过程更易理解产品 · DeepMind · 05-20
开辟衰老研究新路径研究 · DeepMind · 05-20
整合生物工具包，探索ALS新疗法研究 · DeepMind · 05-20
发现新型传染病背后的分子开关研究 · DeepMind · 05-20
加速发现肝病机制研究 · DeepMind · 05-20
用 Project Genie 和街景模拟真实世界地点产品 · DeepMind · 05-20
Gemini for Science：新发现时代的AI实验与工具产品 · DeepMind · 05-20
快速追踪遗传线索逆转细胞衰老研究 · DeepMind · 05-20
谷歌反重力 2.0 发布产品 · DeepMind · 05-20
可扩展语音代理设计：Amazon Nova Sonic 的多代理、工具与会话分割工程 · AWS ML · 05-20
推出 Ettin Reranker 系列产品 · HF Blog · 05-19
SkillsVote：从收集、推荐到演进的Agent技能全生命周期治理研究 · HF Papers · 05-19
AgriciDaniel/claude-obsidian 工程 · GitHub · 05-19
Import AI 457：AI 震网；诅咒的 Muon 优化器；与正向对齐研究 · Import AI · 05-19
五分钟看懂LLM过去六个月评测 · Simon Willison · 05-19
Google 发布 Gemini Interactions API 流式传输指南产品 · X · 05-19
阿里千问发布Qwen3.7-Max-Preview，数学能力升至总榜第七字节跳动开源3B全模态模型Lance，统一处理文本、图像与视频评测 · X · 05-19
字节跳动开源3B全模态模型Lance，训练仅用128张A100显卡评测 · X · 05-19
用 Amazon Nova 2 提示词做内容审核工程 · AWS ML · 05-19
使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频工程 · HF Blog · 05-19
PaddleOCR 3.5：使用 Transformers 后端运行 OCR 与文档解析任务工程 · HF Blog · 05-19
将本地 GitHub 会话带到任何地方产品 · GitHub AI/ML · 05-19
发布 agent 评估指南：涵盖基础概念、评估框架与主流 benchmark 案例研究 · X · 05-19
开放Agent排行榜评测 · HF Blog · 05-18
MMSkills：面向通用视觉智能体的多模态技能研究 · HF Papers · 05-18
搭建 agentic 系统前五步基础设施：Tailscale、Termius、tmux、私有 Git 仓库、全脚本化工程 · X Trending · 05-18
Imbad0202/学术研究技能工程 · GitHub · 05-18
AISI 高级 AI 评估：五月更新评测 · UK AISI · 05-17
LLM架构最新进展：KV共享、mHC与压缩注意力研究 · Sebastian Raschka · 05-17
Warelay -> OpenClaw 工程 · Simon Willison · 05-17
AI系统应该像人一样行事吗？研究 · UK AISI · 05-17
第四次进展报告评测 · UK AISI · 05-17
最新开放制品（#21）：开放模型大爆发！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。评测 · Interconnects · 05-17
推进系统性AI安全领域：资助开放 UK AISI · 05-16
评估前沿AI系统的早期经验评测 · UK AISI · 05-16
新型评估与Agent脚手架赏金计划研究 · UK AISI · 05-16
OpenAI o1 模型部署前评估评测 · UK AISI · 05-16
Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估评测 · UK AISI · 05-16
发布 Inspect Evals 工程 · UK AISI · 05-16
我们的第一年评测 · UK AISI · 05-16
综述评估 agent 的基准：Terminal-Bench、Tau-Bench 等十余项及校准方法研究 · X · 05-16
Claude Code 百万 token 上下文窗口的双刃剑效应与会话管理策略工程 · X · 05-16
关于AI委托与长期可靠性近期研究的进一步说明研究 · MS Research · 05-16
datasette-llm-limits 0.1a0 工程 · Simon Willison · 05-16
iNaturalist-clumper 0.1 工程 · Simon Willison · 05-16
我们如何弥合AI能力与防护之间的差距研究 · UK AISI · 05-16
RepliBench：衡量AI系统中的自主复制能力研究 · UK AISI · 05-16
增强AI韧性研究 · UK AISI · 05-16
如何评估AI agent的控制措施？研究 · UK AISI · 05-16
为何编码代理在大型代码库中失败（以及应对方法）研究 · Sourcegraph · 05-16
autoresearch 项目发布单 GPU 自包含版，AI agent 自主迭代训练代码优化 LLM 工程 · X · 05-16
nanochat 单节点 8XH100 训练 2 小时达 GPT-2 级别能力，数据集切换至 NVIDIA ClimbMix 工程 · X · 05-16
构建通用无障碍代理——过程中的经验教训工程 · GitHub AI/ML · 05-16
HiBayES：用分层贝叶斯建模改进LLM评估研究 · UK AISI · 05-15
AI将如何助长未来犯罪？研究 · UK AISI · 05-15
Inspect Cyber：Agentic网络评估新标准工程 · UK AISI · 05-15
国际联合测试演习：Agentic 测试评测 · UK AISI · 05-15
结构化引出实验协议研究 · UK AISI · 05-15
esengine/DeepSeek-Reasonix 工程 · GitHub · 05-15
op7418/guizang-ppt-skill 工程 · GitHub · 05-15
Intern-S2-Preview 研究 · InternLM · 05-15
Intern-S2-Preview-FP8 研究 · InternLM · 05-15
穿越未知：构建社会对前沿AI的韧性研究 · UK AISI · 05-15
Inspect 沙箱工具包：可扩展且安全的 AI agent 评估工程 · UK AISI · 05-15
Frontier AI趋势报告首期5项关键发现评测 · UK AISI · 05-15
自主AI网络能力进步有多快？评测 · UK AISI · 05-15
当前AI系统的局限性映射研究 · UK AISI · 05-15
压力测试AI编码代理的异步监控研究 · UK AISI · 05-15
引用 Mitchell Hashimoto 工程 · Simon Willison · 05-15
不再那么锁定了工程 · Simon Willison · 05-15
智能体异步大规模协作研究：GitHub 分支模式原型设计研究 · X · 05-15
随时随地使用 Codex 工作产品 · OpenAI · 05-15
AI agent评估的转录分析评测 · UK AISI · 05-15
UKAISI 亮相 NeurIPS 2025 研究 · UK AISI · 05-15
Introducing ControlArena：用于运行AI控制实验的库工程 · UK AISI · 05-15
Stream Vision Agents 与 Amazon Nova 2 Sonic 实时语音代理工程 · AWS ML · 05-15
NVIDIA Vera Rubin 平台如何解决 Agentic AI 的扩展问题工程 · NVIDIA Developer · 05-15
有效训练长上下文视觉语言模型，泛化能力超越128K上下文研究 · HF Papers · 05-15
Qwen3-TTS：低成本、高性能文本转语音工程 · Baseten · 05-15
vLLM x Mooncake 规模化服务 Agent 工作负载工程 · vLLM · 05-15
Apollo 2026年5月更新产品 · Apollo Research · 05-14
研究不对齐模型研究 · UK AISI · 05-14
AI与工作的未来：衡量AI驱动的工作任务生产力提升研究 · UK AISI · 05-14
AI Agent 如何使用？来自 17.7 万 AI Agent 工具的证据研究 · UK AISI · 05-14
我们的2025年度回顾评测 · UK AISI · 05-14
AI评估中的国际共识与开放问题研究 · UK AISI · 05-14
Devin 现已支持 Android 模拟器产品 · Cognition · 05-14
云代理的开发环境产品 · Cursor · 05-14
mimalloc：面向现代的高性能可扩展内存分配器工程 · MS Research · 05-14
欢迎来到 Datasette 博客工程 · Simon Willison · 05-14
Android 16 原生内置 MCP，Gemini 智能体可跨应用调用 AppFunction 工具产品 · X · 05-14
使用Inspect Scout进行转录分析的工作流工程 · UK AISI · 05-14
资助60个项目推进AI对齐研究研究 · UK AISI · 05-14
AI agent 能逃出沙箱吗？容器逃逸能力安全基准测试研究 · UK AISI · 05-14
前沿AI智能体在多步网络攻击场景中表现如何？评测 · UK AISI · 05-14
AI网络任务中推理扩展的证据：增加评估预算揭示更高成功率研究 · UK AISI · 05-14
使用 Amazon Nova Sonic 和 WebRTC 构建实时语音流应用工程 · AWS ML · 05-14
构建安全有效的沙箱，在 Windows 上启用 Codex 工程 · OpenAI · 05-14
引用 Boris Mann 工程 · Simon Willison · 05-14
用AI Agent与技能将视频转化为即时可搜索、可行动的情报产品 · NVIDIA Developer · 05-14
δ-mem：大语言模型的高效在线记忆研究 · HF Papers · 05-13
Apollo Research 将转型为公益公司产品 · Apollo Research · 05-13
利用前沿AI进行网络防御工程 · UK AISI · 05-13
沙盒AI智能体能从评估环境中学到什么？研究 · UK AISI · 05-13
环境因素如何影响AI行为？研究 · UK AISI · 05-13
我们对OpenAI GPT-5.5网络能力的评估评测 · UK AISI · 05-13
评估AI模型是否会破坏AI安全研究评测 · UK AISI · 05-13
红队测试Anthropic内部Agent监控系统研究 · METR · 05-13
Anthropic 风险报告（2026年2月）中“自动化研发风险”章节评述评测 · METR · 05-13
SenseNova-U1：基于NEO-unify架构统一多模态理解与生成研究 · HF Papers · 05-13
MemPrivacy：面向边缘-云智能体的隐私保护个性化记忆管理研究 · HF Papers · 05-13
印度发布 Sarvam 30B 和 105B 开源推理模型，105B 采用 DeepSeek 风格 MLA 注意力研究 · X · 05-13
参数高尔夫教给我们的AI辅助研究经验产品 · OpenAI · 05-13
推出语音查找器——从600多种声音中快速为你的应用找到合适声音的新工具产品 · Together AI · 05-13
Gemini Interactions API 发布思考与签名指南，支持有状态与无状态模式产品 · X · 05-13
Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本工程 · X · 05-13
地牢与桌面：用 GitHub Copilot CLI 构建程序化生成 Roguelike 工程 · GitHub AI/ML · 05-12
如何与AI协作并实现复利工程 · Eugene Yan · 05-12
如何实现真正的无服务器GPU 工程 · Modal · 05-12
Opus 4.7：你需要知道的一切产品 · Artificial Analysis · 05-12
Sub-32B 开放权重产品 · Artificial Analysis · 05-12
Kimi K2.6：新的领先开源权重模型产品 · Artificial Analysis · 05-12
DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列产品 · Artificial Analysis · 05-12
OpenAI的GPT-5.5成为领先AI模型产品 · Artificial Analysis · 05-12
近期开源权重模型发布产品 · Artificial Analysis · 05-12
xAI 推出 Grok 4.3，提升智能体性能并降低定价产品 · Artificial Analysis · 05-12
中国AI实验室内部笔记对话 · Interconnects · 05-12
解读今日开放-封闭性能差距研究 · Interconnects · 05-12
我一直在做的事：ATOM报告、后训练课程、完成书籍与持续研究研究 · Interconnects · 05-12
我对开源模型的押注，2026年中研究 · Interconnects · 05-12
Import AI 453：破解AI智能体；MirrorCode；以及关于渐进式失能的十种观点研究 · Import AI · 05-12
Import AI 455：AI系统即将开始自我构建研究 · Import AI · 05-12
Import AI 456：RSI与经济增长；AI监管的激进可选性；神经计算机研究 · Import AI · 05-12
Import AI 454：自动化对齐研究；中国模型安全评估；HiFloat4 研究 · Import AI · 05-12
如何自动化故障分类并10倍提升测试生成：我们在HIL/SIL工作流中部署AI的经验工程 · Cognition · 05-12
Cursor 集成 Microsoft Teams 产品 · Cursor · 05-12
SocialReasoning-Bench：衡量AI智能体是否以用户最佳利益行事研究 · MS Research · 05-12
关于GitLab裁员及"结构与战略决策"的思考产品 · Simon Willison · 05-12
引用James Shore 对话 · Simon Willison · 05-12
你的AI使用正在摧毁我的大脑对话 · Simon Willison · 05-12
车间学习产品 · Simon Willison · 05-12
MachinaCheck：基于 AMD MI300X 构建 Multi-Agent CNC 可制造性系统工程 · HF Blog · 05-11
open-multi-agent/open-multi-agent 工程 · GitHub · 05-10
OncoAgent：用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架研究 · HF Blog · 05-10
自适应并行推理：高效推理扩展的下一范式研究 · BAIR · 05-09
Claude Code 团队成员分享用 HTML 替代 Markdown 的场景工程 · X · 05-09
Claude Code 源码快照泄露，展示 repo context 与 subagent 设计工程 · X · 05-09
提出两种 MCP servers 使用模式以避免 context 膨胀工程 · X · 05-09
提出四种subagent编排模式及适用边界工程 · X · 05-09
部署并推理 HuggingFace 上的任意模型工程 · Together AI · 05-09
Harness 是一切：如何优化你的 Harness 工程 · Baseten · 05-09
构建企业级 Slack agent 时的 UX、安全与规模经验工程 · Sourcegraph · 05-09
用一个 Python 字典将多模态推理性能提升 >10% 工程 · Modal · 05-09
自动扩缩 Autoresearch：在 Modal 上为你的 agents 提供弹性 GPU 工程 · Modal · 05-09
用 Modal 和 OpenAI Agents SDK 构建工程 · Modal · 05-09
Butter 加入 Modal 产品 · Modal · 05-09
如何通过 Gemini API 使用 Deep Research 工程 · Phil Schmid · 05-09
如何在 AI Agents 中正确使用 MCP servers 工程 · Phil Schmid · 05-09
Agent 如何管理其他 Agent：2026 年四种 Subagent 模式工程 · Phil Schmid · 05-09
立即报名 OpenClaw: After Hours @ GitHub 产品 · GitHub AI/ML · 05-09
Agent pull request 无处不在，如何 review 它们工程 · GitHub AI/ML · 05-09
当“正确”并非确定性时验证 agentic 行为研究 · GitHub AI/ML · 05-09
面向初学者的 GitHub Copilot CLI：交互模式与非交互模式工程 · GitHub AI/ML · 05-09
提升 GitHub Agentic Workflows 中的 token 效率工程 · GitHub AI/ML · 05-09
Narcooo/inkos 工程 · GitHub · 05-09
教 Claude 理解为什么研究 · Anthropic Research · 05-09
Fitbit Air 发布，新增 Google Health API 支持31类健康数据产品 · X · 05-09
在 OpenAI 安全运行 Codex 工程 · OpenAI · 05-09
CyberSecQwen-4B：为什么防御性网络安全需要小型、专用、可本地运行的模型产品 · HF Blog · 05-09
流式 Tokens 与工具：NVIDIA Dynamo 中的多轮 Agentic Harness 支持工程 · NVIDIA Developer · 05-09
通过语法约束解码改进小型语言模型的 Bash 生成研究 · NVIDIA Developer · 05-09
服务 DeepSeek-V4：为什么百万 token 上下文是推理系统问题工程 · Together AI · 05-09
MedQA：在 AMD ROCm 上微调临床 AI，无需 CUDA 工程 · HF Blog · 05-08
Arthur-Ficial/apfel 工程 · GitHub · 05-08
holaboss-ai/holaOS 工程 · GitHub · 05-08
nidhinjs/prompt-master 工程 · GitHub · 05-08
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
wanshuiyin/睡眠中自动 Claude Code 研究工程 · GitHub · 05-08
PR 审查、并行制定计划和拆分 PR 产品 · Cursor · 05-08
自然语言 Autoencoders 研究 · Anthropic Research · 05-08
捐赠我们的开源对齐工具工程 · Anthropic Research · 05-08
Gemini API 更新 Interactions steps 与 File Search 多模态检索产品 · X · 05-08
llm-gemini 0.31 工程 · Simon Willison · 05-08
大词工程 · Simon Willison · 05-08
通过 API 中的新模型推进语音智能产品 · OpenAI · 05-08
AlphaEvolve：我们的 Gemini 驱动 coding agent 如何在各领域扩大影响研究 · DeepMind · 05-08
The Anthropic Institute 的重点领域研究 · Anthropic Research · 05-07
harness AI 自动游戏开发框架展示 SCP 游戏 demo 工程 · X · 05-07
Kimi-K2.6 实测展示游戏生成与 Agent 编程能力工程 · X · 05-07
Qwen3.6-35B-A3B多项benchmark显示Agent能力提升研究 · X · 05-07
混元3 preview Agentic 跑分补全：编程接近 GLM-4.7 研究 · X · 05-07
DeepSeek-V4 测试新增 SillyTavern 工程能力评测研究 · X · 05-07
DeepSeek-V4需回传空reasoning_content以避免400 工程 · X · 05-07
Google 发布 Gemma 4 专用 draft model，推测解码最高提速 3.1x 产品 · X · 05-07
短文梳理 coding agent 的四类构建模块工程 · X · 05-07
文章讨论 reward hacking 及 LLM/RLHF 缓解研究研究 · X · 05-07
比较 RLI、GDPval、APEX-agents 的评估设计取舍研究 · X · 05-07
Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告工程 · X · 05-07
NGC论文提出用RL训练LLM管理自身KV cache 研究 · X · 05-07
综述梳理 MOPD 在近期 LLM 后训练中的应用研究 · X · 05-07
autoresearch使nanochat的Time to GPT-2缩短11% 工程 · X · 05-07
提出 IDE 需扩展以管理 agentic org code 工程 · X · 05-07
提出 agent 应接管从接服务到部署的 DevOps 流程工程 · X · 05-07
提出用 LLM 编译研究资料为 Obsidian 知识库工程 · X · 05-07
作者以 gist 分享可由 agent 构建的 LLM wiki 想法工程 · X · 05-07
Farzapedia 展示基于本地文件的 AI 个性化方案工程 · X · 05-07
AI能力认知差距被指源于SOTA agentic models体验分层研究 · X · 05-07
Sequoia对谈梳理LLM新边界、锯齿能力与agent-native经济对话 · X · 05-07
vibe agents 被指让整个文件系统成为攻击面工程 · X · 05-07
CaP-X开源：机器人agentic toolkit与CaP-Gym 研究 · X · 05-07
Gemini 3 Flash 编排 subagents 生成 16 个视频变体产品 · X · 05-07
Gemini API 为 Deep Research 加入协作规划控制产品 · X · 05-07
介绍用 Gemma 4 26B 和 Pi 本地运行 coding agent 工程 · X · 05-07
提出两种 MCP servers 使用模式以避免臃肿工程 · X · 05-07
Interactions API 更新错误提示，标明字段与修复信息产品 · X · 05-07
文章概览 2026 年 agent 管理 subagent 的四种模式工程 · X · 05-07
MedSkillAudit：面向医学研究 agent 技能的领域特定审计框架研究 · HF Papers · 05-07
重新思考推理密集型检索：评估并改进 Agentic 搜索系统中的检索器研究 · HF Papers · 05-07
OpenSearch-VL：面向前沿多模态搜索 agent 的开放方案研究 · HF Papers · 05-07
PhysForge：为交互式虚拟世界生成基于物理的 3D 资产研究 · HF Papers · 05-07
ConardLi/garden-skills 工程 · GitHub · 05-07
EKKOLearnAI/hermes-web-ui 工程 · GitHub · 05-07
HKUDS/Vibe-Trading 工程 · GitHub · 05-07
JackChen-me/open-multi-agent 工程 · GitHub · 05-07
nesquena/hermes-webui 工程 · GitHub · 05-07
上下文使用明细产品 · Cursor · 05-07
从物体的位置到用途：多模态 LLM 空间–功能智能 benchmark 研究 · Apple ML · 05-07
用 vLLM x Mooncake 大规模服务 Agentic 工作负载工程 · vLLM · 05-07
生成、过滤、控制、回放：LLM 强化学习 rollout 策略全面综述研究 · HF Papers · 05-07
Vibe coding 和 agentic engineering 比我希望的更接近了对话 · Simon Willison · 05-06
Skills-Coach：通过免训练 GRPO 实现的自进化技能优化器研究 · HF Papers · 05-06
ESARBench：用于 Agentic UAV 具身搜索与救援的 Benchmark 研究 · HF Papers · 05-06
ARIS：通过对抗式多 agent 协作实现自主研究研究 · HF Papers · 05-06
面向医疗 agent 的 Healthcare AI GYM HF Papers · 05-06
OpenSeeker-v2：用信息量高且高难度的轨迹推动搜索 agent 的极限 HF Papers · 05-06
具备统一动作生成框架的交互式世界模型 benchmark HF Papers · 05-06
基于编排轨迹的 LLM multi-agent 系统强化学习 HF Papers · 05-06
HeavySkill：将 Heavy Thinking 作为 Agentic Harness 的内在技能 HF Papers · 05-06
Workspace-Bench 1.0：在具有大规模文件依赖的 Workspace 任务上 benchmark AI agents HF Papers · 05-06
SymptomAI：迈向用于日常症状评估的对话式 AI Agent HF Papers · 05-06
Microsoft 在 NSDI 2026：大规模网络系统进展 MS Research · 05-06
我们的 AI 在斯德哥尔摩开了一家咖啡馆 Simon Willison · 05-06
如何用 NVIDIA 构建车载 AI agent：从云端到汽车 NVIDIA Developer · 05-06
用 Extreme Co-Design 应对 Agentic 系统日益增长的复杂性 NVIDIA Developer · 05-06
GPT-5.5 Instant：更智能、更清晰、更个性化 OpenAI · 05-06
用于跨文档 RAG 的层次化摘要树 HF Papers · 05-05
AcademiClaw：当学生为 AI agent 设定挑战 HF Papers · 05-05
T^2PO：用于稳定多轮 Agentic 强化学习的不确定性引导探索控制 HF Papers · 05-05
PhysicianBench：在真实世界 EHR 环境中评估 LLM agent HF Papers · 05-05
从上下文到技能：语言模型能否熟练地从上下文中学习 HF Papers · 05-05
模型控制、支出管理和使用分析 Cursor · 05-05
PORTool：用于多工具集成推理的奖励树重要性感知 Policy Optimization Apple ML · 05-05
OpenAI 如何大规模交付低延迟语音 AI OpenAI · 05-05
Redis 数组 Playground Simon Willison · 05-05
支撑大规模高效推理的基础研究 Together AI · 05-05
Web2BigTable：用于互联网规模信息搜索与抽取的双层多 agent LLM 系统 HF Papers · 05-04
AnalogRetriever：学习用于模拟电路检索的跨模态表征 HF Papers · 05-04
从技能文本到技能结构：面向 agent 技能的调度-结构-逻辑表示 HF Papers · 05-04
面向分布式黑盒共识优化的行动与协作学习 HF Papers · 05-04
[工程] 两类用户，一个 CLI：人和 agent 为 agent 设计迫使我们构建更好的工具，从内部工具开始 Mistral · 05-04
Vibe 中的远程 agent，由 Mistral Medium 3.5 驱动 Mistral · 05-04
[研究] 谈谈 Voxtral Voxtral TTS：一个快速、可即时适配、为 voice agents 生成逼真语音的前沿开放权重文本转语音模型 Mistral · 05-04
[研究] Leanstral：可信 vibe-coding 的开源基础，首个面向 Lean 4 的开源 code agent Mistral · 05-04
Qwen3.6-27B-FP8 产品 · Qwen · 05-03
Together AI 与 Adaption 建立合作伙伴关系 Together AI · 05-03
microsoft/VibeVoice 产品 · Simon Willison · 05-03
现代 LLM 中 Attention 变体的可视化指南 Sebastian Raschka · 05-03
Qwen3.6-27B 产品 · Qwen · 05-03
用于编排的开源规范：Symphony OpenAI · 05-03
Claude Code 最佳实践 - Claude Code 文档 Anthropic Engineering · 05-03
Claude Opus 4.7 介绍 Anthropic · 05-03
工作区代理产品 · OpenAI · 05-03
vLLM 中的 DeepSeek V4：高效长上下文 Attention vLLM · 05-03
揭秘 AI agents 的 evals Anthropic Engineering · 05-03
介绍 GPT-5.5 OpenAI · 05-03
Choco 用 AI agent 自动化食品分销 OpenAI · 05-03
moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
DeepInfra 登陆 Hugging Face 推理服务提供商 🔥 产品 · HF Blog · 05-03
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
vLLM 中混合 SSM 模型的分离式 Serving vLLM · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
用 Amazon Nova 2 Sonic 将文本 agent 迁移为语音助手 AWS ML · 05-03
Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
数据科学家的复仇 Hamel Husain · 05-03
从 732 字节到无处可去：在生产环境中关闭 Copy Fail 工程 · Together AI · 05-03
用 Generative AI 辅助编码赢得 Kaggle 竞赛 NVIDIA Developer · 05-03
缓解 Agentic 环境中的间接 AGENTS.md 注入攻击 NVIDIA Developer · 05-03
24/7 仿真循环：Agentic AI 如何让地下工程持续推进 NVIDIA Developer · 05-03
NVIDIA Nemotron 3 Nano Omni 以单一高效开放模型支持多模态 agent 推理 NVIDIA Developer · 05-03
评估用于科学发现的 agent Allen AI · 05-03
Coding Agent 的组成部分 Sebastian Raschka · 05-03
我们能靠 AI 走向更可持续的世界吗对话 · MS Research · 05-03
SWE-Check：Bug 检测快 10 倍 Cognition · 05-03
强化 Agent：面向工具调用 Agent 的推理时反馈 Apple ML · 05-03
Windsurf 中的 Devin Cognition · 05-03
Multi-Agent：哪些真正有效 Cognition · 05-03
我们在构建 Cloud Agents 中学到的事 Cognition · 05-03
Agents 窗口中的平铺布局和升级的语音输入 Cursor · 05-03
CLI 调试模式和 /btw 支持 Cursor · 05-03
画布 Cursor · 05-03
团队 Marketplace 更新 Cursor · 05-03
多任务、Worktrees 和多根工作区 Cursor · 05-03
用 Cursor SDK 构建程序化 agent Cursor · 05-03
AutoAdapt：大语言模型的自动化领域适应 MS Research · 05-03
Cursor 安全评审 Cursor · 05-03
引用 Matthew Yglesias Simon Willison · 05-03
对agent网络进行红队测试：理解AI agent大规模交互时会出什么问题 MS Research · 05-03
DeepSeek-V4：agent 真能用的百万 token 上下文 HF Blog · 05-03
引用 Andrew Kelley Simon Willison · 05-03
Codex CLI 0.128.0 新增 /goal Simon Willison · 05-03
Nemotron 3 Nano Omni：高效开放的多模态智能 HF Papers · 05-02
FlashRT：面向 Prompt Injection 和 Knowledge Corruption 的计算与内存高效 Red-Teaming HF Papers · 05-02
高效计算机使用 agent 的步骤级优化 HF Papers · 05-02
Claw-Eval-Live：面向演进中真实世界工作流的实时 Agent Benchmark HF Papers · 05-01
最后一篇人类撰写的论文：Agent-Native 研究成果 HF Papers · 05-01
InteractWeb-Bench：Multimodal Agent 能否在交互式网站生成中摆脱盲目执行 HF Papers · 05-01
Intern-Atlas：面向 AI 科学家的方法演化图研究基础设施 HF Papers · 05-01
用于长时程生产力模拟的大规模合成计算机 HF Papers · 05-01
新时代的视觉生成：从原子映射到 Agentic 世界建模的演进 HF Papers · 05-01
异构科学 Foundation Model 协作 HF Papers · 05-01
近期 Claude Code 质量报告更新 Anthropic Engineering · 05-01
我们如何构建多-agent研究系统 Anthropic Engineering · 05-01
面向 AI agents 的有效 context engineering Anthropic Engineering · 05-01
Claude Developer Platform 推出高级工具使用 Anthropic Engineering · 05-01
用 Agent Skills 让 agent 适应真实世界 Anthropic Engineering · 05-01
用 AI agents 编写高效工具 Anthropic Engineering · 05-01
长时间运行 agent 的有效 harness Anthropic Engineering · 05-01
用 sandboxing 让 Claude Code 更安全、更自主 Anthropic Engineering · 05-01
“think”工具：让 Claude 停下来思考 Anthropic Engineering · 05-01
使用 MCP 执行代码：构建更高效的 AI agents Anthropic Engineering · 05-01
Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness Anthropic Engineering · 05-01
长时间运行的应用开发的 harness 设计 Anthropic Engineering · 05-01
Claude Code auto 模式：更安全地跳过权限确认 Anthropic Engineering · 05-01
用一组并行 Claude 构建 C 编译器 Anthropic Engineering · 05-01
扩展 Managed Agents：将大脑与双手解耦 Anthropic Engineering · 05-01
量化 agentic 编码评测中的基础设施噪声 Anthropic Engineering · 05-01
真实资金下链上语言模型 agent 的操作层控制 HF Papers · 05-01
FAMA：面向交互式工具使用环境中开源 LLM 的失败感知 Meta-Agentic 框架 HF Papers · 05-01
RADIO-ViPE：面向动态环境中开放词汇语义 SLAM 的在线紧耦合多模态融合 HF Papers · 05-01
用 Responses API 中的 WebSockets 加速 agentic 工作流 OpenAI · 04-30
在 ChatGPT 中引入工作区 agents OpenAI · 04-30
OpenAI 模型、Codex 和 Managed Agents 登陆 AWS OpenAI · 04-30
实践中的可信 agent Anthropic Research · 04-30
Anthropic 经济指数报告：学习曲线 Anthropic Research · 04-30
AIE Europe Debrief + Agent Labs Thesis: Unsupervised Learning x Latent Space Crossover Special (2026) Latent Space · 04-30
ClawGym：用于构建有效 Claw agent 的可扩展框架 HF Papers · 04-30
GLM-5V-Turbo：迈向多模态 agent 的原生基础模型 HF Papers · 04-30