实録译稿 社区 24h

术语频次

封存归档

reasoning

█▅▆▃ · 957 次 · 收录于 226 篇

推理 · 模型进行逻辑 / 数学 / 规划等思考

  1. BitCPM-CANN-1B 工程 · OpenBMB · 05-24
  2. BitCPM-CANN-3B 工程 · OpenBMB · 05-24
  3. BitCPM-CANN-8B 研究 · OpenBMB · 05-24
  4. BitCPM-CANN-0.5B 工程 · OpenBMB · 05-24
  5. BitCPM-CANN-1B-gguf 研究 · OpenBMB · 05-24
  6. BitCPM-CANN-0.5B-gguf 研究 · OpenBMB · 05-24
  7. BitCPM-CANN-3B-gguf 研究 · OpenBMB · 05-24
  8. BitCPM-CANN-8B-gguf 研究 · OpenBMB · 05-24
  9. 全注意力回归:百步训练内将全注意力转为稀疏 研究 · HF Papers · 05-23
  10. 专业化胜过规模化:多数AI采购决策忽视的战略变量 研究 · HF Blog · 05-22
  11. DelTA: 基于可验证奖励的强化学习中的判别性令牌信用分配 研究 · HF Papers · 05-22
  12. 感知还是偏见:MLLMs能否超越对人格的第一印象? 研究 · HF Papers · 05-22
  13. BitCPM4-CANN-0.5B-gguf 研究 · OpenBMB · 05-22
  14. BitCPM4-CANN-1B-gguf 研究 · OpenBMB · 05-22
  15. BitCPM4-CANN-3B-gguf 研究 · OpenBMB · 05-22
  16. BitCPM4-CANN-8B-gguf 研究 · OpenBMB · 05-22
  17. MagenticLite、MagenticBrain、Fara1.5:为小模型优化的智能体体验 研究 · MS Research · 05-22
  18. datasette-agent 0.1a3 工程 · Simon Willison · 05-22
  19. AI系统监管会变得更难吗? 研究 · UK AISI · 05-22
  20. 在电信AI工厂上构建Token计量的AI服务 工程 · NVIDIA Developer · 05-22
  21. 多智能体系统构建指南:何时需要及两种常见设计模式 工程 · X · 05-22
  22. OpenAI模型推翻离散几何核心猜想 研究 · OpenAI · 05-21
  23. 强化新加坡AI未来:新国家伙伴关系 产品 · DeepMind · 05-20
  24. Gemini 3.5 Flash:更贵,但谷歌计划用它做所有事 产品 · Simon Willison · 05-20
  25. 大规模推理基准测试:编码智能体 评测 · Together AI · 05-20
  26. 代码即代理工具 研究 · HF Papers · 05-20
  27. HRM-Text 1B 模型发布,40B token 训练成本仅约 1000 美元 产品 · X Trending · 05-20
  28. Gemini 3.5:具备行动能力的前沿智能 产品 · DeepMind · 05-20
  29. 发现可对抗肝纤维化的老药新用 研究 · DeepMind · 05-20
  30. Co-Scientist:加速科研的多智能体AI伙伴 研究 · DeepMind · 05-20
  31. 可扩展语音代理设计:Amazon Nova Sonic 的多代理、工具与会话分割 工程 · AWS ML · 05-20
  32. 用 Amazon Nova 2 提示词做内容审核 工程 · AWS ML · 05-19
  33. BitCPM4-CANN-0.5B 工程 · OpenBMB · 05-18
  34. BitCPM4-CANN-1B 工程 · OpenBMB · 05-18
  35. BitCPM4-CANN-3B 工程 · OpenBMB · 05-18
  36. BitCPM4-CANN-8B 研究 · OpenBMB · 05-18
  37. Imbad0202/学术研究技能 工程 · GitHub · 05-18
  38. 前沿AI问答评估开发早期洞察 研究 · UK AISI · 05-17
  39. LLM架构最新进展:KV共享、mHC与压缩注意力 研究 · Sebastian Raschka · 05-17
  40. sglang v0.5.12 工程 · GitHub Release · 05-17
  41. 最新开放制品(#21):开放模型大爆发!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。 评测 · Interconnects · 05-17
  42. 新型评估与Agent脚手架赏金计划 研究 · UK AISI · 05-16
  43. 长文本任务 研究 · UK AISI · 05-16
  44. OpenAI o1 模型部署前评估 评测 · UK AISI · 05-16
  45. Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估 评测 · UK AISI · 05-16
  46. 发布 Inspect Evals 工程 · UK AISI · 05-16
  47. 综述评估 agent 的基准:Terminal-Bench、Tau-Bench 等十余项及校准方法 研究 · X · 05-16
  48. LLM 裁判受审:评估自动评分器的新统计框架 研究 · UK AISI · 05-16
  49. RepliBench:衡量AI系统中的自主复制能力 研究 · UK AISI · 05-16
  50. 如何评估AI agent的控制措施? 研究 · UK AISI · 05-16
  51. ChatGPT 中的全新个人理财体验 产品 · OpenAI · 05-16
  52. DavidAU 团队基于 Qwen3.5-27B 拼接训练出非官方 Qwen3.5-40B Dense 模型 研究 · X · 05-15
  53. vllm v0.21.0 工程 · GitHub Release · 05-15
  54. HiBayES:用分层贝叶斯建模改进LLM评估 研究 · UK AISI · 05-15
  55. AI将如何助长未来犯罪? 研究 · UK AISI · 05-15
  56. 国际联合测试演习:Agentic 测试 评测 · UK AISI · 05-15
  57. 为何我们研究白盒控制 研究 · UK AISI · 05-15
  58. 结构化引出实验协议 研究 · UK AISI · 05-15
  59. 通过简单统一缩放实现金牌级奥赛推理 研究 · HF Papers · 05-15
  60. esengine/DeepSeek-Reasonix 工程 · GitHub · 05-15
  61. Intern-S2-Preview 研究 · InternLM · 05-15
  62. Intern-S2-Preview-FP8 研究 · InternLM · 05-15
  63. 穿越未知:构建社会对前沿AI的韧性 研究 · UK AISI · 05-15
  64. 当前AI系统的局限性映射 研究 · UK AISI · 05-15
  65. AI agent评估的转录分析 评测 · UK AISI · 05-15
  66. Stream Vision Agents 与 Amazon Nova 2 Sonic 实时语音代理 工程 · AWS ML · 05-15
  67. 有效训练长上下文视觉语言模型,泛化能力超越128K上下文 研究 · HF Papers · 05-15
  68. 帮助ChatGPT更好识别敏感对话中的上下文 产品 · OpenAI · 05-15
  69. vLLM x Mooncake 规模化服务 Agent 工作负载 工程 · vLLM · 05-15
  70. TurboQuant 首次全面研究:精度与性能 评测 · vLLM · 05-15
  71. vLLM 登顶 Artificial Analysis 排行榜 工程 · vLLM · 05-15
  72. Apollo 2026年5月更新 产品 · Apollo Research · 05-14
  73. AI Agent 如何使用?来自 17.7 万 AI Agent 工具的证据 研究 · UK AISI · 05-14
  74. 使用Inspect Scout进行转录分析的工作流 工程 · UK AISI · 05-14
  75. 资助60个项目推进AI对齐研究 研究 · UK AISI · 05-14
  76. AI在欺诈与网络犯罪中滥用的评估框架 研究 · UK AISI · 05-14
  77. 前沿AI智能体在多步网络攻击场景中表现如何? 评测 · UK AISI · 05-14
  78. 沙盒AI智能体能从评估环境中学到什么? 研究 · UK AISI · 05-13
  79. 我们对OpenAI GPT-5.5网络能力的评估 评测 · UK AISI · 05-13
  80. 评估AI模型是否会破坏AI安全研究 评测 · UK AISI · 05-13
  81. SenseNova-U1:基于NEO-unify架构统一多模态理解与生成 研究 · HF Papers · 05-13
  82. llm 0.32a2 产品 · Simon Willison · 05-13
  83. 印度发布 Sarvam 30B 和 105B 开源推理模型,105B 采用 DeepSeek 风格 MLA 注意力 研究 · X · 05-13
  84. 开放模型生态如何持续放大优势 研究 · Interconnects · 05-13
  85. Gemini Interactions API 发布思考与签名指南,支持有状态与无状态模式 产品 · X · 05-13
  86. vllm v0.19.1 工程 · GitHub Release · 05-12
  87. Opus 4.7:你需要知道的一切 产品 · Artificial Analysis · 05-12
  88. Sub-32B 开放权重 产品 · Artificial Analysis · 05-12
  89. Kimi K2.6:新的领先开源权重模型 产品 · Artificial Analysis · 05-12
  90. DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列 产品 · Artificial Analysis · 05-12
  91. OpenAI的GPT-5.5成为领先AI模型 产品 · Artificial Analysis · 05-12
  92. 近期开源权重模型发布 产品 · Artificial Analysis · 05-12
  93. OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct 产品 · Artificial Analysis · 05-12
  94. 蒸馏恐慌 对话 · Interconnects · 05-12
  95. Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点 研究 · Import AI · 05-12
  96. Import AI 455:AI系统即将开始自我构建 研究 · Import AI · 05-12
  97. SocialReasoning-Bench:衡量AI智能体是否以用户最佳利益行事 研究 · MS Research · 05-12
  98. AWS 上基础模型训练与推理的构建模块 工程 · HF Blog · 05-12
  99. vLLM 登顶 Artificial Analysis 排行榜 工程 · vLLM · 05-12
  100. TurboQuant 首次全面研究:精度与性能 研究 · vLLM · 05-12
  101. MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
  102. MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
  103. MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
  104. MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
  105. MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
  106. Bugbot 努力级别 产品 · Cursor · 05-11
  107. MachinaCheck:基于 AMD MI300X 构建 Multi-Agent CNC 可制造性系统 工程 · HF Blog · 05-11
  108. Claude Code 可接入 17000+ 股票与 crypto 实时数据 工程 · X Trending · 05-10
  109. open-multi-agent/open-multi-agent 工程 · GitHub · 05-10
  110. OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架 研究 · HF Blog · 05-10
  111. 自适应并行推理:高效推理扩展的下一范式 研究 · BAIR · 05-09
  112. world modeling被称为robotics新预训练范式 研究 · X · 05-09
  113. 提出四种subagent编排模式及适用边界 工程 · X · 05-09
  114. Harness 是一切:如何优化你的 Harness 工程 · Baseten · 05-09
  115. 在 Modal 上构建 RL 定理证明工作流 工程 · Modal · 05-09
  116. 如何通过 Gemini API 使用 Deep Research 工程 · Phil Schmid · 05-09
  117. 当“正确”并非确定性时验证 agentic 行为 研究 · GitHub AI/ML · 05-09
  118. 提升 GitHub Agentic Workflows 中的 token 效率 工程 · GitHub AI/ML · 05-09
  119. 教 Claude 理解为什么 研究 · Anthropic Research · 05-09
  120. 流式 Tokens 与工具:NVIDIA Dynamo 中的多轮 Agentic Harness 支持 工程 · NVIDIA Developer · 05-09
  121. EMO:为涌现模块化预训练 Mixture of Experts | Ai2 研究 · Allen AI · 05-09
  122. EMO:为涌现模块化预训练混合专家 研究 · HF Blog · 05-09
  123. MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
  124. MedQA:在 AMD ROCm 上微调临床 AI,无需 CUDA 工程 · HF Blog · 05-08
  125. nidhinjs/prompt-master 工程 · GitHub · 05-08
  126. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  127. wanshuiyin/睡眠中自动 Claude Code 研究 工程 · GitHub · 05-08
  128. 克服奖励信号挑战:在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习 工程 · AWS ML · 05-08
  129. 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问 产品 · OpenAI · 05-08
  130. 自然语言 Autoencoders 研究 · Anthropic Research · 05-08
  131. 通过 API 中的新模型推进语音智能 产品 · OpenAI · 05-08
  132. SciCore-Mol 研究 · OpenBMB · 05-07
  133. Claude-Opus-4.7 测试显示视觉提升但后端下降 研究 · X · 05-07
  134. Qwen3.6-35B-A3B多项benchmark显示Agent能力提升 研究 · X · 05-07
  135. DeepSeek-V4需回传空reasoning_content以避免400 工程 · X · 05-07
  136. 文章探讨 smart decoding 与 CoT 如何提升模型智能 研究 · X · 05-07
  137. Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告 工程 · X · 05-07
  138. NGC论文提出用RL训练LLM管理自身KV cache 研究 · X · 05-07
  139. 综述梳理 MOPD 在近期 LLM 后训练中的应用 研究 · X · 05-07
  140. 介绍 LLM RL 中的 entropy bonus 正则化作用 研究 · X · 05-07
  141. NVIDIA 机器人实验室发布 GR00T、Dreams、SONIC 等成果 产品 · X · 05-07
  142. 重新思考推理密集型检索:评估并改进 Agentic 搜索系统中的检索器 研究 · HF Papers · 05-07
  143. 唤醒统一多模态理解与生成中的空间智能 研究 · HF Papers · 05-07
  144. OpenSearch-VL:面向前沿多模态搜索 agent 的开放方案 研究 · HF Papers · 05-07
  145. HERMES++:迈向用于 3D 场景理解与生成的统一驾驶世界模型 研究 · HF Papers · 05-07
  146. EKKOLearnAI/hermes-web-ui 工程 · GitHub · 05-07
  147. HKUDS/Vibe-Trading 工程 · GitHub · 05-07
  148. JackChen-me/open-multi-agent 工程 · GitHub · 05-07
  149. nesquena/hermes-webui 工程 · GitHub · 05-07
  150. 用 vLLM x Mooncake 大规模服务 Agentic 工作负载 工程 · vLLM · 05-07
  151. 生成、过滤、控制、回放:LLM 强化学习 rollout 策略全面综述 研究 · HF Papers · 05-07
  152. ESARBench:用于 Agentic UAV 具身搜索与救援的 Benchmark 研究 · HF Papers · 05-06
  153. X2SAM:图像和视频中的任意分割 研究 · HF Papers · 05-06
  154. 证据链:用于迭代式 RAG 的像素级视觉归因 HF Papers · 05-06
  155. 面向医疗 agent 的 Healthcare AI GYM HF Papers · 05-06
  156. 具备统一动作生成框架的交互式世界模型 benchmark HF Papers · 05-06
  157. HeavySkill:将 Heavy Thinking 作为 Agentic Harness 的内在技能 HF Papers · 05-06
  158. PatRe:面向专利审查的全阶段审查意见通知书与答复生成 benchmark HF Papers · 05-06
  159. Workspace-Bench 1.0:在具有大规模文件依赖的 Workspace 任务上 benchmark AI agents HF Papers · 05-06
  160. 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
  161. llm-echo 0.5a0 工程 · Simon Willison · 05-06
  162. 如何用 NVIDIA 构建车载 AI agent:从云端到汽车 NVIDIA Developer · 05-06
  163. GPT-5.5 Instant:更智能、更清晰、更个性化 OpenAI · 05-06
  164. MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2 Allen AI · 05-06
  165. 持久视觉记忆:为 LVLMs 的深度生成维持感知 HF Papers · 05-05
  166. 代码世界模型准备情况报告 HF Papers · 05-05
  167. T^2PO:用于稳定多轮 Agentic 强化学习的不确定性引导探索控制 HF Papers · 05-05
  168. 用于视觉 Grounded 推理的感知流网络 HF Papers · 05-05
  169. PhysicianBench:在真实世界 EHR 环境中评估 LLM agent HF Papers · 05-05
  170. MolmoAct2:面向现实世界部署的动作推理模型 HF Papers · 05-05
  171. PORTool:用于多工具集成推理的奖励树重要性感知 Policy Optimization Apple ML · 05-05
  172. OpenAI 如何大规模交付低延迟语音 AI OpenAI · 05-05
  173. 支撑大规模高效推理的基础研究 Together AI · 05-05
  174. Web2BigTable:用于互联网规模信息搜索与抽取的双层多 agent LLM 系统 HF Papers · 05-04
  175. 从技能文本到技能结构:面向 agent 技能的调度-结构-逻辑表示 HF Papers · 05-04
  176. Vibe 中的远程 agent,由 Mistral Medium 3.5 驱动 Mistral · 05-04
  177. Qwen3.6-27B-FP8 产品 · Qwen · 05-03
  178. Together AI 与 Adaption 建立合作伙伴关系 Together AI · 05-03
  179. Qwen3.6-27B 产品 · Qwen · 05-03
  180. 用于编排的开源规范:Symphony OpenAI · 05-03
  181. Claude Opus 4.7 介绍 Anthropic · 05-03
  182. vLLM 中的 DeepSeek V4:高效长上下文 Attention vLLM · 05-03
  183. 介绍 GPT-5.5 OpenAI · 05-03
  184. vLLM 中 FP8 KV-Cache 与 Attention 量化的现状 工程 · vLLM · 05-03
  185. moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
  186. NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
  187. 通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts HF Papers · 05-03
  188. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  189. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  190. 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
  191. NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
  192. 用 Amazon Nova 2 Sonic 将文本 agent 迁移为语音助手 AWS ML · 05-03
  193. 用分布感知 speculative decoding 将 RL rollouts 加速最高 50% Together AI · 05-03
  194. Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
  195. DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
  196. 从 732 字节到无处可去:在生产环境中关闭 Copy Fail 工程 · Together AI · 05-03
  197. 使用端到端 FP8 精度运行高吞吐量强化学习训练 NVIDIA Developer · 05-03
  198. NVIDIA Nemotron 3 Nano Omni 以单一高效开放模型支持多模态 agent 推理 NVIDIA Developer · 05-03
  199. 无冲突的容量:面向 AI-native 团队的多租户 GPU 集群设计指南 Together AI · 05-03
  200. Coding Agent 的组成部分 Sebastian Raschka · 05-03
  201. LaDiR:Latent Diffusion 增强 LLMs 的文本推理能力 Apple ML · 05-03
  202. 自适应思考:LLM 知道何时在潜在空间中思考 Apple ML · 05-03
  203. AutoAdapt:大语言模型的自动化领域适应 MS Research · 05-03
  204. LLM 0.32a0 是一次重大的向后兼容重构 Simon Willison · 05-03
  205. 高效计算机使用 agent 的步骤级优化 HF Papers · 05-02
  206. 服从性与合理性:大型语言模型的推理可控性 HF Papers · 05-01
  207. MoCapAnything V2:面向任意骨架的端到端动作捕捉 HF Papers · 05-01
  208. 协同演化的策略蒸馏 HF Papers · 05-01
  209. Length Value Model:面向 Token 级长度建模的可扩展 Value 预训练 HF Papers · 05-01
  210. 在图像编辑中利用基于 Verifier 的强化学习 HF Papers · 05-01
  211. 新时代的视觉生成:从原子映射到 Agentic 世界建模的演进 HF Papers · 05-01
  212. 异构科学 Foundation Model 协作 HF Papers · 05-01
  213. 近期 Claude Code 质量报告更新 Anthropic Engineering · 05-01
  214. 我们如何构建多-agent研究系统 Anthropic Engineering · 05-01
  215. 面向 AI agents 的有效 context engineering Anthropic Engineering · 05-01
  216. Claude Developer Platform 推出高级工具使用 Anthropic Engineering · 05-01
  217. 用 AI agents 编写高效工具 Anthropic Engineering · 05-01
  218. “think”工具:让 Claude 停下来思考 Anthropic Engineering · 05-01
  219. Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness Anthropic Engineering · 05-01
  220. Claude Code auto 模式:更安全地跳过权限确认 Anthropic Engineering · 05-01
  221. 真实资金下链上语言模型 agent 的操作层控制 HF Papers · 05-01
  222. ChatGPT Images 2.0 介绍 OpenAI · 04-30
  223. 让 ChatGPT 更好服务临床医生 OpenAI · 04-30
  224. 大语言模型中的情感概念及其功能 Anthropic Research · 04-30
  225. 探究图像编辑模型的视觉规划 HF Papers · 04-30
  226. GLM-5V-Turbo:迈向多模态 agent 的原生基础模型 HF Papers · 04-30