録实録译稿议社区 24h

词术语频次

历封存归档

reasoning

█▅▆▃ · 957 次 · 收录于 226 篇

推理 · 模型进行逻辑 / 数学 / 规划等思考

BitCPM-CANN-1B 工程 · OpenBMB · 05-24
BitCPM-CANN-3B 工程 · OpenBMB · 05-24
BitCPM-CANN-8B 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B 工程 · OpenBMB · 05-24
BitCPM-CANN-1B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-3B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-8B-gguf 研究 · OpenBMB · 05-24
全注意力回归：百步训练内将全注意力转为稀疏研究 · HF Papers · 05-23
专业化胜过规模化：多数AI采购决策忽视的战略变量研究 · HF Blog · 05-22
DelTA: 基于可验证奖励的强化学习中的判别性令牌信用分配研究 · HF Papers · 05-22
感知还是偏见：MLLMs能否超越对人格的第一印象？研究 · HF Papers · 05-22
BitCPM4-CANN-0.5B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-1B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-3B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-8B-gguf 研究 · OpenBMB · 05-22
MagenticLite、MagenticBrain、Fara1.5：为小模型优化的智能体体验研究 · MS Research · 05-22
datasette-agent 0.1a3 工程 · Simon Willison · 05-22
AI系统监管会变得更难吗？研究 · UK AISI · 05-22
在电信AI工厂上构建Token计量的AI服务工程 · NVIDIA Developer · 05-22
多智能体系统构建指南：何时需要及两种常见设计模式工程 · X · 05-22
OpenAI模型推翻离散几何核心猜想研究 · OpenAI · 05-21
强化新加坡AI未来：新国家伙伴关系产品 · DeepMind · 05-20
Gemini 3.5 Flash：更贵，但谷歌计划用它做所有事产品 · Simon Willison · 05-20
大规模推理基准测试：编码智能体评测 · Together AI · 05-20
代码即代理工具研究 · HF Papers · 05-20
HRM-Text 1B 模型发布，40B token 训练成本仅约 1000 美元产品 · X Trending · 05-20
Gemini 3.5：具备行动能力的前沿智能产品 · DeepMind · 05-20
发现可对抗肝纤维化的老药新用研究 · DeepMind · 05-20
Co-Scientist：加速科研的多智能体AI伙伴研究 · DeepMind · 05-20
可扩展语音代理设计：Amazon Nova Sonic 的多代理、工具与会话分割工程 · AWS ML · 05-20
用 Amazon Nova 2 提示词做内容审核工程 · AWS ML · 05-19
BitCPM4-CANN-0.5B 工程 · OpenBMB · 05-18
BitCPM4-CANN-1B 工程 · OpenBMB · 05-18
BitCPM4-CANN-3B 工程 · OpenBMB · 05-18
BitCPM4-CANN-8B 研究 · OpenBMB · 05-18
Imbad0202/学术研究技能工程 · GitHub · 05-18
前沿AI问答评估开发早期洞察研究 · UK AISI · 05-17
LLM架构最新进展：KV共享、mHC与压缩注意力研究 · Sebastian Raschka · 05-17
sglang v0.5.12 工程 · GitHub Release · 05-17
最新开放制品（#21）：开放模型大爆发！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。评测 · Interconnects · 05-17
新型评估与Agent脚手架赏金计划研究 · UK AISI · 05-16
长文本任务研究 · UK AISI · 05-16
OpenAI o1 模型部署前评估评测 · UK AISI · 05-16
Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估评测 · UK AISI · 05-16
发布 Inspect Evals 工程 · UK AISI · 05-16
综述评估 agent 的基准：Terminal-Bench、Tau-Bench 等十余项及校准方法研究 · X · 05-16
LLM 裁判受审：评估自动评分器的新统计框架研究 · UK AISI · 05-16
RepliBench：衡量AI系统中的自主复制能力研究 · UK AISI · 05-16
如何评估AI agent的控制措施？研究 · UK AISI · 05-16
ChatGPT 中的全新个人理财体验产品 · OpenAI · 05-16
DavidAU 团队基于 Qwen3.5-27B 拼接训练出非官方 Qwen3.5-40B Dense 模型研究 · X · 05-15
vllm v0.21.0 工程 · GitHub Release · 05-15
HiBayES：用分层贝叶斯建模改进LLM评估研究 · UK AISI · 05-15
AI将如何助长未来犯罪？研究 · UK AISI · 05-15
国际联合测试演习：Agentic 测试评测 · UK AISI · 05-15
为何我们研究白盒控制研究 · UK AISI · 05-15
结构化引出实验协议研究 · UK AISI · 05-15
通过简单统一缩放实现金牌级奥赛推理研究 · HF Papers · 05-15
esengine/DeepSeek-Reasonix 工程 · GitHub · 05-15
Intern-S2-Preview 研究 · InternLM · 05-15
Intern-S2-Preview-FP8 研究 · InternLM · 05-15
穿越未知：构建社会对前沿AI的韧性研究 · UK AISI · 05-15
当前AI系统的局限性映射研究 · UK AISI · 05-15
AI agent评估的转录分析评测 · UK AISI · 05-15
Stream Vision Agents 与 Amazon Nova 2 Sonic 实时语音代理工程 · AWS ML · 05-15
有效训练长上下文视觉语言模型，泛化能力超越128K上下文研究 · HF Papers · 05-15
帮助ChatGPT更好识别敏感对话中的上下文产品 · OpenAI · 05-15
vLLM x Mooncake 规模化服务 Agent 工作负载工程 · vLLM · 05-15
TurboQuant 首次全面研究：精度与性能评测 · vLLM · 05-15
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-15
Apollo 2026年5月更新产品 · Apollo Research · 05-14
AI Agent 如何使用？来自 17.7 万 AI Agent 工具的证据研究 · UK AISI · 05-14
使用Inspect Scout进行转录分析的工作流工程 · UK AISI · 05-14
资助60个项目推进AI对齐研究研究 · UK AISI · 05-14
AI在欺诈与网络犯罪中滥用的评估框架研究 · UK AISI · 05-14
前沿AI智能体在多步网络攻击场景中表现如何？评测 · UK AISI · 05-14
沙盒AI智能体能从评估环境中学到什么？研究 · UK AISI · 05-13
我们对OpenAI GPT-5.5网络能力的评估评测 · UK AISI · 05-13
评估AI模型是否会破坏AI安全研究评测 · UK AISI · 05-13
SenseNova-U1：基于NEO-unify架构统一多模态理解与生成研究 · HF Papers · 05-13
llm 0.32a2 产品 · Simon Willison · 05-13
印度发布 Sarvam 30B 和 105B 开源推理模型，105B 采用 DeepSeek 风格 MLA 注意力研究 · X · 05-13
开放模型生态如何持续放大优势研究 · Interconnects · 05-13
Gemini Interactions API 发布思考与签名指南，支持有状态与无状态模式产品 · X · 05-13
vllm v0.19.1 工程 · GitHub Release · 05-12
Opus 4.7：你需要知道的一切产品 · Artificial Analysis · 05-12
Sub-32B 开放权重产品 · Artificial Analysis · 05-12
Kimi K2.6：新的领先开源权重模型产品 · Artificial Analysis · 05-12
DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列产品 · Artificial Analysis · 05-12
OpenAI的GPT-5.5成为领先AI模型产品 · Artificial Analysis · 05-12
近期开源权重模型发布产品 · Artificial Analysis · 05-12
OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct 产品 · Artificial Analysis · 05-12
蒸馏恐慌对话 · Interconnects · 05-12
Import AI 453：破解AI智能体；MirrorCode；以及关于渐进式失能的十种观点研究 · Import AI · 05-12
Import AI 455：AI系统即将开始自我构建研究 · Import AI · 05-12
SocialReasoning-Bench：衡量AI智能体是否以用户最佳利益行事研究 · MS Research · 05-12
AWS 上基础模型训练与推理的构建模块工程 · HF Blog · 05-12
vLLM 登顶 Artificial Analysis 排行榜工程 · vLLM · 05-12
TurboQuant 首次全面研究：精度与性能研究 · vLLM · 05-12
MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
Bugbot 努力级别产品 · Cursor · 05-11
MachinaCheck：基于 AMD MI300X 构建 Multi-Agent CNC 可制造性系统工程 · HF Blog · 05-11
Claude Code 可接入 17000+ 股票与 crypto 实时数据工程 · X Trending · 05-10
open-multi-agent/open-multi-agent 工程 · GitHub · 05-10
OncoAgent：用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架研究 · HF Blog · 05-10
自适应并行推理：高效推理扩展的下一范式研究 · BAIR · 05-09
world modeling被称为robotics新预训练范式研究 · X · 05-09
提出四种subagent编排模式及适用边界工程 · X · 05-09
Harness 是一切：如何优化你的 Harness 工程 · Baseten · 05-09
在 Modal 上构建 RL 定理证明工作流工程 · Modal · 05-09
如何通过 Gemini API 使用 Deep Research 工程 · Phil Schmid · 05-09
当“正确”并非确定性时验证 agentic 行为研究 · GitHub AI/ML · 05-09
提升 GitHub Agentic Workflows 中的 token 效率工程 · GitHub AI/ML · 05-09
教 Claude 理解为什么研究 · Anthropic Research · 05-09
流式 Tokens 与工具：NVIDIA Dynamo 中的多轮 Agentic Harness 支持工程 · NVIDIA Developer · 05-09
EMO：为涌现模块化预训练 Mixture of Experts | Ai2 研究 · Allen AI · 05-09
EMO：为涌现模块化预训练混合专家研究 · HF Blog · 05-09
MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
MedQA：在 AMD ROCm 上微调临床 AI，无需 CUDA 工程 · HF Blog · 05-08
nidhinjs/prompt-master 工程 · GitHub · 05-08
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
wanshuiyin/睡眠中自动 Claude Code 研究工程 · GitHub · 05-08
克服奖励信号挑战：在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习工程 · AWS ML · 05-08
用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问产品 · OpenAI · 05-08
自然语言 Autoencoders 研究 · Anthropic Research · 05-08
通过 API 中的新模型推进语音智能产品 · OpenAI · 05-08
SciCore-Mol 研究 · OpenBMB · 05-07
Claude-Opus-4.7 测试显示视觉提升但后端下降研究 · X · 05-07
Qwen3.6-35B-A3B多项benchmark显示Agent能力提升研究 · X · 05-07
DeepSeek-V4需回传空reasoning_content以避免400 工程 · X · 05-07
文章探讨 smart decoding 与 CoT 如何提升模型智能研究 · X · 05-07
Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告工程 · X · 05-07
NGC论文提出用RL训练LLM管理自身KV cache 研究 · X · 05-07
综述梳理 MOPD 在近期 LLM 后训练中的应用研究 · X · 05-07
介绍 LLM RL 中的 entropy bonus 正则化作用研究 · X · 05-07
NVIDIA 机器人实验室发布 GR00T、Dreams、SONIC 等成果产品 · X · 05-07
重新思考推理密集型检索：评估并改进 Agentic 搜索系统中的检索器研究 · HF Papers · 05-07
唤醒统一多模态理解与生成中的空间智能研究 · HF Papers · 05-07
OpenSearch-VL：面向前沿多模态搜索 agent 的开放方案研究 · HF Papers · 05-07
HERMES++：迈向用于 3D 场景理解与生成的统一驾驶世界模型研究 · HF Papers · 05-07
EKKOLearnAI/hermes-web-ui 工程 · GitHub · 05-07
HKUDS/Vibe-Trading 工程 · GitHub · 05-07
JackChen-me/open-multi-agent 工程 · GitHub · 05-07
nesquena/hermes-webui 工程 · GitHub · 05-07
用 vLLM x Mooncake 大规模服务 Agentic 工作负载工程 · vLLM · 05-07
生成、过滤、控制、回放：LLM 强化学习 rollout 策略全面综述研究 · HF Papers · 05-07
ESARBench：用于 Agentic UAV 具身搜索与救援的 Benchmark 研究 · HF Papers · 05-06
X2SAM：图像和视频中的任意分割研究 · HF Papers · 05-06
证据链：用于迭代式 RAG 的像素级视觉归因 HF Papers · 05-06
面向医疗 agent 的 Healthcare AI GYM HF Papers · 05-06
具备统一动作生成框架的交互式世界模型 benchmark HF Papers · 05-06
HeavySkill：将 Heavy Thinking 作为 Agentic Harness 的内在技能 HF Papers · 05-06
PatRe：面向专利审查的全阶段审查意见通知书与答复生成 benchmark HF Papers · 05-06
Workspace-Bench 1.0：在具有大规模文件依赖的 Workspace 任务上 benchmark AI agents HF Papers · 05-06
超越 SFT-to-RL：通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
llm-echo 0.5a0 工程 · Simon Willison · 05-06
如何用 NVIDIA 构建车载 AI agent：从云端到汽车 NVIDIA Developer · 05-06
GPT-5.5 Instant：更智能、更清晰、更个性化 OpenAI · 05-06
MolmoAct 2：面向现实世界机器人工作的开放基础 | Ai2 Allen AI · 05-06
持久视觉记忆：为 LVLMs 的深度生成维持感知 HF Papers · 05-05
代码世界模型准备情况报告 HF Papers · 05-05
T^2PO：用于稳定多轮 Agentic 强化学习的不确定性引导探索控制 HF Papers · 05-05
用于视觉 Grounded 推理的感知流网络 HF Papers · 05-05
PhysicianBench：在真实世界 EHR 环境中评估 LLM agent HF Papers · 05-05
MolmoAct2：面向现实世界部署的动作推理模型 HF Papers · 05-05
PORTool：用于多工具集成推理的奖励树重要性感知 Policy Optimization Apple ML · 05-05
OpenAI 如何大规模交付低延迟语音 AI OpenAI · 05-05
支撑大规模高效推理的基础研究 Together AI · 05-05
Web2BigTable：用于互联网规模信息搜索与抽取的双层多 agent LLM 系统 HF Papers · 05-04
从技能文本到技能结构：面向 agent 技能的调度-结构-逻辑表示 HF Papers · 05-04
Vibe 中的远程 agent，由 Mistral Medium 3.5 驱动 Mistral · 05-04
Qwen3.6-27B-FP8 产品 · Qwen · 05-03
Together AI 与 Adaption 建立合作伙伴关系 Together AI · 05-03
Qwen3.6-27B 产品 · Qwen · 05-03
用于编排的开源规范：Symphony OpenAI · 05-03
Claude Opus 4.7 介绍 Anthropic · 05-03
vLLM 中的 DeepSeek V4：高效长上下文 Attention vLLM · 05-03
介绍 GPT-5.5 OpenAI · 05-03
vLLM 中 FP8 KV-Cache 与 Attention 量化的现状工程 · vLLM · 05-03
moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts HF Papers · 05-03
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
用 Amazon Nova 2 Sonic 将文本 agent 迁移为语音助手 AWS ML · 05-03
用分布感知 speculative decoding 将 RL rollouts 加速最高 50% Together AI · 05-03
Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
从 732 字节到无处可去：在生产环境中关闭 Copy Fail 工程 · Together AI · 05-03
使用端到端 FP8 精度运行高吞吐量强化学习训练 NVIDIA Developer · 05-03
NVIDIA Nemotron 3 Nano Omni 以单一高效开放模型支持多模态 agent 推理 NVIDIA Developer · 05-03
无冲突的容量：面向 AI-native 团队的多租户 GPU 集群设计指南 Together AI · 05-03
Coding Agent 的组成部分 Sebastian Raschka · 05-03
LaDiR：Latent Diffusion 增强 LLMs 的文本推理能力 Apple ML · 05-03
自适应思考：LLM 知道何时在潜在空间中思考 Apple ML · 05-03
AutoAdapt：大语言模型的自动化领域适应 MS Research · 05-03
LLM 0.32a0 是一次重大的向后兼容重构 Simon Willison · 05-03
高效计算机使用 agent 的步骤级优化 HF Papers · 05-02
服从性与合理性：大型语言模型的推理可控性 HF Papers · 05-01
MoCapAnything V2：面向任意骨架的端到端动作捕捉 HF Papers · 05-01
协同演化的策略蒸馏 HF Papers · 05-01
Length Value Model：面向 Token 级长度建模的可扩展 Value 预训练 HF Papers · 05-01
在图像编辑中利用基于 Verifier 的强化学习 HF Papers · 05-01
新时代的视觉生成：从原子映射到 Agentic 世界建模的演进 HF Papers · 05-01
异构科学 Foundation Model 协作 HF Papers · 05-01
近期 Claude Code 质量报告更新 Anthropic Engineering · 05-01
我们如何构建多-agent研究系统 Anthropic Engineering · 05-01
面向 AI agents 的有效 context engineering Anthropic Engineering · 05-01
Claude Developer Platform 推出高级工具使用 Anthropic Engineering · 05-01
用 AI agents 编写高效工具 Anthropic Engineering · 05-01
“think”工具：让 Claude 停下来思考 Anthropic Engineering · 05-01
Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness Anthropic Engineering · 05-01
Claude Code auto 模式：更安全地跳过权限确认 Anthropic Engineering · 05-01
真实资金下链上语言模型 agent 的操作层控制 HF Papers · 05-01
ChatGPT Images 2.0 介绍 OpenAI · 04-30
让 ChatGPT 更好服务临床医生 OpenAI · 04-30
大语言模型中的情感概念及其功能 Anthropic Research · 04-30
探究图像编辑模型的视觉规划 HF Papers · 04-30
GLM-5V-Turbo：迈向多模态 agent 的原生基础模型 HF Papers · 04-30