词
历reasoning
推理 · 模型进行逻辑 / 数学 / 规划等思考
- BitCPM-CANN-1B
- BitCPM-CANN-3B
- BitCPM-CANN-8B
- BitCPM-CANN-0.5B
- BitCPM-CANN-1B-gguf
- BitCPM-CANN-0.5B-gguf
- BitCPM-CANN-3B-gguf
- BitCPM-CANN-8B-gguf
- 全注意力回归:百步训练内将全注意力转为稀疏
- 专业化胜过规模化:多数AI采购决策忽视的战略变量
- DelTA: 基于可验证奖励的强化学习中的判别性令牌信用分配
- 感知还是偏见:MLLMs能否超越对人格的第一印象?
- BitCPM4-CANN-0.5B-gguf
- BitCPM4-CANN-1B-gguf
- BitCPM4-CANN-3B-gguf
- BitCPM4-CANN-8B-gguf
- MagenticLite、MagenticBrain、Fara1.5:为小模型优化的智能体体验
- datasette-agent 0.1a3
- AI系统监管会变得更难吗?
- 在电信AI工厂上构建Token计量的AI服务
- 多智能体系统构建指南:何时需要及两种常见设计模式
- OpenAI模型推翻离散几何核心猜想
- 强化新加坡AI未来:新国家伙伴关系
- Gemini 3.5 Flash:更贵,但谷歌计划用它做所有事
- 大规模推理基准测试:编码智能体
- 代码即代理工具
- HRM-Text 1B 模型发布,40B token 训练成本仅约 1000 美元
- Gemini 3.5:具备行动能力的前沿智能
- 发现可对抗肝纤维化的老药新用
- Co-Scientist:加速科研的多智能体AI伙伴
- 可扩展语音代理设计:Amazon Nova Sonic 的多代理、工具与会话分割
- 用 Amazon Nova 2 提示词做内容审核
- BitCPM4-CANN-0.5B
- BitCPM4-CANN-1B
- BitCPM4-CANN-3B
- BitCPM4-CANN-8B
- Imbad0202/学术研究技能
- 前沿AI问答评估开发早期洞察
- LLM架构最新进展:KV共享、mHC与压缩注意力
- sglang v0.5.12
- 最新开放制品(#21):开放模型大爆发!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。
- 新型评估与Agent脚手架赏金计划
- 长文本任务
- OpenAI o1 模型部署前评估
- Anthropic 升级版 Claude 3.5 Sonnet 的部署前评估
- 发布 Inspect Evals
- 综述评估 agent 的基准:Terminal-Bench、Tau-Bench 等十余项及校准方法
- LLM 裁判受审:评估自动评分器的新统计框架
- RepliBench:衡量AI系统中的自主复制能力
- 如何评估AI agent的控制措施?
- ChatGPT 中的全新个人理财体验
- DavidAU 团队基于 Qwen3.5-27B 拼接训练出非官方 Qwen3.5-40B Dense 模型
- vllm v0.21.0
- HiBayES:用分层贝叶斯建模改进LLM评估
- AI将如何助长未来犯罪?
- 国际联合测试演习:Agentic 测试
- 为何我们研究白盒控制
- 结构化引出实验协议
- 通过简单统一缩放实现金牌级奥赛推理
- esengine/DeepSeek-Reasonix
- Intern-S2-Preview
- Intern-S2-Preview-FP8
- 穿越未知:构建社会对前沿AI的韧性
- 当前AI系统的局限性映射
- AI agent评估的转录分析
- Stream Vision Agents 与 Amazon Nova 2 Sonic 实时语音代理
- 有效训练长上下文视觉语言模型,泛化能力超越128K上下文
- 帮助ChatGPT更好识别敏感对话中的上下文
- vLLM x Mooncake 规模化服务 Agent 工作负载
- TurboQuant 首次全面研究:精度与性能
- vLLM 登顶 Artificial Analysis 排行榜
- Apollo 2026年5月更新
- AI Agent 如何使用?来自 17.7 万 AI Agent 工具的证据
- 使用Inspect Scout进行转录分析的工作流
- 资助60个项目推进AI对齐研究
- AI在欺诈与网络犯罪中滥用的评估框架
- 前沿AI智能体在多步网络攻击场景中表现如何?
- 沙盒AI智能体能从评估环境中学到什么?
- 我们对OpenAI GPT-5.5网络能力的评估
- 评估AI模型是否会破坏AI安全研究
- SenseNova-U1:基于NEO-unify架构统一多模态理解与生成
- llm 0.32a2
- 印度发布 Sarvam 30B 和 105B 开源推理模型,105B 采用 DeepSeek 风格 MLA 注意力
- 开放模型生态如何持续放大优势
- Gemini Interactions API 发布思考与签名指南,支持有状态与无状态模式
- vllm v0.19.1
- Opus 4.7:你需要知道的一切
- Sub-32B 开放权重
- Kimi K2.6:新的领先开源权重模型
- DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列
- OpenAI的GPT-5.5成为领先AI模型
- 近期开源权重模型发布
- OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct
- 蒸馏恐慌
- Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点
- Import AI 455:AI系统即将开始自我构建
- SocialReasoning-Bench:衡量AI智能体是否以用户最佳利益行事
- AWS 上基础模型训练与推理的构建模块
- vLLM 登顶 Artificial Analysis 排行榜
- TurboQuant 首次全面研究:精度与性能
- MiniCPM-V-4.6-Thinking-gguf
- MiniCPM-V-4.6-Thinking
- MiniCPM-V-4.6-Thinking-AWQ
- MiniCPM-V-4.6-Thinking-GPTQ
- MiniCPM-V-4.6-Thinking-BNB
- Bugbot 努力级别
- MachinaCheck:基于 AMD MI300X 构建 Multi-Agent CNC 可制造性系统
- Claude Code 可接入 17000+ 股票与 crypto 实时数据
- open-multi-agent/open-multi-agent
- OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架
- 自适应并行推理:高效推理扩展的下一范式
- world modeling被称为robotics新预训练范式
- 提出四种subagent编排模式及适用边界
- Harness 是一切:如何优化你的 Harness
- 在 Modal 上构建 RL 定理证明工作流
- 如何通过 Gemini API 使用 Deep Research
- 当“正确”并非确定性时验证 agentic 行为
- 提升 GitHub Agentic Workflows 中的 token 效率
- 教 Claude 理解为什么
- 流式 Tokens 与工具:NVIDIA Dynamo 中的多轮 Agentic Harness 支持
- EMO:为涌现模块化预训练 Mixture of Experts | Ai2
- EMO:为涌现模块化预训练混合专家
- MiniCPM-V-4_5-GPTQ
- MedQA:在 AMD ROCm 上微调临床 AI,无需 CUDA
- nidhinjs/prompt-master
- rohitg00/从零开始的 AI 工程
- wanshuiyin/睡眠中自动 Claude Code 研究
- 克服奖励信号挑战:在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习
- 用 GPT-5.5 和 GPT-5.5-Cyber 扩展网络安全可信访问
- 自然语言 Autoencoders
- 通过 API 中的新模型推进语音智能
- SciCore-Mol
- Claude-Opus-4.7 测试显示视觉提升但后端下降
- Qwen3.6-35B-A3B多项benchmark显示Agent能力提升
- DeepSeek-V4需回传空reasoning_content以避免400
- 文章探讨 smart decoding 与 CoT 如何提升模型智能
- Netflix 发布剧集 synopsis 的 LLM-as-a-Judge 评估系统报告
- NGC论文提出用RL训练LLM管理自身KV cache
- 综述梳理 MOPD 在近期 LLM 后训练中的应用
- 介绍 LLM RL 中的 entropy bonus 正则化作用
- NVIDIA 机器人实验室发布 GR00T、Dreams、SONIC 等成果
- 重新思考推理密集型检索:评估并改进 Agentic 搜索系统中的检索器
- 唤醒统一多模态理解与生成中的空间智能
- OpenSearch-VL:面向前沿多模态搜索 agent 的开放方案
- HERMES++:迈向用于 3D 场景理解与生成的统一驾驶世界模型
- EKKOLearnAI/hermes-web-ui
- HKUDS/Vibe-Trading
- JackChen-me/open-multi-agent
- nesquena/hermes-webui
- 用 vLLM x Mooncake 大规模服务 Agentic 工作负载
- 生成、过滤、控制、回放:LLM 强化学习 rollout 策略全面综述
- ESARBench:用于 Agentic UAV 具身搜索与救援的 Benchmark
- X2SAM:图像和视频中的任意分割
- 证据链:用于迭代式 RAG 的像素级视觉归因
- 面向医疗 agent 的 Healthcare AI GYM
- 具备统一动作生成框架的交互式世界模型 benchmark
- HeavySkill:将 Heavy Thinking 作为 Agentic Harness 的内在技能
- PatRe:面向专利审查的全阶段审查意见通知书与答复生成 benchmark
- Workspace-Bench 1.0:在具有大规模文件依赖的 Workspace 任务上 benchmark AI agents
- 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐
- llm-echo 0.5a0
- 如何用 NVIDIA 构建车载 AI agent:从云端到汽车
- GPT-5.5 Instant:更智能、更清晰、更个性化
- MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2
- 持久视觉记忆:为 LVLMs 的深度生成维持感知
- 代码世界模型准备情况报告
- T^2PO:用于稳定多轮 Agentic 强化学习的不确定性引导探索控制
- 用于视觉 Grounded 推理的感知流网络
- PhysicianBench:在真实世界 EHR 环境中评估 LLM agent
- MolmoAct2:面向现实世界部署的动作推理模型
- PORTool:用于多工具集成推理的奖励树重要性感知 Policy Optimization
- OpenAI 如何大规模交付低延迟语音 AI
- 支撑大规模高效推理的基础研究
- Web2BigTable:用于互联网规模信息搜索与抽取的双层多 agent LLM 系统
- 从技能文本到技能结构:面向 agent 技能的调度-结构-逻辑表示
- Vibe 中的远程 agent,由 Mistral Medium 3.5 驱动
- Qwen3.6-27B-FP8
- Together AI 与 Adaption 建立合作伙伴关系
- Qwen3.6-27B
- 用于编排的开源规范:Symphony
- Claude Opus 4.7 介绍
- vLLM 中的 DeepSeek V4:高效长上下文 Attention
- 介绍 GPT-5.5
- vLLM 中 FP8 KV-Cache 与 Attention 量化的现状
- moonshotai/Kimi-K2.6
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- 通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts
- deepseek-ai/DeepSeek-V4-Pro
- deepseek-ai/DeepSeek-V4-Flash
- 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI
- NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用
- 用 Amazon Nova 2 Sonic 将文本 agent 迁移为语音助手
- 用分布感知 speculative decoding 将 RL rollouts 加速最高 50%
- Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni
- DeepSeek-V4 Pro 现已在 Together AI 上可用
- 从 732 字节到无处可去:在生产环境中关闭 Copy Fail
- 使用端到端 FP8 精度运行高吞吐量强化学习训练
- NVIDIA Nemotron 3 Nano Omni 以单一高效开放模型支持多模态 agent 推理
- 无冲突的容量:面向 AI-native 团队的多租户 GPU 集群设计指南
- Coding Agent 的组成部分
- LaDiR:Latent Diffusion 增强 LLMs 的文本推理能力
- 自适应思考:LLM 知道何时在潜在空间中思考
- AutoAdapt:大语言模型的自动化领域适应
- LLM 0.32a0 是一次重大的向后兼容重构
- 高效计算机使用 agent 的步骤级优化
- 服从性与合理性:大型语言模型的推理可控性
- MoCapAnything V2:面向任意骨架的端到端动作捕捉
- 协同演化的策略蒸馏
- Length Value Model:面向 Token 级长度建模的可扩展 Value 预训练
- 在图像编辑中利用基于 Verifier 的强化学习
- 新时代的视觉生成:从原子映射到 Agentic 世界建模的演进
- 异构科学 Foundation Model 协作
- 近期 Claude Code 质量报告更新
- 我们如何构建多-agent研究系统
- 面向 AI agents 的有效 context engineering
- Claude Developer Platform 推出高级工具使用
- 用 AI agents 编写高效工具
- “think”工具:让 Claude 停下来思考
- Claude Opus 4.6 在 BrowseComp 表现中的 eval awareness
- Claude Code auto 模式:更安全地跳过权限确认
- 真实资金下链上语言模型 agent 的操作层控制
- ChatGPT Images 2.0 介绍
- 让 ChatGPT 更好服务临床医生
- 大语言模型中的情感概念及其功能
- 探究图像编辑模型的视觉规划
- GLM-5V-Turbo:迈向多模态 agent 的原生基础模型