词
历context window
上下文窗口 · 模型一次能处理的 token 数量
- transformers v5.9.0
- vLLM 中的弹性专家并行
- Gemini 3.5 Flash 正式发布,编码和 agent 任务优于 3.1 Pro
- 大规模推理基准测试:编码智能体
- 谷歌反重力 2.0 发布
- LLM架构最新进展:KV共享、mHC与压缩注意力
- Claude 百万上下文窗口可设自动压缩阈值避免污染
- Claude Code 百万 token 上下文窗口的双刃剑效应与会话管理策略
- Granite Embedding Multilingual R2:Apache 2.0 开源多语言嵌入,32K 上下文 — 最佳 Sub-100M 检索质量
- vLLM x Mooncake 规模化服务 Agent 工作负载
- TurboQuant 首次全面研究:精度与性能
- AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率
- δ-mem:大语言模型的高效在线记忆
- Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本
- Opus 4.7:你需要知道的一切
- Kimi K2.6:新的领先开源权重模型
- DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列
- 近期开源权重模型发布
- OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct
- TurboQuant 首次全面研究:精度与性能
- OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架
- 自适应并行推理:高效推理扩展的下一范式
- Claude Code 团队成员分享用 HTML 替代 Markdown 的场景
- Harness 是一切:如何优化你的 Harness
- 用 Modal 和 OpenAI Agents SDK 构建
- 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题
- Arthur-Ficial/apfel
- 克服奖励信号挑战:在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习
- 通过 API 中的新模型推进语音智能
- SimpleStream以最近4帧作为视频流理解强baseline
- 研究者称 LLM 个性化记忆易过度引用旧话题
- 用 vLLM x Mooncake 大规模服务 Agentic 工作负载
- 用 Extreme Co-Design 应对 Agentic 系统日益增长的复杂性
- 模型控制、支出管理和使用分析
- 支撑大规模高效推理的基础研究
- Vibe 中的远程 agent,由 Mistral Medium 3.5 驱动
- Qwen3.6-27B-FP8
- 现代 LLM 中 Attention 变体的可视化指南
- Qwen3.6-27B
- Claude Code 最佳实践 - Claude Code 文档
- vLLM 中的 DeepSeek V4:高效长上下文 Attention
- 介绍 GPT-5.5
- vLLM 中 FP8 KV-Cache 与 Attention 量化的现状
- moonshotai/Kimi-K2.6
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- deepseek-ai/DeepSeek-V4-Pro
- deepseek-ai/DeepSeek-V4-Flash
- 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI
- NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用
- DeepSeek-V4 Pro 现已在 Together AI 上可用
- OlmPool:小的架构选择如何叠加削弱长上下文扩展
- FlashRT:面向 Prompt Injection 和 Knowledge Corruption 的计算与内存高效 Red-Teaming
- 近期三个问题的复盘
- 我们如何构建多-agent研究系统
- 面向 AI agents 的有效 context engineering
- Claude Developer Platform 推出高级工具使用
- 用 Agent Skills 让 agent 适应真实世界
- 用 AI agents 编写高效工具
- 长时间运行 agent 的有效 harness
- 使用 MCP 执行代码:构建更高效的 AI agents
- 长时间运行的应用开发的 harness 设计
- 扩展 Managed Agents:将大脑与双手解耦