实録译稿 社区 24h

术语频次

封存归档

context window

█▃▃▁ · 194 次 · 收录于 62 篇

上下文窗口 · 模型一次能处理的 token 数量

  1. transformers v5.9.0 工程 · GitHub Release · 05-20
  2. vLLM 中的弹性专家并行 工程 · vLLM · 05-20
  3. Gemini 3.5 Flash 正式发布,编码和 agent 任务优于 3.1 Pro 产品 · X · 05-20
  4. 大规模推理基准测试:编码智能体 评测 · Together AI · 05-20
  5. 谷歌反重力 2.0 发布 产品 · DeepMind · 05-20
  6. LLM架构最新进展:KV共享、mHC与压缩注意力 研究 · Sebastian Raschka · 05-17
  7. Claude 百万上下文窗口可设自动压缩阈值避免污染 工程 · X · 05-16
  8. Claude Code 百万 token 上下文窗口的双刃剑效应与会话管理策略 工程 · X · 05-16
  9. Granite Embedding Multilingual R2:Apache 2.0 开源多语言嵌入,32K 上下文 — 最佳 Sub-100M 检索质量 产品 · HF Blog · 05-15
  10. vLLM x Mooncake 规模化服务 Agent 工作负载 工程 · vLLM · 05-15
  11. TurboQuant 首次全面研究:精度与性能 评测 · vLLM · 05-15
  12. AI网络任务中推理扩展的证据:增加评估预算揭示更高成功率 研究 · UK AISI · 05-14
  13. δ-mem:大语言模型的高效在线记忆 研究 · HF Papers · 05-13
  14. Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本 工程 · X · 05-13
  15. Opus 4.7:你需要知道的一切 产品 · Artificial Analysis · 05-12
  16. Kimi K2.6:新的领先开源权重模型 产品 · Artificial Analysis · 05-12
  17. DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列 产品 · Artificial Analysis · 05-12
  18. 近期开源权重模型发布 产品 · Artificial Analysis · 05-12
  19. OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct 产品 · Artificial Analysis · 05-12
  20. TurboQuant 首次全面研究:精度与性能 研究 · vLLM · 05-12
  21. OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架 研究 · HF Blog · 05-10
  22. 自适应并行推理:高效推理扩展的下一范式 研究 · BAIR · 05-09
  23. Claude Code 团队成员分享用 HTML 替代 Markdown 的场景 工程 · X · 05-09
  24. Harness 是一切:如何优化你的 Harness 工程 · Baseten · 05-09
  25. 用 Modal 和 OpenAI Agents SDK 构建 工程 · Modal · 05-09
  26. 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题 工程 · Together AI · 05-09
  27. Arthur-Ficial/apfel 工程 · GitHub · 05-08
  28. 克服奖励信号挑战:在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习 工程 · AWS ML · 05-08
  29. 通过 API 中的新模型推进语音智能 产品 · OpenAI · 05-08
  30. SimpleStream以最近4帧作为视频流理解强baseline 研究 · X · 05-07
  31. 研究者称 LLM 个性化记忆易过度引用旧话题 工程 · X · 05-07
  32. 用 vLLM x Mooncake 大规模服务 Agentic 工作负载 工程 · vLLM · 05-07
  33. 用 Extreme Co-Design 应对 Agentic 系统日益增长的复杂性 NVIDIA Developer · 05-06
  34. 模型控制、支出管理和使用分析 Cursor · 05-05
  35. 支撑大规模高效推理的基础研究 Together AI · 05-05
  36. Vibe 中的远程 agent,由 Mistral Medium 3.5 驱动 Mistral · 05-04
  37. Qwen3.6-27B-FP8 产品 · Qwen · 05-03
  38. 现代 LLM 中 Attention 变体的可视化指南 Sebastian Raschka · 05-03
  39. Qwen3.6-27B 产品 · Qwen · 05-03
  40. Claude Code 最佳实践 - Claude Code 文档 Anthropic Engineering · 05-03
  41. vLLM 中的 DeepSeek V4:高效长上下文 Attention vLLM · 05-03
  42. 介绍 GPT-5.5 OpenAI · 05-03
  43. vLLM 中 FP8 KV-Cache 与 Attention 量化的现状 工程 · vLLM · 05-03
  44. moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
  45. NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
  46. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  47. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  48. 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
  49. NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
  50. DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
  51. OlmPool:小的架构选择如何叠加削弱长上下文扩展 Allen AI · 05-03
  52. FlashRT:面向 Prompt Injection 和 Knowledge Corruption 的计算与内存高效 Red-Teaming HF Papers · 05-02
  53. 近期三个问题的复盘 Anthropic Engineering · 05-01
  54. 我们如何构建多-agent研究系统 Anthropic Engineering · 05-01
  55. 面向 AI agents 的有效 context engineering Anthropic Engineering · 05-01
  56. Claude Developer Platform 推出高级工具使用 Anthropic Engineering · 05-01
  57. 用 Agent Skills 让 agent 适应真实世界 Anthropic Engineering · 05-01
  58. 用 AI agents 编写高效工具 Anthropic Engineering · 05-01
  59. 长时间运行 agent 的有效 harness Anthropic Engineering · 05-01
  60. 使用 MCP 执行代码:构建更高效的 AI agents Anthropic Engineering · 05-01
  61. 长时间运行的应用开发的 harness 设计 Anthropic Engineering · 05-01
  62. 扩展 Managed Agents:将大脑与双手解耦 Anthropic Engineering · 05-01