録实録译稿议社区 24h

词术语频次

历封存归档

context window

█▃▃▁ · 194 次 · 收录于 62 篇

上下文窗口 · 模型一次能处理的 token 数量

transformers v5.9.0 工程 · GitHub Release · 05-20
vLLM 中的弹性专家并行工程 · vLLM · 05-20
Gemini 3.5 Flash 正式发布，编码和 agent 任务优于 3.1 Pro 产品 · X · 05-20
大规模推理基准测试：编码智能体评测 · Together AI · 05-20
谷歌反重力 2.0 发布产品 · DeepMind · 05-20
LLM架构最新进展：KV共享、mHC与压缩注意力研究 · Sebastian Raschka · 05-17
Claude 百万上下文窗口可设自动压缩阈值避免污染工程 · X · 05-16
Claude Code 百万 token 上下文窗口的双刃剑效应与会话管理策略工程 · X · 05-16
Granite Embedding Multilingual R2：Apache 2.0 开源多语言嵌入，32K 上下文 — 最佳 Sub-100M 检索质量产品 · HF Blog · 05-15
vLLM x Mooncake 规模化服务 Agent 工作负载工程 · vLLM · 05-15
TurboQuant 首次全面研究：精度与性能评测 · vLLM · 05-15
AI网络任务中推理扩展的证据：增加评估预算揭示更高成功率研究 · UK AISI · 05-14
δ-mem：大语言模型的高效在线记忆研究 · HF Papers · 05-13
Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本工程 · X · 05-13
Opus 4.7：你需要知道的一切产品 · Artificial Analysis · 05-12
Kimi K2.6：新的领先开源权重模型产品 · Artificial Analysis · 05-12
DeepSeek 携 V4 Pro 与 V4 Flash 重返领先开源权重模型行列产品 · Artificial Analysis · 05-12
近期开源权重模型发布产品 · Artificial Analysis · 05-12
OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct 产品 · Artificial Analysis · 05-12
TurboQuant 首次全面研究：精度与性能研究 · vLLM · 05-12
OncoAgent：用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架研究 · HF Blog · 05-10
自适应并行推理：高效推理扩展的下一范式研究 · BAIR · 05-09
Claude Code 团队成员分享用 HTML 替代 Markdown 的场景工程 · X · 05-09
Harness 是一切：如何优化你的 Harness 工程 · Baseten · 05-09
用 Modal 和 OpenAI Agents SDK 构建工程 · Modal · 05-09
服务 DeepSeek-V4：为什么百万 token 上下文是推理系统问题工程 · Together AI · 05-09
Arthur-Ficial/apfel 工程 · GitHub · 05-08
克服奖励信号挑战：在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习工程 · AWS ML · 05-08
通过 API 中的新模型推进语音智能产品 · OpenAI · 05-08
SimpleStream以最近4帧作为视频流理解强baseline 研究 · X · 05-07
研究者称 LLM 个性化记忆易过度引用旧话题工程 · X · 05-07
用 vLLM x Mooncake 大规模服务 Agentic 工作负载工程 · vLLM · 05-07
用 Extreme Co-Design 应对 Agentic 系统日益增长的复杂性 NVIDIA Developer · 05-06
模型控制、支出管理和使用分析 Cursor · 05-05
支撑大规模高效推理的基础研究 Together AI · 05-05
Vibe 中的远程 agent，由 Mistral Medium 3.5 驱动 Mistral · 05-04
Qwen3.6-27B-FP8 产品 · Qwen · 05-03
现代 LLM 中 Attention 变体的可视化指南 Sebastian Raschka · 05-03
Qwen3.6-27B 产品 · Qwen · 05-03
Claude Code 最佳实践 - Claude Code 文档 Anthropic Engineering · 05-03
vLLM 中的 DeepSeek V4：高效长上下文 Attention vLLM · 05-03
介绍 GPT-5.5 OpenAI · 05-03
vLLM 中 FP8 KV-Cache 与 Attention 量化的现状工程 · vLLM · 05-03
moonshotai/Kimi-K2.6 产品 · Kimi · 05-03
NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
NVIDIA Nemotron 3 Nano Omni 模型现可在 Amazon SageMaker JumpStart 使用 AWS ML · 05-03
DeepSeek-V4 Pro 现已在 Together AI 上可用 Together AI · 05-03
OlmPool：小的架构选择如何叠加削弱长上下文扩展 Allen AI · 05-03
FlashRT：面向 Prompt Injection 和 Knowledge Corruption 的计算与内存高效 Red-Teaming HF Papers · 05-02
近期三个问题的复盘 Anthropic Engineering · 05-01
我们如何构建多-agent研究系统 Anthropic Engineering · 05-01
面向 AI agents 的有效 context engineering Anthropic Engineering · 05-01
Claude Developer Platform 推出高级工具使用 Anthropic Engineering · 05-01
用 Agent Skills 让 agent 适应真实世界 Anthropic Engineering · 05-01
用 AI agents 编写高效工具 Anthropic Engineering · 05-01
长时间运行 agent 的有效 harness Anthropic Engineering · 05-01
使用 MCP 执行代码：构建更高效的 AI agents Anthropic Engineering · 05-01
长时间运行的应用开发的 harness 设计 Anthropic Engineering · 05-01
扩展 Managed Agents：将大脑与双手解耦 Anthropic Engineering · 05-01