词
历attention
Transformer 核心机制 · 计算 token 间相关性
- Nemotron-Labs 扩散语言模型实现光速级文本生成
- 全注意力回归:百步训练内将全注意力转为稀疏
- 如何通过评估与可观测性赢得利益相关者信任
- FTC要求Cox Media Group等三家公司支付近100万美元,以和解其关于“主动监听”AI营销服务欺骗客户的指控
- Modal C轮融资:以46.5亿美元估值募资3.55亿美元
- 为何MoE模型能从推测解码中获益更多
- transformers v5.9.0
- vLLM x Novita AI:PegaFlow 实现生产级外部 KV 缓存
- vLLM 中的弹性专家并行
- 大规模推理基准测试:编码智能体
- 推出 Ettin Reranker 系列
- 五分钟看懂LLM过去六个月
- 使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频
- PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务
- LLM架构最新进展:KV共享、mHC与压缩注意力
- sglang v0.5.12
- 从Gemma 4到DeepSeek V4:LLM长上下文效率优化技术导览
- 评估前沿AI系统的早期经验
- Claude Code 百万 token 上下文窗口的双刃剑效应与会话管理策略
- 构建通用无障碍代理——过程中的经验教训
- vllm v0.21.0
- 2028:全球AI领导力的两种情景
- 智能体异步大规模协作研究:GitHub 分支模式原型设计
- Granite Embedding Multilingual R2:Apache 2.0 开源多语言嵌入,32K 上下文 — 最佳 Sub-100M 检索质量
- Stream Vision Agents 与 Amazon Nova 2 Sonic 实时语音代理
- 解锁连续批处理中的异步性
- vLLM x Mooncake 规模化服务 Agent 工作负载
- TurboQuant 首次全面研究:精度与性能
- vLLM 登顶 Artificial Analysis 排行榜
- MinT:训练与服务百万级LLM的托管基础设施
- Apollo 2026年5月更新
- AI模型如何说服?通过大规模实验探索AI说服的杠杆
- GridSFM:一种新型小型电网基础模型
- 资助60个项目推进AI对齐研究
- 构建安全有效的沙箱,在 Windows 上启用 Codex
- δ-mem:大语言模型的高效在线记忆
- 沙盒AI智能体能从评估环境中学到什么?
- 问而不告:减少大语言模型中的谄媚行为
- 评估AI模型是否会破坏AI安全研究
- 印度发布 Sarvam 30B 和 105B 开源推理模型,105B 采用 DeepSeek 风格 MLA 注意力
- 参数高尔夫教给我们的AI辅助研究经验
- 如何与AI协作并实现复利
- 如何实现真正的无服务器GPU
- sglang v0.5.11
- transformers v5.8.0
- vllm v0.20.2
- transformers v5.7.0
- BalCapRL:基于RL的MLLM图像描述平衡框架
- AWS 上基础模型训练与推理的构建模块
- 关于GitLab裁员及"结构与战略决策"的思考
- vLLM 登顶 Artificial Analysis 排行榜
- MiniCPM-V-4.6-gguf
- 均值模式尖叫:面向千层扩散Transformer的均值-方差分裂残差
- TurboQuant 首次全面研究:精度与性能
- MiniCPM-V-4.6-Thinking-gguf
- MiniCPM-V-4.6-Thinking
- MiniCPM-V-4.6-AWQ
- MiniCPM-V-4.6-BNB
- MiniCPM-V-4.6-GPTQ
- MiniCPM-V-4.6-Thinking-AWQ
- MiniCPM-V-4.6-Thinking-GPTQ
- MiniCPM-V-4.6-Thinking-BNB
- 自适应并行推理:高效推理扩展的下一范式
- 用一个 Python 字典将多模态推理性能提升 >10%
- 如何在 AI Agents 中正确使用 MCP servers
- Agent 如何管理其他 Agent:2026 年四种 Subagent 模式
- CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型
- 服务 DeepSeek-V4:为什么百万 token 上下文是推理系统问题
- MiniCPM-V-4_5-GPTQ
- MedQA:在 AMD ROCm 上微调临床 AI,无需 CUDA
- nidhinjs/prompt-master
- rohitg00/从零开始的 AI 工程
- 用于学习语义丰富视觉表征的文本条件 JEPA
- 克服奖励信号挑战:在 SageMaker AI 上使用 GRPO 进行基于可验证奖励的强化学习
- 混元3架构解析:整合Apertus、DeepSeek与Qwen MoE
- Gemma 4 架构近似前代,benchmark 明显提升
- SimpleStream以最近4帧作为视频流理解强baseline
- NGC论文提出用RL训练LLM管理自身KV cache
- autoresearch使nanochat的Time to GPT-2缩短11%
- 基于 In-Context Sparse Attention 的快速统一视频编辑
- 使用迭代去噪的归一化流
- 用 vLLM x Mooncake 大规模服务 Agentic 工作负载
- Vibe coding 和 agentic engineering 比我希望的更接近了
- SplAttN:用 Gaussian Soft Splatting 和 Attention 连接 2D 与 3D 以实现点云补全
- 持久视觉记忆:为 LVLMs 的深度生成维持感知
- 更好的模型,更快的训练:用于单细胞基础模型的 Sigmoid Attention
- 支撑大规模高效推理的基础研究
- Talker-T2AV:基于自回归扩散建模的联合说话音视频生成
- Qwen3.6-27B-FP8
- 现代 LLM 中 Attention 变体的可视化指南
- Qwen3.6-27B
- 用于编排的开源规范:Symphony
- Claude Code 最佳实践 - Claude Code 文档
- Claude Opus 4.7 介绍
- vLLM 中的 DeepSeek V4:高效长上下文 Attention
- 揭秘 AI agents 的 evals
- 介绍 GPT-5.5
- vLLM 中 FP8 KV-Cache 与 Attention 量化的现状
- moonshotai/Kimi-K2.6
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- deepseek-ai/DeepSeek-V4-Pro
- vLLM 中混合 SSM 模型的分离式 Serving
- deepseek-ai/DeepSeek-V4-Flash
- 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI
- DeepSeek-V4 Pro 现已在 Together AI 上可用
- 面向 LLM 的大规模交互识别
- Coding Agent 的组成部分
- 我们能靠 AI 走向更可持续的世界吗
- STARFlow-V:基于 Normalizing Flows 的端到端视频生成建模
- MoCapAnything V2:面向任意骨架的端到端动作捕捉
- 面向 AI agents 的有效 context engineering
- 用 Agent Skills 让 agent 适应真实世界
- 用 sandboxing 让 Claude Code 更安全、更自主
- 长时间运行的应用开发的 harness 设计
- Claude Code auto 模式:更安全地跳过权限确认
- 量化 agentic 编码评测中的基础设施噪声
- 扭转 TIDE:Diffusion 大语言模型的跨架构蒸馏