词
历Qwen3
通义千问第三代模型系列
- Nemotron-Labs 扩散语言模型实现光速级文本生成
- DelTA: 基于可验证奖励的强化学习中的判别性令牌信用分配
- vLLM x Novita AI:PegaFlow 实现生产级外部 KV 缓存
- 推出 Ettin Reranker 系列
- 五分钟看懂LLM过去六个月
- 阿里千问发布Qwen3.7-Max-Preview,数学能力升至总榜第七 字节跳动开源3B全模态模型Lance,统一处理文本、图像与视频
- 字节跳动开源3B全模态模型Lance,训练仅用128张A100显卡
- VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练
- LLM架构最新进展:KV共享、mHC与压缩注意力
- 最新开放制品(#21):开放模型大爆发!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。附 CAISI V4 评估。
- DavidAU 团队基于 Qwen3.5-27B 拼接训练出非官方 Qwen3.5-40B Dense 模型
- 特斯拉 AI5 芯片流片成功,带宽接近 MacStudio M2 Ultra
- vllm v0.21.0
- Intern-S2-Preview
- Intern-S2-Preview-FP8
- Qwen3-TTS:低成本、高性能文本转语音
- TurboQuant 首次全面研究:精度与性能
- vLLM 登顶 Artificial Analysis 排行榜
- 开源 Qwen3.5 小型 LLM 实现,Gated DeltaNet 不增加 KV cache 大小
- 印度发布 Sarvam 30B 和 105B 开源推理模型,105B 采用 DeepSeek 风格 MLA 注意力
- 如何实现真正的无服务器GPU
- sglang v0.5.11
- vllm v0.20.2
- transformers v5.7.0
- Sub-32B 开放权重
- OpenBMB 发布 MiniCPM-V 4.6 1.3B Instruct
- Import AI 454:自动化对齐研究;中国模型安全评估;HiFloat4
- vLLM 登顶 Artificial Analysis 排行榜
- MiniCPM-V-4.6-gguf
- TurboQuant 首次全面研究:精度与性能
- MiniCPM-V-4.6-Thinking-gguf
- MiniCPM-V-4.6-Thinking
- MiniCPM-V-4.6-AWQ
- MiniCPM-V-4.6-BNB
- MiniCPM-V-4.6-GPTQ
- MiniCPM-V-4.6-Thinking-AWQ
- MiniCPM-V-4.6-Thinking-GPTQ
- MiniCPM-V-4.6-Thinking-BNB
- 用一个 Python 字典将多模态推理性能提升 >10%
- CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型
- MiniCPM-V-4_5-GPTQ
- MedQA:在 AMD ROCm 上微调临床 AI,无需 CUDA
- nidhinjs/prompt-master
- wanshuiyin/睡眠中自动 Claude Code 研究
- SciCore-Mol
- Qwen3.6-35B-A3B多项benchmark显示Agent能力提升
- 混元3架构解析:整合Apertus、DeepSeek与Qwen MoE
- Nvidia 发布 Nemotron 3 Super 120B-A12B,throughput 突出
- Google 发布 Gemma 4 专用 draft model,推测解码最高提速 3.1x
- Gemma 4 架构近似前代,benchmark 明显提升
- 重新思考推理密集型检索:评估并改进 Agentic 搜索系统中的检索器
- HKUDS/Vibe-Trading
- 证据链:用于迭代式 RAG 的像素级视觉归因
- 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐
- MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2
- 持久视觉记忆:为 LVLMs 的深度生成维持感知
- Vibe 中的远程 agent,由 Mistral Medium 3.5 驱动
- Qwen3.6-27B-FP8
- Together AI 与 Adaption 建立合作伙伴关系
- 现代 LLM 中 Attention 变体的可视化指南
- Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_50
- Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_100
- Qwen3.6-27B
- Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W32K-L0_50
- Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100
- Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100
- SAE-Res-Qwen3.5-2B-Base-W32K-L0_50
- SAE-Res-Qwen3-1.7B-Base-W32K-L0_50
- SAE-Res-Qwen3-1.7B-Base-W32K-L0_100
- SAE-Res-Qwen3.5-2B-Base-W32K-L0_100
- Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50
- Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100
- SAE-Res-Qwen3-8B-Base-W64K-L0_50
- SAE-Res-Qwen3-8B-Base-W64K-L0_100
- Qwen/SAE-Res-Qwen3-30B-A3B-Base-W32K-L0_50
- vLLM 中 FP8 KV-Cache 与 Attention 量化的现状
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- vLLM 中混合 SSM 模型的分离式 Serving
- 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI
- 用分布感知 speculative decoding 将 RL rollouts 加速最高 50%
- Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni
- 从 732 字节到无处可去:在生产环境中关闭 Copy Fail
- 使用 RoundPipe 在多个消费级 GPUs 上高效训练