词
历distillation
知识蒸馏 · 大模型教小模型
- BitCPM-CANN-1B
- BitCPM-CANN-3B
- BitCPM-CANN-8B
- BitCPM-CANN-0.5B
- BitCPM-CANN-1B-gguf
- BitCPM-CANN-0.5B-gguf
- BitCPM-CANN-3B-gguf
- BitCPM-CANN-8B-gguf
- BitCPM4-CANN-0.5B-gguf
- BitCPM4-CANN-1B-gguf
- BitCPM4-CANN-3B-gguf
- BitCPM4-CANN-8B-gguf
- 推出 Ettin Reranker 系列
- LongLive-2.0:面向长视频生成的NVFP4并行基础设施
- BitCPM4-CANN-0.5B
- BitCPM4-CANN-1B
- BitCPM4-CANN-3B
- BitCPM4-CANN-8B
- LLM架构最新进展:KV共享、mHC与压缩注意力
- Causal Forcing++:面向实时交互视频生成的可扩展少步自回归扩散蒸馏
- 2028:全球AI领导力的两种情景
- Granite Embedding Multilingual R2:Apache 2.0 开源多语言嵌入,32K 上下文 — 最佳 Sub-100M 检索质量
- AnyFlow: 基于同策略流图蒸馏的任意步视频扩散模型
- 分享通过 OpenRouter 和 Ollama 从开放权重模型生成蒸馏数据的实用工具
- Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本
- 解读今日开放-封闭性能差距
- 蒸馏恐慌
- 我对开源模型的押注,2026年中
- 讨论 multi-teacher distillation 合并领域专家的效率优势
- LLM 蒸馏 Ch08 Notebook 在 GitHub 发布
- 综述梳理 MOPD 在近期 LLM 后训练中的应用
- D-OPSD:用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏
- Stream-R1:面向流式视频生成的可靠性-困惑度感知奖励蒸馏
- 面向医疗 agent 的 Healthcare AI GYM
- 从树到流再回到树:统一 Decision Trees 与 Diffusion Models
- Coding Agent 的组成部分
- 用于视觉生成的表征 Fréchet Loss
- 协同演化的策略蒸馏
- 新时代的视觉生成:从原子映射到 Agentic 世界建模的演进
- 扭转 TIDE:Diffusion 大语言模型的跨架构蒸馏