録实録译稿议社区 24h

词术语频次

历封存归档

distillation

▂▂█▃ · 135 次 · 收录于 40 篇

知识蒸馏 · 大模型教小模型

BitCPM-CANN-1B 工程 · OpenBMB · 05-24
BitCPM-CANN-3B 工程 · OpenBMB · 05-24
BitCPM-CANN-8B 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B 工程 · OpenBMB · 05-24
BitCPM-CANN-1B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-3B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-8B-gguf 研究 · OpenBMB · 05-24
BitCPM4-CANN-0.5B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-1B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-3B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-8B-gguf 研究 · OpenBMB · 05-22
推出 Ettin Reranker 系列产品 · HF Blog · 05-19
LongLive-2.0：面向长视频生成的NVFP4并行基础设施研究 · HF Papers · 05-19
BitCPM4-CANN-0.5B 工程 · OpenBMB · 05-18
BitCPM4-CANN-1B 工程 · OpenBMB · 05-18
BitCPM4-CANN-3B 工程 · OpenBMB · 05-18
BitCPM4-CANN-8B 研究 · OpenBMB · 05-18
LLM架构最新进展：KV共享、mHC与压缩注意力研究 · Sebastian Raschka · 05-17
Causal Forcing++：面向实时交互视频生成的可扩展少步自回归扩散蒸馏研究 · HF Papers · 05-16
2028：全球AI领导力的两种情景研究 · Anthropic Research · 05-15
Granite Embedding Multilingual R2：Apache 2.0 开源多语言嵌入，32K 上下文 — 最佳 Sub-100M 检索质量产品 · HF Blog · 05-15
AnyFlow: 基于同策略流图蒸馏的任意步视频扩散模型研究 · HF Papers · 05-14
分享通过 OpenRouter 和 Ollama 从开放权重模型生成蒸馏数据的实用工具工程 · X · 05-13
Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本工程 · X · 05-13
解读今日开放-封闭性能差距研究 · Interconnects · 05-12
蒸馏恐慌对话 · Interconnects · 05-12
我对开源模型的押注，2026年中研究 · Interconnects · 05-12
讨论 multi-teacher distillation 合并领域专家的效率优势研究 · X · 05-10
LLM 蒸馏 Ch08 Notebook 在 GitHub 发布工程 · X · 05-07
综述梳理 MOPD 在近期 LLM 后训练中的应用研究 · X · 05-07
D-OPSD：用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏研究 · HF Papers · 05-07
Stream-R1：面向流式视频生成的可靠性-困惑度感知奖励蒸馏研究 · HF Papers · 05-07
面向医疗 agent 的 Healthcare AI GYM HF Papers · 05-06
从树到流再回到树：统一 Decision Trees 与 Diffusion Models HF Papers · 05-04
Coding Agent 的组成部分 Sebastian Raschka · 05-03
用于视觉生成的表征 Fréchet Loss HF Papers · 05-01
协同演化的策略蒸馏 HF Papers · 05-01
新时代的视觉生成：从原子映射到 Agentic 世界建模的演进 HF Papers · 05-01
扭转 TIDE：Diffusion 大语言模型的跨架构蒸馏 HF Papers · 04-30