词
历on-policy distillation
基于学生轨迹的策略蒸馏
- AnyFlow: 基于同策略流图蒸馏的任意步视频扩散模型
- Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本
- Flow-OPD:流匹配模型的在策略蒸馏
- 讨论 multi-teacher distillation 合并领域专家的效率优势
- MedQA:在 AMD ROCm 上微调临床 AI,无需 CUDA
- 综述梳理 MOPD 在近期 LLM 后训练中的应用
- 面向医疗 agent 的 Healthcare AI GYM
- 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐
- deepseek-ai/DeepSeek-V4-Pro
- deepseek-ai/DeepSeek-V4-Flash
- 协同演化的策略蒸馏