实録译稿 社区 24h

术语频次

封存归档

on-policy distillation

▃█▆ · 35 次 · 收录于 11 篇

基于学生轨迹的策略蒸馏

  1. AnyFlow: 基于同策略流图蒸馏的任意步视频扩散模型 研究 · HF Papers · 05-14
  2. Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本 工程 · X · 05-13
  3. Flow-OPD:流匹配模型的在策略蒸馏 研究 · HF Papers · 05-12
  4. 讨论 multi-teacher distillation 合并领域专家的效率优势 研究 · X · 05-10
  5. MedQA:在 AMD ROCm 上微调临床 AI,无需 CUDA 工程 · HF Blog · 05-08
  6. 综述梳理 MOPD 在近期 LLM 后训练中的应用 研究 · X · 05-07
  7. 面向医疗 agent 的 Healthcare AI GYM HF Papers · 05-06
  8. 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
  9. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  10. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  11. 协同演化的策略蒸馏 HF Papers · 05-01