録实録译稿议社区 24h

词术语频次

历封存归档

on-policy distillation

▃█▆ · 35 次 · 收录于 11 篇

基于学生轨迹的策略蒸馏

AnyFlow: 基于同策略流图蒸馏的任意步视频扩散模型研究 · HF Papers · 05-14
Codex 通过分层 prompt 结构最大化缓存命中率以降低长上下文编码 agent 成本工程 · X · 05-13
Flow-OPD：流匹配模型的在策略蒸馏研究 · HF Papers · 05-12
讨论 multi-teacher distillation 合并领域专家的效率优势研究 · X · 05-10
MedQA：在 AMD ROCm 上微调临床 AI，无需 CUDA 工程 · HF Blog · 05-08
综述梳理 MOPD 在近期 LLM 后训练中的应用研究 · X · 05-07
面向医疗 agent 的 Healthcare AI GYM HF Papers · 05-06
超越 SFT-to-RL：通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
协同演化的策略蒸馏 HF Papers · 05-01

更新于五月二十五日 09:40