实録译稿 社区 24h

术语频次

封存归档

post-training

█▅▆▆ · 139 次 · 收录于 85 篇

后训练 · 预训练之后的微调 / 对齐阶段总称

  1. BitCPM-CANN-1B 工程 · OpenBMB · 05-24
  2. BitCPM-CANN-3B 工程 · OpenBMB · 05-24
  3. BitCPM-CANN-8B 研究 · OpenBMB · 05-24
  4. BitCPM-CANN-0.5B 工程 · OpenBMB · 05-24
  5. BitCPM-CANN-1B-gguf 研究 · OpenBMB · 05-24
  6. BitCPM-CANN-0.5B-gguf 研究 · OpenBMB · 05-24
  7. BitCPM-CANN-3B-gguf 研究 · OpenBMB · 05-24
  8. BitCPM-CANN-0.5B-unquantized 工程 · OpenBMB · 05-24
  9. BitCPM-CANN-1B-未量化 工程 · OpenBMB · 05-24
  10. BitCPM-CANN-3B-unquantized 工程 · OpenBMB · 05-24
  11. BitCPM-CANN-8B-gguf 研究 · OpenBMB · 05-24
  12. BitCPM-CANN-8B-未量化 工程 · OpenBMB · 05-24
  13. Nemotron-Labs 扩散语言模型实现光速级文本生成 产品 · HF Blog · 05-23
  14. BitCPM4-CANN-0.5B-gguf 研究 · OpenBMB · 05-22
  15. BitCPM4-CANN-1B-gguf 研究 · OpenBMB · 05-22
  16. BitCPM4-CANN-3B-gguf 研究 · OpenBMB · 05-22
  17. BitCPM4-CANN-8B-gguf 研究 · OpenBMB · 05-22
  18. 在应用计算中扩展强化学习 工程 · Modal · 05-21
  19. 用 Amazon Nova 2 提示词做内容审核 工程 · AWS ML · 05-19
  20. 使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频 工程 · HF Blog · 05-19
  21. VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练 工程 · vLLM · 05-18
  22. BitCPM4-CANN-0.5B 工程 · OpenBMB · 05-18
  23. BitCPM4-CANN-1B 工程 · OpenBMB · 05-18
  24. BitCPM4-CANN-3B 工程 · OpenBMB · 05-18
  25. BitCPM4-CANN-0.5B-未量化 产品 · OpenBMB · 05-18
  26. BitCPM4-CANN-1B-未量化 产品 · OpenBMB · 05-18
  27. BitCPM4-CANN-3B-未量化 工程 · OpenBMB · 05-18
  28. BitCPM4-CANN-8B-未量化 工程 · OpenBMB · 05-18
  29. BitCPM4-CANN-8B 研究 · OpenBMB · 05-18
  30. LLM架构最新进展:KV共享、mHC与压缩注意力 研究 · Sebastian Raschka · 05-17
  31. UKAISI 亮相 NeurIPS 2025 研究 · UK AISI · 05-15
  32. MinT:训练与服务百万级LLM的托管基础设施 研究 · HF Papers · 05-14
  33. AI模型如何说服?通过大规模实验探索AI说服的杠杆 研究 · UK AISI · 05-14
  34. SenseNova-U1:基于NEO-unify架构统一多模态理解与生成 研究 · HF Papers · 05-13
  35. 解读今日开放-封闭性能差距 研究 · Interconnects · 05-12
  36. 蒸馏恐慌 对话 · Interconnects · 05-12
  37. 我一直在做的事:ATOM报告、后训练课程、完成书籍与持续研究 研究 · Interconnects · 05-12
  38. Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点 研究 · Import AI · 05-12
  39. AWS 上基础模型训练与推理的构建模块 工程 · HF Blog · 05-12
  40. Flow-OPD:流匹配模型的在策略蒸馏 研究 · HF Papers · 05-12
  41. 自动扩缩 Autoresearch:在 Modal 上为你的 agents 提供弹性 GPU 工程 · Modal · 05-09
  42. 教 Claude 理解为什么 研究 · Anthropic Research · 05-09
  43. MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
  44. wanshuiyin/睡眠中自动 Claude Code 研究 工程 · GitHub · 05-08
  45. 模型量化:使用 NVIDIA Model Optimizer 进行训练后量化 工程 · NVIDIA Developer · 05-08
  46. 综述梳理 MOPD 在近期 LLM 后训练中的应用 研究 · X · 05-07
  47. NVIDIA 机器人实验室发布 GR00T、Dreams、SONIC 等成果 产品 · X · 05-07
  48. DreamDojo 开源基于人类视频的机器人 world model 产品 · X · 05-07
  49. 生成、过滤、控制、回放:LLM 强化学习 rollout 策略全面综述 研究 · HF Papers · 05-07
  50. 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
  51. MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2 Allen AI · 05-06
  52. Themis:训练鲁棒的多语言代码奖励模型,用于灵活的多标准评分 HF Papers · 05-04
  53. 边部署边学习:面向通用机器人策略的机群规模强化学习 HF Papers · 05-04
  54. Qwen3.6-27B-FP8 产品 · Qwen · 05-03
  55. Together AI 与 Adaption 建立合作伙伴关系 Together AI · 05-03
  56. Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_50 产品 · Qwen · 05-03
  57. Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_100 研究 · Qwen · 05-03
  58. Qwen3.6-27B 产品 · Qwen · 05-03
  59. Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W32K-L0_50 产品 · Qwen · 05-03
  60. Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
  61. Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
  62. SAE-Res-Qwen3.5-2B-Base-W32K-L0_50 工程 · Qwen · 05-03
  63. SAE-Res-Qwen3-1.7B-Base-W32K-L0_50 产品 · Qwen · 05-03
  64. SAE-Res-Qwen3-1.7B-Base-W32K-L0_100 产品 · Qwen · 05-03
  65. SAE-Res-Qwen3.5-2B-Base-W32K-L0_100 研究 · Qwen · 05-03
  66. Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50 研究 · Qwen · 05-03
  67. Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100 研究 · Qwen · 05-03
  68. SAE-Res-Qwen3-8B-Base-W64K-L0_50 研究 · Qwen · 05-03
  69. SAE-Res-Qwen3-8B-Base-W64K-L0_100 工程 · Qwen · 05-03
  70. Qwen/SAE-Res-Qwen3-30B-A3B-Base-W32K-L0_50 研究 · Qwen · 05-03
  71. NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
  72. 通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts HF Papers · 05-03
  73. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  74. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  75. 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
  76. 用分布感知 speculative decoding 将 RL rollouts 加速最高 50% Together AI · 05-03
  77. Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
  78. 分别训练,合并到一起:基于 mixture-of-experts 的模块化 post-training Allen AI · 05-03
  79. Coding Agent 的组成部分 Sebastian Raschka · 05-03
  80. SWE-Check:Bug 检测快 10 倍 Cognition · 05-03
  81. 介绍 talkie:来自 1930 年的 13B 复古语言模型 Simon Willison · 05-03
  82. 用于视觉生成的表征 Fréchet Loss HF Papers · 05-01
  83. 协同演化的策略蒸馏 HF Papers · 05-01
  84. 新时代的视觉生成:从原子映射到 Agentic 世界建模的演进 HF Papers · 05-01
  85. 大语言模型中的情感概念及其功能 Anthropic Research · 04-30