録实録译稿议社区 24h

词术语频次

历封存归档

post-training

█▅▆▆ · 139 次 · 收录于 85 篇

后训练 · 预训练之后的微调 / 对齐阶段总称

BitCPM-CANN-1B 工程 · OpenBMB · 05-24
BitCPM-CANN-3B 工程 · OpenBMB · 05-24
BitCPM-CANN-8B 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B 工程 · OpenBMB · 05-24
BitCPM-CANN-1B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-3B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-0.5B-unquantized 工程 · OpenBMB · 05-24
BitCPM-CANN-1B-未量化工程 · OpenBMB · 05-24
BitCPM-CANN-3B-unquantized 工程 · OpenBMB · 05-24
BitCPM-CANN-8B-gguf 研究 · OpenBMB · 05-24
BitCPM-CANN-8B-未量化工程 · OpenBMB · 05-24
Nemotron-Labs 扩散语言模型实现光速级文本生成产品 · HF Blog · 05-23
BitCPM4-CANN-0.5B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-1B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-3B-gguf 研究 · OpenBMB · 05-22
BitCPM4-CANN-8B-gguf 研究 · OpenBMB · 05-22
在应用计算中扩展强化学习工程 · Modal · 05-21
用 Amazon Nova 2 提示词做内容审核工程 · AWS ML · 05-19
使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频工程 · HF Blog · 05-19
VeRL-Omni 发布：扩散与全模态模型的简易、快速、稳定 RL 训练工程 · vLLM · 05-18
BitCPM4-CANN-0.5B 工程 · OpenBMB · 05-18
BitCPM4-CANN-1B 工程 · OpenBMB · 05-18
BitCPM4-CANN-3B 工程 · OpenBMB · 05-18
BitCPM4-CANN-0.5B-未量化产品 · OpenBMB · 05-18
BitCPM4-CANN-1B-未量化产品 · OpenBMB · 05-18
BitCPM4-CANN-3B-未量化工程 · OpenBMB · 05-18
BitCPM4-CANN-8B-未量化工程 · OpenBMB · 05-18
BitCPM4-CANN-8B 研究 · OpenBMB · 05-18
LLM架构最新进展：KV共享、mHC与压缩注意力研究 · Sebastian Raschka · 05-17
UKAISI 亮相 NeurIPS 2025 研究 · UK AISI · 05-15
MinT：训练与服务百万级LLM的托管基础设施研究 · HF Papers · 05-14
AI模型如何说服？通过大规模实验探索AI说服的杠杆研究 · UK AISI · 05-14
SenseNova-U1：基于NEO-unify架构统一多模态理解与生成研究 · HF Papers · 05-13
解读今日开放-封闭性能差距研究 · Interconnects · 05-12
蒸馏恐慌对话 · Interconnects · 05-12
我一直在做的事：ATOM报告、后训练课程、完成书籍与持续研究研究 · Interconnects · 05-12
Import AI 453：破解AI智能体；MirrorCode；以及关于渐进式失能的十种观点研究 · Import AI · 05-12
AWS 上基础模型训练与推理的构建模块工程 · HF Blog · 05-12
Flow-OPD：流匹配模型的在策略蒸馏研究 · HF Papers · 05-12
自动扩缩 Autoresearch：在 Modal 上为你的 agents 提供弹性 GPU 工程 · Modal · 05-09
教 Claude 理解为什么研究 · Anthropic Research · 05-09
MiniCPM-V-4_5-GPTQ 产品 · OpenBMB · 05-08
wanshuiyin/睡眠中自动 Claude Code 研究工程 · GitHub · 05-08
模型量化：使用 NVIDIA Model Optimizer 进行训练后量化工程 · NVIDIA Developer · 05-08
综述梳理 MOPD 在近期 LLM 后训练中的应用研究 · X · 05-07
NVIDIA 机器人实验室发布 GR00T、Dreams、SONIC 等成果产品 · X · 05-07
DreamDojo 开源基于人类视频的机器人 world model 产品 · X · 05-07
生成、过滤、控制、回放：LLM 强化学习 rollout 策略全面综述研究 · HF Papers · 05-07
超越 SFT-to-RL：通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
MolmoAct 2：面向现实世界机器人工作的开放基础 | Ai2 Allen AI · 05-06
Themis：训练鲁棒的多语言代码奖励模型，用于灵活的多标准评分 HF Papers · 05-04
边部署边学习：面向通用机器人策略的机群规模强化学习 HF Papers · 05-04
Qwen3.6-27B-FP8 产品 · Qwen · 05-03
Together AI 与 Adaption 建立合作伙伴关系 Together AI · 05-03
Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_50 产品 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_100 研究 · Qwen · 05-03
Qwen3.6-27B 产品 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W32K-L0_50 产品 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100 研究 · Qwen · 05-03
SAE-Res-Qwen3.5-2B-Base-W32K-L0_50 工程 · Qwen · 05-03
SAE-Res-Qwen3-1.7B-Base-W32K-L0_50 产品 · Qwen · 05-03
SAE-Res-Qwen3-1.7B-Base-W32K-L0_100 产品 · Qwen · 05-03
SAE-Res-Qwen3.5-2B-Base-W32K-L0_100 研究 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50 研究 · Qwen · 05-03
Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100 研究 · Qwen · 05-03
SAE-Res-Qwen3-8B-Base-W64K-L0_50 研究 · Qwen · 05-03
SAE-Res-Qwen3-8B-Base-W64K-L0_100 工程 · Qwen · 05-03
Qwen/SAE-Res-Qwen3-30B-A3B-Base-W32K-L0_50 研究 · Qwen · 05-03
NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts HF Papers · 05-03
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI vLLM · 05-03
用分布感知 speculative decoding 将 RL rollouts 加速最高 50% Together AI · 05-03
Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni 产品 · Together AI · 05-03
分别训练，合并到一起：基于 mixture-of-experts 的模块化 post-training Allen AI · 05-03
Coding Agent 的组成部分 Sebastian Raschka · 05-03
SWE-Check：Bug 检测快 10 倍 Cognition · 05-03
介绍 talkie：来自 1930 年的 13B 复古语言模型 Simon Willison · 05-03
用于视觉生成的表征 Fréchet Loss HF Papers · 05-01
协同演化的策略蒸馏 HF Papers · 05-01
新时代的视觉生成：从原子映射到 Agentic 世界建模的演进 HF Papers · 05-01
大语言模型中的情感概念及其功能 Anthropic Research · 04-30