词
历post-training
后训练 · 预训练之后的微调 / 对齐阶段总称
- BitCPM-CANN-1B
- BitCPM-CANN-3B
- BitCPM-CANN-8B
- BitCPM-CANN-0.5B
- BitCPM-CANN-1B-gguf
- BitCPM-CANN-0.5B-gguf
- BitCPM-CANN-3B-gguf
- BitCPM-CANN-0.5B-unquantized
- BitCPM-CANN-1B-未量化
- BitCPM-CANN-3B-unquantized
- BitCPM-CANN-8B-gguf
- BitCPM-CANN-8B-未量化
- Nemotron-Labs 扩散语言模型实现光速级文本生成
- BitCPM4-CANN-0.5B-gguf
- BitCPM4-CANN-1B-gguf
- BitCPM4-CANN-3B-gguf
- BitCPM4-CANN-8B-gguf
- 在应用计算中扩展强化学习
- 用 Amazon Nova 2 提示词做内容审核
- 使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频
- VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练
- BitCPM4-CANN-0.5B
- BitCPM4-CANN-1B
- BitCPM4-CANN-3B
- BitCPM4-CANN-0.5B-未量化
- BitCPM4-CANN-1B-未量化
- BitCPM4-CANN-3B-未量化
- BitCPM4-CANN-8B-未量化
- BitCPM4-CANN-8B
- LLM架构最新进展:KV共享、mHC与压缩注意力
- UKAISI 亮相 NeurIPS 2025
- MinT:训练与服务百万级LLM的托管基础设施
- AI模型如何说服?通过大规模实验探索AI说服的杠杆
- SenseNova-U1:基于NEO-unify架构统一多模态理解与生成
- 解读今日开放-封闭性能差距
- 蒸馏恐慌
- 我一直在做的事:ATOM报告、后训练课程、完成书籍与持续研究
- Import AI 453:破解AI智能体;MirrorCode;以及关于渐进式失能的十种观点
- AWS 上基础模型训练与推理的构建模块
- Flow-OPD:流匹配模型的在策略蒸馏
- 自动扩缩 Autoresearch:在 Modal 上为你的 agents 提供弹性 GPU
- 教 Claude 理解为什么
- MiniCPM-V-4_5-GPTQ
- wanshuiyin/睡眠中自动 Claude Code 研究
- 模型量化:使用 NVIDIA Model Optimizer 进行训练后量化
- 综述梳理 MOPD 在近期 LLM 后训练中的应用
- NVIDIA 机器人实验室发布 GR00T、Dreams、SONIC 等成果
- DreamDojo 开源基于人类视频的机器人 world model
- 生成、过滤、控制、回放:LLM 强化学习 rollout 策略全面综述
- 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐
- MolmoAct 2:面向现实世界机器人工作的开放基础 | Ai2
- Themis:训练鲁棒的多语言代码奖励模型,用于灵活的多标准评分
- 边部署边学习:面向通用机器人策略的机群规模强化学习
- Qwen3.6-27B-FP8
- Together AI 与 Adaption 建立合作伙伴关系
- Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_50
- Qwen/SAE-Res-Qwen3.5-9B-Base-W64K-L0_100
- Qwen3.6-27B
- Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W32K-L0_50
- Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100
- Qwen/SAE-Res-Qwen3-30B-A3B-Base-W128K-L0_100
- SAE-Res-Qwen3.5-2B-Base-W32K-L0_50
- SAE-Res-Qwen3-1.7B-Base-W32K-L0_50
- SAE-Res-Qwen3-1.7B-Base-W32K-L0_100
- SAE-Res-Qwen3.5-2B-Base-W32K-L0_100
- Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_50
- Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100
- SAE-Res-Qwen3-8B-Base-W64K-L0_50
- SAE-Res-Qwen3-8B-Base-W64K-L0_100
- Qwen/SAE-Res-Qwen3-30B-A3B-Base-W32K-L0_50
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- 通过系统集成式 Speculative Decoding 加速 RL 后训练 Rollouts
- deepseek-ai/DeepSeek-V4-Pro
- deepseek-ai/DeepSeek-V4-Flash
- 用 vLLM 运行基于 NVIDIA Nemotron 3 Nano Omni 的高效多模态 agentic AI
- 用分布感知 speculative decoding 将 RL rollouts 加速最高 50%
- Together AI 首日向开发者提供 NVIDIA Nemotron 3 Nano Omni
- 分别训练,合并到一起:基于 mixture-of-experts 的模块化 post-training
- Coding Agent 的组成部分
- SWE-Check:Bug 检测快 10 倍
- 介绍 talkie:来自 1930 年的 13B 复古语言模型
- 用于视觉生成的表征 Fréchet Loss
- 协同演化的策略蒸馏
- 新时代的视觉生成:从原子映射到 Agentic 世界建模的演进
- 大语言模型中的情感概念及其功能