録实録译稿议社区 24h

词术语频次

历封存归档

SFT

▃█▆▇ · 105 次 · 收录于 41 篇

Supervised Fine-Tuning · 监督微调

BitCPM-CANN-0.5B-unquantized 工程 · OpenBMB · 05-24
BitCPM-CANN-1B-未量化工程 · OpenBMB · 05-24
BitCPM-CANN-3B-unquantized 工程 · OpenBMB · 05-24
BitCPM-CANN-8B-未量化工程 · OpenBMB · 05-24
Nemotron-Labs 扩散语言模型实现光速级文本生成产品 · HF Blog · 05-23
专业化胜过规模化：多数AI采购决策忽视的战略变量研究 · HF Blog · 05-22
Mega-ASR：通过扩展真实世界声学模拟实现野外²语音识别研究 · HF Papers · 05-21
用 Amazon Nova 2 提示词做内容审核工程 · AWS ML · 05-19
通过简单统一缩放实现金牌级奥赛推理研究 · HF Papers · 05-15
Qwen3-TTS：低成本、高性能文本转语音工程 · Baseten · 05-15
AWS 上基础模型训练与推理的构建模块工程 · HF Blog · 05-12
MiniCPM-V-4.6-gguf 工程 · OpenBMB · 05-12
MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-AWQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-BNB 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-GPTQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
OncoAgent：用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架研究 · HF Blog · 05-10
自适应并行推理：高效推理扩展的下一范式研究 · BAIR · 05-09
在 Modal 上构建 RL 定理证明工作流工程 · Modal · 05-09
CyberSecQwen-4B：为什么防御性网络安全需要小型、专用、可本地运行的模型产品 · HF Blog · 05-09
rohitg00/从零开始的 AI 工程工程 · GitHub · 05-08
SciCore-Mol 研究 · OpenBMB · 05-07
综述梳理 MOPD 在近期 LLM 后训练中的应用研究 · X · 05-07
D-OPSD：用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏研究 · HF Papers · 05-07
OpenSearch-VL：面向前沿多模态搜索 agent 的开放方案研究 · HF Papers · 05-07
OpenSeeker-v2：用信息量高且高难度的轨迹推动搜索 agent 的极限 HF Papers · 05-06
超越 SFT-to-RL：通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
NVIDIA Nemotron 3 Nano Omni：面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
使用端到端 FP8 精度运行高吞吐量强化学习训练 NVIDIA Developer · 05-03
AutoAdapt：大语言模型的自动化领域适应 MS Research · 05-03
介绍 talkie：来自 1930 年的 13B 复古语言模型 Simon Willison · 05-03
PhyCo：学习用于生成式运动的可控物理先验 HF Papers · 05-01
在图像编辑中利用基于 Verifier 的强化学习 HF Papers · 05-01
哥布林从何而来 OpenAI · 04-30
ClawGym：用于构建有效 Claw agent 的可扩展框架 HF Papers · 04-30