实録译稿 社区 24h

术语频次

封存归档

SFT

▃█▆▇ · 105 次 · 收录于 41 篇

Supervised Fine-Tuning · 监督微调

  1. BitCPM-CANN-0.5B-unquantized 工程 · OpenBMB · 05-24
  2. BitCPM-CANN-1B-未量化 工程 · OpenBMB · 05-24
  3. BitCPM-CANN-3B-unquantized 工程 · OpenBMB · 05-24
  4. BitCPM-CANN-8B-未量化 工程 · OpenBMB · 05-24
  5. Nemotron-Labs 扩散语言模型实现光速级文本生成 产品 · HF Blog · 05-23
  6. 专业化胜过规模化:多数AI采购决策忽视的战略变量 研究 · HF Blog · 05-22
  7. Mega-ASR:通过扩展真实世界声学模拟实现野外²语音识别 研究 · HF Papers · 05-21
  8. 用 Amazon Nova 2 提示词做内容审核 工程 · AWS ML · 05-19
  9. 通过简单统一缩放实现金牌级奥赛推理 研究 · HF Papers · 05-15
  10. Qwen3-TTS:低成本、高性能文本转语音 工程 · Baseten · 05-15
  11. AWS 上基础模型训练与推理的构建模块 工程 · HF Blog · 05-12
  12. MiniCPM-V-4.6-gguf 工程 · OpenBMB · 05-12
  13. MiniCPM-V-4.6-Thinking-gguf 产品 · OpenBMB · 05-11
  14. MiniCPM-V-4.6-Thinking 产品 · OpenBMB · 05-11
  15. MiniCPM-V-4.6-AWQ 产品 · OpenBMB · 05-11
  16. MiniCPM-V-4.6-BNB 产品 · OpenBMB · 05-11
  17. MiniCPM-V-4.6-GPTQ 产品 · OpenBMB · 05-11
  18. MiniCPM-V-4.6-Thinking-AWQ 产品 · OpenBMB · 05-11
  19. MiniCPM-V-4.6-Thinking-GPTQ 产品 · OpenBMB · 05-11
  20. MiniCPM-V-4.6-Thinking-BNB 产品 · OpenBMB · 05-11
  21. OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架 研究 · HF Blog · 05-10
  22. 自适应并行推理:高效推理扩展的下一范式 研究 · BAIR · 05-09
  23. 在 Modal 上构建 RL 定理证明工作流 工程 · Modal · 05-09
  24. CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型 产品 · HF Blog · 05-09
  25. rohitg00/从零开始的 AI 工程 工程 · GitHub · 05-08
  26. SciCore-Mol 研究 · OpenBMB · 05-07
  27. 综述梳理 MOPD 在近期 LLM 后训练中的应用 研究 · X · 05-07
  28. D-OPSD:用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏 研究 · HF Papers · 05-07
  29. OpenSearch-VL:面向前沿多模态搜索 agent 的开放方案 研究 · HF Papers · 05-07
  30. OpenSeeker-v2:用信息量高且高难度的轨迹推动搜索 agent 的极限 HF Papers · 05-06
  31. 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐 HF Papers · 05-06
  32. NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能 HF Blog · 05-03
  33. deepseek-ai/DeepSeek-V4-Pro 产品 · DeepSeek · 05-03
  34. deepseek-ai/DeepSeek-V4-Flash 产品 · DeepSeek · 05-03
  35. 使用端到端 FP8 精度运行高吞吐量强化学习训练 NVIDIA Developer · 05-03
  36. AutoAdapt:大语言模型的自动化领域适应 MS Research · 05-03
  37. 介绍 talkie:来自 1930 年的 13B 复古语言模型 Simon Willison · 05-03
  38. PhyCo:学习用于生成式运动的可控物理先验 HF Papers · 05-01
  39. 在图像编辑中利用基于 Verifier 的强化学习 HF Papers · 05-01
  40. 哥布林从何而来 OpenAI · 04-30
  41. ClawGym:用于构建有效 Claw agent 的可扩展框架 HF Papers · 04-30