词
历SFT
Supervised Fine-Tuning · 监督微调
- BitCPM-CANN-0.5B-unquantized
- BitCPM-CANN-1B-未量化
- BitCPM-CANN-3B-unquantized
- BitCPM-CANN-8B-未量化
- Nemotron-Labs 扩散语言模型实现光速级文本生成
- 专业化胜过规模化:多数AI采购决策忽视的战略变量
- Mega-ASR:通过扩展真实世界声学模拟实现野外²语音识别
- 用 Amazon Nova 2 提示词做内容审核
- 通过简单统一缩放实现金牌级奥赛推理
- Qwen3-TTS:低成本、高性能文本转语音
- AWS 上基础模型训练与推理的构建模块
- MiniCPM-V-4.6-gguf
- MiniCPM-V-4.6-Thinking-gguf
- MiniCPM-V-4.6-Thinking
- MiniCPM-V-4.6-AWQ
- MiniCPM-V-4.6-BNB
- MiniCPM-V-4.6-GPTQ
- MiniCPM-V-4.6-Thinking-AWQ
- MiniCPM-V-4.6-Thinking-GPTQ
- MiniCPM-V-4.6-Thinking-BNB
- OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架
- 自适应并行推理:高效推理扩展的下一范式
- 在 Modal 上构建 RL 定理证明工作流
- CyberSecQwen-4B:为什么防御性网络安全需要小型、专用、可本地运行的模型
- rohitg00/从零开始的 AI 工程
- SciCore-Mol
- 综述梳理 MOPD 在近期 LLM 后训练中的应用
- D-OPSD:用于持续调优步蒸馏扩散模型的 On-Policy 自蒸馏
- OpenSearch-VL:面向前沿多模态搜索 agent 的开放方案
- OpenSeeker-v2:用信息量高且高难度的轨迹推动搜索 agent 的极限
- 超越 SFT-to-RL:通过 Black-Box On-Policy Distillation 进行多模态 RL 的预对齐
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- deepseek-ai/DeepSeek-V4-Pro
- deepseek-ai/DeepSeek-V4-Flash
- 使用端到端 FP8 精度运行高吞吐量强化学习训练
- AutoAdapt:大语言模型的自动化领域适应
- 介绍 talkie:来自 1930 年的 13B 复古语言模型
- PhyCo:学习用于生成式运动的可控物理先验
- 在图像编辑中利用基于 Verifier 的强化学习
- 哥布林从何而来
- ClawGym:用于构建有效 Claw agent 的可扩展框架