AWS · ML 博客

Amazon Nova Forge 超参数优化的艺术与科学

The art and science of hyperparameter optimization on Amazon Nova Forge

二〇二六年六月二日 · 英文原文

Amazon Nova Forge 允许用户使用专有数据与精选数据集混合,在AWS上安全地定制LLM,以平衡领域性能与通用能力。其定制管道包含持续预训练(CPT)、监督微调(SFT)和强化微调(RFT),每个阶段均可选。关键超参数包括学习率、数据混合比例、检查点选择和训练模式(LoRA vs 全秩)。实验显示,在MedReason和LLaVA-CoT基准上,使用默认学习率1e-5和LoRA rank 64可分别提升目标性能10.75%和322%。常见陷阱包括跳过SFT直接使用RFT、偏离默认学习率及低质量奖励函数。

大规模语言模型(LLM)定制中的超参数调优:平衡领域性能与通用能力

大规模语言模型(LLM)在通用任务上表现出色,但在需要理解专有数据、内部流程或领域特定术语的专业工作中往往力不从心。Amazon Nova Forge 通过让您使用 Amazon Nova 构建自己的前沿模型来解决这一问题。您可以从早期模型检查点开始开发,将专有数据与 Amazon Nova 精选的训练数据混合,并在 AWS 上安全地托管自定义模型。其关键能力是数据混合(data mixing),它将您的训练数据与精选数据集融合。这有助于模型吸收您的领域知识,同时保留广泛的推理、指令遵循和语言能力。这防止了通常破坏领域定制的灾难性遗忘(catastrophic forgetting)。

成功的定制需要仔细的超参数调优。学习率、数据混合比例、检查点选择和训练技术都会以可能悄然破坏训练过程的方式相互影响。如果其中任何一项出错,您就会用一个问题换取另一个问题。本文涵盖了在 Amazon Nova Forge 上进行超参数调优的艺术(战略权衡)和科学(指标驱动决策),以帮助您避免代价高昂的失败训练运行。

针对特定领域任务进行微调意味着在提升某一领域性能的同时不降低模型的通用能力,而实现这种平衡比看起来要困难得多。本文将引导您如何驾驭这种平衡,从为您的数据和任务选择正确的定制策略,到配置对结果影响最大的训练参数(如学习率、批大小和检查点)。我们还将介绍导致训练浪费的常见错误以及如何及早发现它们,这样您就可以在不降低通用能力或浪费算力于可避免的失败的情况下提升领域性能。最后,您将了解如何在不降低通用能力的情况下提升领域性能,以及如何避免因平衡失当而导致的代价高昂的失败。

超参数调优的挑战

实现这种平衡比看起来更难。三个基本挑战使得领域专用模型的超参数调优尤其困难。

挑战 1:灾难性遗忘

当您在狭窄的领域数据上训练模型时,模型可能会覆盖其在预训练期间学到的通用能力。这种现象称为灾难性遗忘,表现为在训练领域之外的任务上性能下降。模型变得高度专业化,但失去了指令遵循能力、推理能力和广泛知识。在生产环境中,这意味着在您的支持工单上微调过的客服模型可能无法再推理模糊的请求或维持连贯的多轮对话。

这就产生了稳定性-灵活性权衡。理想情况下,模型应足够灵活以学习组织的领域知识,但又足够稳定以保留通用能力。Nova Forge 通过数据混合(在训练期间将您的训练数据与精选数据集混合)和检查点选择(让您选择保留多少现有对齐)来解决这一问题。

挑战 2:找到合适的学习率

学习率控制模型权重对每批训练示例的响应变化程度。它是所有定制技术中最敏感的超参数。学习率过高会导致模型超出最优状态,在训练期间不稳定,或快速遗忘基础能力。学习率过低则会在非常缓慢的收敛上浪费算力。正确的值取决于您的数据分布、混合比例和训练技术。

Nova Forge 为每种训练技术提供了校准的服务默认值,这些默认值考虑了这些相互作用。当您使用数据混合时,敏感性会进一步增加。在混合 Nova 数据与您自己的数据时偏离默认学习率是训练不稳定的最常见来源,因此这些服务默认值是推荐的起点。

挑战 3:基线性能约束

强化微调(RFT)是一种通过生成多个候选响应并根据质量标准对其进行评分来改进模型行为的技术。模型通过比较自己的输出并强化较好的输出来学习。RFT 在特定范围的基线任务准确率内发挥其全部能力,该准确率通过模型在微调前产生正确或高质量响应的频率来衡量。如果基线准确率太低(模型很少产生正确响应),就没有足够的好示例供奖励引导的探索学习。如果基线准确率已经很高,额外的训练会产生递减的回报,并有可能降低现有性能。

这意味着 RFT 无法弥合模型从根本上缺乏尝试任务所需知识或推理能力的大能力差距。它改进和强化模型已经能够部分展示的行为,而不是从头开始教授全新的能力。Nova Forge 管道解决了这两个边界问题。对于低基线场景,首先运行监督微调(SFT)以建立有效奖励学习所需的基础能力。对于高基线任务,请确保您的奖励函数在模型的质量范围内具有区分能力。如果大多数响应已经得分很高,RFT 就没有有意义的信号可以优化。

Nova Forge 定制管道

理解这些挑战有助于理解 Amazon Nova Forge 定制管道是如何设计来解决它们的。Nova Forge 提供了三种互补的定制技术,每种技术在模型开发生命周期中都有不同的用途。

技术 作用 何时使用 输入数据
持续预训练(CPT) 通过自监督学习在大量未标记的领域特定专有数据上扩展基础模型(FM)知识。CPT 教会模型来自您的文本语料的领域术语和模式。 您需要模型理解基础模型中不存在的专业词汇、行业概念或组织知识。 大量未标记的领域文本。Nova Forge 支持带数据混合的 CPT 和三种检查点选项(预训练、中间训练和后训练),每种适用于不同的数据规模和下游需求。
监督微调(SFT) 使用针对您的目标任务特定的输入-输出对训练数据集来定制模型行为。SFT 通过演示教会模型“给定 X,输出 Y”的行为。 您需要模型遵循特定的响应格式、采用特定的语气或执行结构化任务(如分类或提取)。 每个任务 1,000–10,000 个高质量演示。质量、一致性和多样性比数量更重要。Nova Forge 支持使用 Amazon Nova 精选数据集进行 SFT 数据混合,包括保留通用能力的推理-指令遵循类别。
强化微调(RFT) 使用奖励信号将模型输出引导至首选结果。RFT 在先前训练建立的邻域内优化模型,适用于单轮或多轮对话任务。 您有一个可以评估响应质量的清晰奖励函数,并希望将性能推至超过仅 SFT 所能达到的水平。 提示和奖励函数。Nova Forge 支持通过 AWS Lambda 引入您自己的外部奖励环境,实现针对领域特定质量评估的自定义验证逻辑。

当三个阶段一起使用时(CPT,然后 SFT,然后 RFT),它们会产生最强的结果。然而,通过合适的管道,每个阶段都可以是可选的。这取决于您的数据可用性、任务类型和起点。只有当基础模型缺乏您的任务所需的领域词汇或知识时才需要 CPT。SFT 和 RFT 可以独立使用或根据任务需求组合使用。

图 1:Amazon Nova Forge 定制管道。 CPT 从未标记文本中教授领域知识,SFT 从演示中教授任务特定行为,RFT 使用奖励信号优化性能。每个阶段都是可选的,当所有三个阶段都适用于您的用例时,完整管道(CPT,然后 SFT,然后 RFT)会产生最强的结果。

Amazon SageMaker AI 为定制提供了不同的环境:SageMaker Serverless 提供 UI 驱动的体验并自动配置计算资源,SageMaker AI 训练作业(SMTJ)提供完全托管的体验而无需集群管理,而 Amazon SageMaker HyperPod 则为高级分布式训练场景提供专门环境。

战略决策

了解了定制管道后,下一步是理解塑造您配置的定性权衡。这些战略决策与任何单个超参数值同样重要:检查点选择、数据混合和训练模式。

检查点选择(影响最大的决策)

对于 CPT,检查点选择比任何超参数都更具影响力。Amazon Nova Forge 提供了三种检查点选项,每种适用于不同的数据规模和下游需求。

图 2:持续预训练的检查点选择。 预训练检查点为大型数据集提供最大灵活性,但之后需要 SFT 来恢复指令遵循能力。后训练检查点保留对齐,适用于小型数据集或参数高效方法(如 LoRA)。

数据混合策略

如果没有数据混合,在狭窄的领域数据上训练可能会导致模型变得不稳定,导致训练行为异常(梯度不稳定或损失尖峰)或性能突然下降。在配置数据混合时,对于大多数用例,将您的客户数据平衡到总混合的大约 50%。对于 SFT,始终在您的 Nova 数据混合中包含“推理-指令遵循”类别。这一单一类别在微调后显著提高了通用基准性能。跳过此类别是微调模型推理性能下降的常见原因。

数据混合对学习率非常敏感。在使用数据混合时偏离默认学习率会导致不稳定。这是从业者最常犯的错误。如果您在使用数据混合时观察到训练不稳定,学习率是首要怀疑对象。找到最佳混合比例需要实验。保持您的领域数据不变,并在多次运行中改变 Nova 数据的比例。领域性能通常保持不变,而混合的 Nova 数据越多,通用能力会持续改善。将您最高质量的数据放在训练末尾,以获得更好的收敛效果。

训练模式:低秩适应(LoRA)与全秩

Amazon Nova Forge 支持两种训练模式,决定训练期间如何更新模型参数:

从 LoRA 开始验证您的管道、数据质量和奖励函数(对于 RFT)。当您确认方法有效并且您的生产需求证明其合理时(例如,模型性能或成本约束),再升级到全秩。

推荐工作流程

将这些战略决策应用于您的具体情况取决于您拥有的数据和目标。以下路径将您的起始条件映射到正确的技术序列。

如果您有标记的演示和可验证的奖励函数(SFT 然后 RFT):

从使用 LoRA 的 SFT 开始,以教授目标行为并建立基线能力。启用数据混合,并包含“推理-指令遵循”类别,以在领域适应期间保留模型遵循结构化提示和产生格式良好输出的能力。使用默认学习率,不做修改。监控验证损失以选择最佳的 SFT 检查点。在 SFT 检查点上升级到 RFT,通过奖励信号进一步优化。仅在用 LoRA 验证方法后才考虑全秩训练。在生产部署前,在您的领域任务和通用基准上彻底测试(参见实验与见解部分中的示例)。

如果您可以定义可验证的结果但无法轻松大规模标记响应(仅 RFT):

首先在代表性任务样本上评估基础模型性能。如果基础模型获得超过约 5% 的正奖励,则直接进行 RFT。如果奖励分数持续接近零,则回退到 SFT。模型需要基线能力,奖励引导的学习才能生效。

如果基础模型缺乏您的任务所需的领域词汇或知识,从 CPT 开始:

运行 CPT 从未标记文本中吸收领域知识。然后进行 SFT。用于 CPT 的预训练检查点没有指令调优,因此 CPT 后需要 SFT 才能使模型有用。可选地,再进行 RFT 以进一步优化性能。

参数配置

做出战略决策后,您现在可以优化控制每种技术执行方式的具体超参数。本节为每种技术提供指导。

学习率配置

学习率控制模型基于训练信号更新的速度。服务默认值代表了经过测试的配置,适用于各种用例。

批大小和训练时长

批大小(由 global_batch_size 控制)是所有训练方法(CPT、SFT、RFT)和所有环境(SageMaker Serverless、SMTJ、HyperPod)的批参数。它定义了每个优化器步骤处理的训练样本数量。对于 CPT 和 SFT,这很简单,一个样本等于一个输入-输出对(SFT)或一个 token 序列(CPT)。

RFT 引入了一个额外的参数 number_generation,它控制每个提示生成多少个候选响应用于奖励评分。此参数在 CPT 或 SFT 配方中不存在,因为这些方法直接在提供的输入-输出对上训练,而不是生成候选。

当存在生成数量参数时,批大小语义在不同环境之间有所不同。搞错这一点会导致意外行为。

对于 CPT,目标是每个步骤 200 万到 2000 万 token。对于大型 token 预算使用 2000 万,对于较小预算使用 200 万。将全局批大小计算为每个步骤的 token 数除以最大序列长度的最接近的 2 的幂。例如,每个步骤 400 万 token,序列长度为 4096,产生的批大小约为 1024。较小的批大小会产生更嘈杂的梯度,这有助于泛化并实现更快的迭代。较大的批大小产生更平滑的梯度,但可能会过度平滑领域特定信号。从适中的批大小开始以保持稳定性。

将您的最大序列长度与您的数据分布匹配。不要超过您的数据所需。较小的上下文长度会增加 token 吞吐量并降低训练成本。对于 CPT,最多处理数据集的一个 epoch。避免重复数据,因为在有限的 CPT 数据上进行多个 epoch 会导致过拟合和通用能力丧失。监控验证损失以跟踪进度。

对于 SFT,全秩训练通常比 LoRA 需要更少的 epoch。LoRA 训练可以容忍稍多的 epoch。监控验证损失以检测过拟合并选择最佳检查点。

RFT 特定参数

RFT 引入了 CPT 或 SFT 中不存在的额外参数。

请记住,批大小语义在不同平台之间有所不同。在 SMTJ 上,global_batch_size 表示每个步骤的提示数,每个提示生成 N 个候选。在 SageMaker HyperPod 上,global_batch_size 表示总样本数(提示数乘以生成数)。在环境之间小心转换。

正则化参数

正则化参数有助于防止过拟合,尤其是在较小的数据集上。

实验与见解

考虑到这些超参数,我们使用 Amazon Nova 2.0 在包括 CoCoHD、MedReason 和 LLaVA-CoT 在内的公共基准上运行了一系列 HPO 实验。下表总结了每个参数扫描的实验配置和关键发现。

数据集 Rank Alpha GBS LR 最大步数 预热 基础目标性能 SFT 目标性能 Rank 性能差异
MedReason 32 64 32 1.00E-05 312 47 57.38% 63.54% 2
MedReason 64 64 32 1.00E-05 312 47 57.38% 63.78% 1
MedReason 32 64 32 5.00E-06 312 47 57.38% 63.33%
MedReason 32 64 32 1.00E-05 624 94 57.38% 61.42%
LLavaCOT 64 64 32 1.00E-05 312 47 16.22% 68.47% 1
LLavaCOT 32 128 32 1.00E-05 312 47 16.22% 65.77% 2

我们在 Amazon Nova 2 Lite 上使用 Nova Forge 运行了 LoRA SFT,rank 为 32,alpha 为 64,批大小为 32,15% 预热,1 个 epoch,仅扫描学习率以隔离其对目标准确率的影响。服务默认值 1e-5 产生了最佳结果,为 63.54%,比 v4 基础提升了 10.75%。将学习率降至 5e-6 对目标性能产生了不利影响,而没有有意义地保护通用能力,因为 MMLU、IFEval 和 GPQA 分数与 1e-5 运行的噪声水平相当。在相同学习率下将 epoch 加倍至 2 个,准确率降至 61.42%,证实了在狭窄领域数据上过度训练会侵蚀领域和通用性能。

我们在一个多模态推理任务上变化了 LoRA rank(32 vs 64)和 alpha(64 vs 128),该任务的基础模型起始准确率仅为 16.22%。最佳配置,rank 64 和 alpha 64,将准确率提升至 68.47%,相对于基础提升了 322%。在 rank 32 下将 alpha 加倍至 128 产生了类似的目标增益,为 65.77%,但通用能力回归成本显著更高。对于基线准确率较低的任务,增加 rank 是比增加 alpha 更高杠杆的调整。只有在 LoRA 适应不足时才应增加 alpha,如果模型失去通用能力则应减少 alpha。

没有单个超参数配置对所有用例都最佳。这些推荐的默认值是强有力的起点,而不是最佳性能的保证。

常见陷阱及如何避免

下表总结了从业者在调优 Amazon Nova Forge 模型时应避免的最常见错误。

陷阱 症状 解决方案
在 RFT 之前跳过 SFT RFT 没有产生改进或降低了性能 先运行 SFT,使模型进入正确的行为邻域,然后再进行 RFT 优化。
在使用数据混合时偏离默认 LR 训练不稳定、损失尖峰、能力崩溃 在使用数据混合时坚持使用服务默认值。这是最常见的错误。
奖励函数质量差 尽管训练,准确率下降,或模型利用指标 在更改任何训练参数之前优化您的奖励函数。至少使用两个独立评估者进行验证。
在有限的 CPT 数据上进行多个 epoch 过拟合、通用能力丧失、记忆化 最多处理 CPT 数据集的一个 epoch。监控验证损失以尽早检测过拟合。
推理设置不匹配 推理行为与训练行为不匹配 在训练和推理之间匹配 reasoning_enabled。如果您使用推理进行训练,则使用推理进行推理。

在使用 Nova Forge 调优模型时,首先投资于您的奖励函数。一个差的奖励函数会降低准确率,无论其他超参数选择如何,而一个优化的奖励函数在相同的基础设施上会产生一致的收益。确保您的奖励函数在模型的质量范围内具有区分能力,因为如果所有内容都得分很高,RFT 就没有梯度可以优化。相同的验证纪律适用于 LLM-as-judge 选择。您的评判模型必须可靠地区分模型输出范围内的质量差异。在提交训练运行之前,至少使用两个独立评估者验证评判一致性。

请注意,训练环境稳定性机制在不同平台之间有所不同。SMTJ 应用连续的 KL 惩罚作为软约束,而 SageMaker HyperPod 使用梯度裁剪作为每个步骤的硬上限。两者都能达到可比的准确率,但它们需要不同的调优直觉。不要假设参数可以直接在环境之间转移。

在整个过程中,优先考虑数据质量而非数量。积极过滤并确保训练示例准确代表目标行为,将优于简单地扩展低质量数据。

衡量成功

当您应用适当的超参数调优时,结果可能是显著的。AWS 中国应用科学团队在其对 Amazon Nova Forge 的评估中展示了这一点,在一个复杂的客户之声分类任务上实现了 17% 的 F1 分数提升,同时保持了接近基线的 MMLU 分数。

要监控的关键指标

结论

使用 Amazon Nova Forge 优化模型定制需要平衡艺术和科学。艺术涉及理解权衡:检查点选择、数据混合策略和训练模式决策对结果的影响比任何单个超参数都大。科学涉及系统调优:学习率、批大小和技术特定参数需要根据您的数据和目标进行仔细配置。

数据和奖励质量的重要性超过任何超参数。在调优训练参数之前,优化您的数据管道和奖励函数。从服务默认值开始,尤其是学习率和数据混合,因为这些默认值之所以存在,是因为它们适用于广泛的用例。

对于大多数生产场景,最强的管道是 SFT 后跟 RFT。RFT 优化现有能力,但无法从低基线恢复,因此监督微调需要首先建立稳固的性能。数据混合应被视为生产工作负载的必需品,而非可选项。它可以防止灾难性遗忘,并提供可靠结果所需的优化稳定性。在处理持续预训练时,检查点选择是您将做出的最具影响力的决策。将检查点灵活性与您的数据规模匹配:早期检查点用于大规模领域适应,后期检查点用于较小的数据集,其中保留指令遵循行为更为重要。

要开始使用 Amazon Nova Forge,请探索 Amazon Nova 文档和 GitHub 上的 SageMaker HyperPod 配方仓库。有关数据混合的实际示例,请参阅 Nova Forge 数据混合博客文章。要深入了解 Nova Forge 的 RFT,请参阅强化微调 for Amazon Nova:通过反馈教授 AI 博客文章。

致谢

作者感谢 AWS AGI 定制科学团队的 Zheng Du、Bharathan Balaji、Anjie Fang 和 Mengnong Xu 提供的技术指导。

关于作者

Nishant Dhiman 是 AWS 悉尼的高级解决方案架构师。他在无服务器、生成式 AI、安全和移动平台产品方面拥有丰富的背景。他是一位如饥似渴的读者和充满热情的技术专家。他喜欢与客户互动,并相信通过学习与分享回馈社区。在工作之外,他喜欢通过播客、书法和音乐来充实自己。

Nicholas Moore 是 AWS 的解决方案架构师,帮助各种规模的企业——从敏捷初创公司到财富全球 500 强企业——将想法变为现实。他专注于云解决方案,重点关注人工智能、分析和现代应用开发。Nicholas 因其通过架构模式和思想领导力对技术社区的贡献,以及通过志愿工作利用技术造福社会的承诺而受到认可。

Greg Macsok 是 AWS 的解决方案架构师,在游戏、媒体和电信领域拥有二十年的 IT 经验。他专攻网络、安全和现代基础设施,帮助客户简单地解决复杂问题。在工作之外,Greg 志愿贡献他的网络技能,支持社区体育赛事的连接,帮助确保组织者和参与者的安全可靠运营。

Jeetendra Vaidya 是 AWS 的高级 GenAI/ML 专家解决方案架构师,帮助客户设计和实施能够推动实际业务成果的生成式 AI 和机器学习解决方案。他热衷于让 AI/ML 能力变得可及和实用,与企业组织紧密合作,加速他们的 AI/ML 采用之旅,并在 AWS 上构建安全、可扩展且经济高效的智能系统。

译自 AWS · ML 博客 · 录于 二〇二六年六月二日