microsoft-research

AutoAdapt：大语言模型的自动化领域适应

AutoAdapt: Automated domain adaptation for large language models

二〇二六年五月三日 · 英文原文

摘要

Microsoft Research 介绍 AutoAdapt，用 ACG、agentic planner 和 AutoRefine 自动规划 LLM domain adaptation，在 RAG、fine-tuning 等策略间选择并调参；实验覆盖 reasoning、QA、coding、classification、cloud incident diagnosis，额外约 30 分钟和 4 美元成本。

概览问题：将 large language models 适配到专业化、高风险领域，过程缓慢、成本高且难以复现。我们构建了什么：AutoAdapt 自动化完成 planning、strategy selection（例如 RAG vs. fine-tuning）以及在真实部署约束下的 tuning。工作原理：一个结构化 configuration graph 映射 adaptation 过程的完整范围，一个 agentic planner 选择并排序合适步骤，一个 budget-aware optimization loop（AutoRefine）在定义好的约束内改进流程。为什么重要：其结果是更快、自动化、更可靠的 domain adaptation，把数周的手动迭代转化为可重复的 pipelines。在真实世界的高风险场景中部署 large language models（LLMs）比预期更难。在法律、医疗和 cloud incident response 等高风险场景中，性能和可靠性可能很快下降，因为将模型适配到特定领域需求是一个缓慢且手动的过程，也难以复现。核心挑战是 domain adaptation：把一个通用模型转变为能够持续遵循领域规则、调用正确知识，并满足 latency、privacy、cost 等约束的模型。如今，这个过程通常包含大量猜测：在 retrieval-augmented generation（RAG）和 fine-tuning 等方法之间做选择，tuning hyperparameters，并在没有清晰路径指向良好结果的情况下反复 evaluation。一个正在响应故障的 operations team 无法承受模型偏离领域需求，也无法承受需要数周且无法保证可复现结果的 tuning 过程。为解决这一问题，我们很高兴介绍 AutoAdapt。在论文《AutoAdapt: An Automated Domain Adaptation Framework for Large Language Models》中，我们描述了一个端到端、constraint-aware 的 domain adaptation framework。给定 task objective、可用 domain data，以及 accuracy、latency、hardware、budget 等实际需求，AutoAdapt 会规划一个有效的 adaptation pipeline，在 RAG 和多种 fine-tuning 方法等方案中进行选择，并使用 budget-aware refinement loop 对关键 hyperparameters 进行 tuning。其结果是一个可执行、可复现的 workflow，可更快速、更一致地构建 domain-ready models，帮助 LLMs 在真实世界场景中变得可靠。 PODCAST SERIES 医疗中的 AI 革命，再访与 Microsoft 的 Peter Lee 一起探索 AI 如何影响 healthcare，以及这对医学未来意味着什么。立即收听在新标签页中打开工作原理 AutoAdapt 从一个实际观察出发：团队需要的不只是更好的 prompt 或更多数据，而是一个决策过程，能够可靠地将 task、domain data 和现实约束映射到有效方法。为此，AutoAdapt 将 domain adaptation 视为一个 constrained planning problem。给定用自然语言描述的 objective、dataset size 和 format，以及 latency、hardware、privacy、cost 等限制，它提供一个团队可以执行和部署的端到端 pipeline。 Domain adaptation 常常像试错，因为设计空间庞大且复杂。团队必须在 RAG、supervised fine-tuning、parameter-efficient methods（如 LoRA）和 alignment steps 等方法之间选择，而每种方法都有许多 hyperparameters。这些选择会以不明显的方式相互影响，并且并非所有组合都是有效的，因此很难确定可靠策略。LLM training 的高成本进一步加剧了这个问题，限制了可以探索的 configuration 数量。AutoAdapt 通过 Adaptation Configuration Graph（ACG）解决这一问题；ACG 是系统 configuration space 的结构化表示，可在保证 pipelines 有效的同时实现高效搜索。基于 ACG，AutoAdapt 使用 planning agent 做出并解释决策。它提出策略，根据用户需求对其进行 evaluation，并不断迭代，直到 plan 可行且有充分依据。AutoAdapt 不是在不受约束的 black box 中 optimization，而是将每个决策扎根于 best practices 和显式约束，生成一个带有 parameter ranges 的可执行 workflow。最后，AutoAdapt 引入 AutoRefine，这是一个 budget-aware refinement loop，通过策略性地选择下一步运行哪些 experiments 来优化 hyperparameters，即使在 feedback 有限的情况下也能工作。AutoRefine 用更有纪律性、可复现的流程取代数周的手动 tuning，并且更易于 audit，也更便于跨 projects 比较。在 healthcare documentation、legal workflows 或 incident response 等真实世界系统中，这种严谨性至关重要。Figure 1 展示了端到端 workflow。 Figure 1. AutoAdapt workflow，展示 user inputs 如何经过 planning 和 refinement，生成可部署模型。 Evaluation 在 experiments 中，AutoAdapt 能够持续识别有效的 adaptation strategies，并在一系列 benchmark 和真实世界 tasks 上带来提升，包括 reasoning、question answering、coding、classification 和 cloud-incident diagnosis。它使用 constraint-aware planning 和 budgeted refinement，以极少的额外时间和成本找到性能更好的 configurations，使该过程对 production teams 具有实际可行性。Figures 2 和 3 展示了相对于竞争性 baselines 的 aggregate performance。 Figure 2. Success rate（SR）、normalized performance score（NPS）和 cumulative score（CS），比较 AutoAdapt 与 baseline methods 在多个 datasets 上的表现。分数越高表示性能越好，AutoAdapt 优于 state-of-the-art baselines。 Figure 3. AutoAdapt 以极小开销实现性能提升，额外时间约 30 分钟，额外成本约 $4。影响与展望 AutoAdapt 更广泛的意义在于，domain adaptation 可以成为一门工程学科，而不是临时拼凑的过程。通过明确关键选择——适配什么、如何适配，以及系统必须满足哪些约束——AutoAdapt 帮助团队更快获得结果，更容易复现结果，并更严格地 audit 结果。对于常常偏离 pretrained knowledge 且失败代价高昂的领域，这种转变尤其重要。当 LLMs 被用于起草 clinical notes、分流 support incidents 或总结 regulatory language 时，组织需要一条清晰、可重复的路径，将数据转化为在 latency、privacy 和 budget 要求下行为可预测的模型。由于 domain adaptation 是在真实世界场景中部署 LLMs 的先决条件，我们将 AutoAdapt framework 开源（在新标签页中打开），为团队提供一个具体起点。README（在新标签页中打开）文件提供安装和 quick-start 说明。视频播放需要 cookie 同意在新标签页中打开文章 AutoAdapt: Automated domain adaptation for large language models 最先发表于 Microsoft Research。

译自 microsoft-research · 录于二〇二六年五月三日