MagenticLite、MagenticBrain、Fara1.5：为小模型优化的智能体体验

MagenticLite, MagenticBrain, Fara1.5: An agentic experience optimized for small models

二〇二六年五月二十二日 · 英文原文

摘要

微软研究院 AI Frontiers 发布 MagenticLite，一个跨浏览器与本地文件系统运行单一工作流的实验性智能体应用，由两个专用小模型驱动：14B 参数的 MagenticBrain 负责推理、编码与委派，Fara1.5（4B/9B/27B）专用于浏览器任务。Fara1.5 在 Online-Mind2Web benchmark 上取得小模型 SOTA，性能接近 Fara-7B 的两倍。框架通过逐步规划、主动上下文管理和子智能体委派优化小模型执行效率。

概览

MagenticLite 是一个可在浏览器和本地文件系统之间跨单一工作流运行的智能体应用。作为 Magentic-UI 的下一代产品，它结合了重新设计的应用和针对小模型优化的执行框架。MagenticBrain 和 Fara1.5 分别是为编排任务和计算机使用任务设计的小模型。Fara1.5 是 Fara 的下一代迭代版本，在真实浏览器任务上取得了可衡量的性能提升。这些发布共同探索了在更小模型、协同设计工具和优化执行框架下，智能体性能能达到何种程度。今天，微软研究院 AI Frontiers 发布了 MagenticLite（在新标签页中打开），一个为小模型设计的实验性智能体应用。作为 Magentic-UI 的下一代产品，它可在单一工作流中跨浏览器和本地文件系统运行。MagenticLite 由两个专用模型驱动：MagenticBrain，用于推理、委派和终端使用；以及 Fara1.5，一个用于浏览器任务的计算机使用模型系列。这三个组件被设计为作为一个单一系统协同工作。结果是一个高效运行、将数据保留在用户机器上、并支持广泛智能体任务的智能体。它也指向一个更广泛的目标：能够直接在用户硬件上运行的高能力智能体。该项目围绕一个关键研究假设构建：智能体能力取决于工具编排和行动，而非仅依赖知识。这一洞察使得使用更小模型成为可能，同时仍能以极低成本支持广泛的智能体任务。MagenticLite 也反映了我们端到端处理智能体 AI 的方式——从训练数据和模型设计，到编排、交互设计，以及整个体验中的人类监督。

图 1. 一个体验，三个组件：MagenticLite、MagenticBrain 和 Fara1.5。

本次发布包含

MagenticLite（在新标签页中打开）
Magentic-UI 的下一代产品，我们的实验性智能体体验，由为小模型重建的智能体框架驱动，并基于社区反馈更新了用户界面。它可在单一工作流中跨用户浏览器和本地文件系统运行。

MagenticBrain（在新标签页中打开）
MagenticBrain 集规划器、编码器和委派器于一身。它将模糊的请求转化为具体计划，为每一步选择正确的工具或子智能体，在需要时编写代码，并在任务中途出现问题时进行恢复。

Fara1.5
我们计算机使用模型系列的下一代产品，Fara1.5 提供三种尺寸，旗舰版为 90 亿参数模型，适用于大多数用例。Fara1.5 在小型计算机使用模型中取得了新的 SOTA（最先进）结果，在网页导航上的性能几乎是 Fara-7B 的两倍，对表单、需要凭据的网站和长时间运行任务的处理更加精准。

每个组件本身都很有用，但协同工作效果最佳。协同设计应用、模型和框架，使得在这一规模下实现高能力且可靠的智能体性能成为可能。

我们的研究方法：用更少做更多

我们从一个简单问题开始：如何让一个小模型真正擅长智能体任务？答案贯穿整个生命周期——数据生成、训练目标、模型设计和编排必须协同重新设计，而非孤立进行。我们从真实用例中识别需求，如填写表单、进行浏览器研究和本地文件管理，并围绕它们构建评估数据集。标准 benchmark 能捕捉部分情况，但它们并不总是真实世界实用性的直接衡量。基于场景的评估补充了这些 benchmark，并成为模型和框架迭代改进的关键信号，如图 2 所示。

图 2. 构建智能体系统的迭代过程包括定义成功标准、评估性能、以及改进模型或系统设计（或两者）。然后重复。

在用户体验方面，我们保留了 Magentic-UI 的关键元素，包括对智能体推理和行动的可见性、用户直接控制的能力，以及在关键点的明确批准。基于最近的用户研究，我们还通过更新的浏览器和聊天视图使 MagenticLite 更易于学习和协作，旨在让用户更容易理解智能体的行动并在需要时进行干预。如图 3 所示。

图 3. MagenticLite 的界面包括更新的浏览器和聊天视图，旨在让理解智能体行动并在需要时进行干预变得更容易。

聚焦：活动系列

微软研究院论坛
加入我们关于通用 AI 时代研究的持续思想交流。按需观看最新剧集。
按需观看（在新标签页中打开）

系统组件

Fara1.5：超越其重量级别的计算机使用模型

Fara1.5 是我们计算机使用模型系列的下一代产品，提供三种尺寸，旗舰版 9B 模型推荐用于大多数用例。Fara1.5 在小型计算机使用模型中取得了新的 SOTA 性能，在网页导航上的性能几乎是 Fara-7B 的两倍，对表单、需要凭据的网站和长时间运行任务的处理更加出色。

去年 11 月，我们发布了 Fara-7B，一个为在网页浏览器中完成任务而构建的小型智能体模型。它使用一种新颖的合成数据生成引擎进行训练，实现了同类最佳性能。Fara1.5 是该假设的下一步：一个基于 Qwen 3.5 的三种尺寸模型系列（4B、9B、27B），旨在弥补我们在先前版本中看到的差距。

新特性

最先进的结果。 在流行的 Online-Mind2Web benchmark 上（包含 300 个跨广泛使用的网页领域的任务），Fara1.5 在其尺寸类别模型中取得了新的 SOTA 结果。Fara1.5 优于所有类似尺寸的模型，性能几乎是 Fara-7B 的两倍。更大的 Fara1.5-27B 变体在同一 benchmark 上实现了超过 90% 的性能。

图 4. 在 OnlineMind2Web benchmark 上，Fara-1.5-9B 在其尺寸类别模型中取得了最先进的性能，并大幅优于先前模型。
改进的用户体验。 除了 benchmark 上的改进，我们还改善了 Fara1.5 的用户体验。用户应在日常任务中观察到更强的性能，如填写表单、处理需要凭据的网站登录以及预约。这些改进由我们 FaraGen 数据生成管道的下一代演进驱动。除了在真实网站上进行训练，我们还在高度逼真的合成环境上训练模型，这些环境旨在模拟登录和不可逆操作等场景。
为长时间运行任务调整的原生动作空间。 除了点击和键盘操作，Fara1.5 内置了工具，可在数百个步骤中在其上下文中存储关键信息，并在需要时向用户请求权限或偏好，帮助其在跨越数分钟实际工作的任务中保持连贯性。
重新校准的关键点。 Fara-7B 被训练用于检测交易、登录流程或不可逆提交等活动中的关键点并进行标记。在 Fara1.5 中，我们基于实际使用中的经验改进了关键点的设计，因此安全触发仍然在应该发生时发生，但不会阻止有用的任务，例如填写表单。

图 5. Fara1.5 在检测到关键点时暂停并请求用户干预，本例中为使用电子邮件凭据登录 LinkedIn 账户期间。

MagenticBrain：编排模型

MagenticBrain 是一个 140 亿参数的编排模型——集规划器、编码器和委派器于一身。基于 Qwen 3 14B 微调，MagenticBrain 在 MagenticLite 框架内进行端到端训练，使用与推理时相同的工具模式和执行环境。因此，它学习编排的方式与其运行方式之间没有差距。

在许多智能体系统中，编排（规划和协调）是推理最密集的组件，因此团队历来依赖其最强大的模型来承担此角色。我们的假设是，小模型可以在不牺牲能力的情况下处理此角色。两个设计选择使之成为可能。第一个涉及将多步骤工具调用轨迹（模型学习选择正确的工具并正确调用它）与编码和终端轨迹（正确答案有时是五行 Python 代码，而非工具调用）相结合。这与训练和推理期间使用的工具格式之间的紧密耦合配对。第二个是计算机使用智能体（CUA）委派。编排器工作的一个关键部分是知道何时不自行行动，而是将任务移交给 Fara1.5。我们的数据管道包括明确的委派轨迹：编排器识别浏览器或用户界面（UI）任务、向 CUA 模型发出结构化交接、等待结果并恢复任务的序列。结果是一个在单个 14B 参数范围内流畅地进行推理、编码、调用工具和委派的编排模型。我们正在发布 MagenticBrain，它专为与 MagenticLite 一起使用而设计。

图 6. MagenticBrain 是一个小型编排模型，可以将自然语言请求分解为更小的步骤，选择正确的工具，在需要时编写代码，并将浏览器任务委派给 Fara1.5。

框架：为小模型构建

该框架将编排器和浏览器使用模型结合到一个单一工作流中。三个设计选择最为重要：

逐步规划。 框架增量式规划，保持系统灵活性，并在长时间运行任务中实现更平滑的路线修正和恢复。
主动上下文管理。 小模型的有效上下文窗口较小，且随着上下文增长性能下降更快。框架主动管理每个模型在每一步接收的内容，保持 prompt 聚焦，仅呈现必要信息，将早期交互压缩为简洁摘要，并卸载其余部分，从而使编排器和 Fara1.5 在长任务中保持有效。
通过子智能体进行委派。 编排器作为主智能体，将专门工作委派给子智能体，而非依赖单个小模型处理所有任务。这意味着将浏览器任务移交给 Fara1.5。这种模式通过允许每个模型处理问题中更狭窄、更专业的部分，发挥了小语言模型的优势。它也为未来扩展奠定了基础：后续版本可以引入额外的子智能体并并行运行它们，以实现更丰富、更高效的工作流。

该框架保留了 Magentic-UI 1.0 中的人类参与保证。浏览器和代码操作中的关键点仍然暂停以等待用户明确批准，整个系统在 Quicksand（在新标签页中打开）内运行，这是一个为基于 QEMU 的沙箱创建的开源封装器，它将浏览器会话和代码执行与主机系统隔离。

图 7. MagenticLite 架构概览。该系统使用分层架构，涵盖前端、框架、模型和沙箱执行环境。

实际演示

MagenticLite 可以执行跨浏览器和本地文件系统的广泛任务，例如填写表单、预约、整理本地文件以及搜索和分析信息。

MagenticLite | 填写费用表单演示
MagenticLite | 查找并预订餐厅演示
MagenticLite | 查找食谱食材价格演示
MagenticLite | 整理本地文件演示

尝试并与我们共同构建

MagenticLite、MagenticBrain 和 Fara1.5 是研究发布，旨在支持持续的探索和开发。我们发布它们是为了鼓励更广泛社区的实验、评估和反馈。

MagenticLite 是 Magentic-UI 的更新版本，可在 GitHub（在新标签页中打开）上获取。
MagenticBrain 可在 Microsoft Foundry（在新标签页中打开）上获取。
Fara1.5 模型可在 Microsoft Foundry（在新标签页中打开）上获取。

贡献者

智能体体验： Cheng Tan, Maya Murad, Weili Shi 智能体框架： Adam Fourney, Tyler Payne Fara1.5： Alexey Taymanov, Andrew Zhao, Aravind Rajeswaran, Corby Rosset, Hussein Mozannar, Luiz Do Valle, Spencer Whitehead, Vibhav Vineet, Zach Nussbaum, Sahil Gupta, Yadong Lu MagenticBrain： Ahmed Elgohary Ghoneim, Akshay Nambi, Amir Saeidi, Caio César Teodoro Mendes, Harkirat Behl, Karan Gupta, Pashmina Cameron, Pranav Vajreshwari, Shital Shah, Yash Lara, Yash Pandya 合作者： Abhishek Gowami, Amanda Swearngin, Michael Harrison, Sara Abdali, Sarthak Harne, Vidhisha Balachandran 项目负责人： Ahmed Awadallah, Rafah Hosn 赞助人： Ahmed Awadallah, Ece Kamar, Rafah Hosn, Saleema Amershi, Shital Shah

在新标签页中打开

文章《MagenticLite, MagenticBrain, Fara1.5: 为小模型优化的智能体体验》最初发表于微软研究院。

译自 Microsoft Research · 学术 · 录于二〇二六年五月二十二日