Fundamental 大型表格模型 NEXUS 现已上线 Amazon SageMaker JumpStart
Fundamental’s Large Tabular Model NEXUS is now available on Amazon SageMaker JumpStart
Amazon 宣布在 SageMaker AI 上支持 Fundamental 开发的 NEXUS 模型,这是一个专为表格数据预测构建的基础模型(FM),在数十亿行结构化数据上预训练。NEXUS 采用确定性架构,原生处理数字、类别、日期和文本,无需特征工程。用户可通过 AWS Marketplace 订阅,在 ml.p5en.48xlarge 实例(8× NVIDIA H200 GPU)上部署为推理端点,使用 Fundamental Python SDK 进行训练和预测。数据保留在用户 AWS 环境中,支持金融、医疗、制造和零售等行业的欺诈检测、临床试验匹配、预测性维护和流失预测等用例。
今天,我们宣布在 Amazon SageMaker AI 上支持 Fundamental 的 NEXUS 模型。借助此次发布,您可以部署一个专为表格数据预测构建的基础模型(FM)。该模型能帮助您的企业从结构化数据中生成准确、确定性的预测,时间从数月缩短至数天。在本文中,我们将展示如何在 Amazon SageMaker JumpStart 上开始使用 NEXUS,逐步介绍部署过程,并演示如何针对您的企业数据集运行预测。
什么是 NEXUS?
NEXUS 是由 Fundamental 开发、专为表格数据预测构建的基础模型。大型语言模型(LLM)是为文本设计的,而传统机器学习(ML)方法需要大量的特征工程和模型训练。NEXUS 采用了不同的方法。它在数十亿个跨结构化数据集的真实世界预测任务上进行了预训练,因此它已经知道如何在您的数据中寻找信号。
作为一个大型表格模型(Large Tabular Model),NEXUS 专为结构化数据分析而构建,并提供以下关键创新:
- 确定性架构 – 概率性 LLM 可能对相同查询给出不同答案。NEXUS 为每个单独的预测生成一致、可重现的结果。
- 原生表格理解 – NEXUS 在数十亿张表格上训练,原生处理数字、类别、日期和非结构化文本,无需手动特征工程。
- 非序列推理 – 大多数 AI 模型预测序列数据(例如,下一个词或下一个像素)。NEXUS 分析企业表格中的多维关系。例如,在预测客户流失时,NEXUS 理解多个因素(交易频率、支持工单和经济指标)如何影响流失的可能性。
为什么现有方法存在不足
最有价值的企业数据存在于表格中,例如电子表格、企业资源规划(ERP)系统、客户关系管理(CRM)系统和关系数据库。许多关键业务决策依赖于对这些数据的预测。然而,当今的工具存在显著局限性:
- 传统 ML 需要数据科学团队花费 3-6 个月为单个用例构建、训练和部署模型。您始终面临预测质量与数量之间的权衡。
- LLM 是非确定性的,会在相同数据集上产生不同答案。它们在 tokenization(分词)过程中丢失数值上下文,导致结构化数据上的结果不准确,并且需要复杂的防护措施来缓解这些问题。
NEXUS 专为表格数据设计,并提供以下优势:
- 排列不变性 – 识别到改变列顺序不会改变含义,这与 Transformer 处理数据的方式不同。
- 十亿行处理能力 – 无需截断或采样即可处理海量数据集。
- 跨模式推理 – 自动连接不同表格中的相关数据。
- 自主数据清洗 – 解决不完整条目(例如,即使条目缺失,NEXUS 仍能进行预测)。
NEXUS 在 Amazon SageMaker AI 上的工作原理
下图说明了在 SageMaker AI 上使用 NEXUS 部署和运行预测的端到端流程。NEXUS 在 SageMaker AI 托管环境内的专用、单租户、网络隔离 GPU 实例上运行。工作流程包括以下步骤:
- 订阅并部署 – 在 AWS Marketplace 上订阅 NEXUS 模型包,然后将其作为 SageMaker AI 托管的推理端点部署在 ml.p5en.48xlarge 实例(8× NVIDIA H200 GPU)上。
- 安装 SDK – 安装 Fundamental Python SDK 并将其连接到您的 SageMaker 端点。该 SDK 提供了熟悉的 scikit-learn 兼容 API,包含 NEXUSClassifier 和 NEXUSRegressor 估计器。
- 将数据上传到 Amazon S3 – SDK 序列化您的表格数据并将其上传到您账户中的 Amazon Simple Storage Service(Amazon S3)存储桶。
- 训练模型 – 调用
clf.fit(X_train, y_train)进行训练。NEXUS 自动处理数据清理和特征工程,无需手动管道。 - 生成预测 – 调用
clf.predict(X_test)进行确定性预测,或调用clf.predict_proba(X_test)进行概率估计。结果将存回您的 Amazon S3 存储桶。
在此过程中,您的数据始终保留在您的 AWS 环境中。端点是网络隔离且单租户的,这使得 NEXUS 适用于处理敏感数据的企业工作负载。
在 Amazon SageMaker AI 上开始使用 NEXUS
要开始使用,请导航到 Amazon SageMaker JumpStart,搜索 Fundamental NEXUS,然后从以下选项中选择:
- 基础模型(在超过 100 亿行表格数据上预训练)。
- 行业特定变体(金融、医疗保健和制造业)。
正在变革行业的企业用例
表格数据是企业决策的支柱,从财务分类账到患者记录再到供应链日志。NEXUS 专为此类数据构建,帮助您从原始结构化数据直接进入生产级预测,无需大量特征工程或模型训练。以下是 NEXUS 可以创造价值的一些代表性用例。
金融服务
- 欺诈检测 – 分析数百万账户中的交易模式。
- 信用风险建模 – 通过自动特征提取处理贷款组合。
- 监管合规 – 从非结构化监管文件中提取结构化数据。
医疗保健
- 临床试验匹配 – 跨电子健康记录(EHR)系统识别符合条件的患者。
- 药物发现 – 分析生物测定数据以进行化合物筛选。
- 患者风险分层 – 使用重症监护室(ICU)时间序列数据预测再入院风险。
制造业与供应链
- 预测性维护 – 根据传感器数据预测设备故障。
- 需求预测 – 预测全球分销网络的库存需求。
- 供应商风险分析 – 使用采购历史评估供应商可靠性。
零售与电子商务
- 流失预测 – 利用购买历史和浏览行为识别有风险的客户。
- 动态定价 – 基于竞争对手数据和库存水平优化价格。
- 购物车放弃分析 – 帮助您了解客户为何将商品留在在线购物车中。
为什么选择 Amazon SageMaker AI 上的 NEXUS
部署模型只是成功的一半。运行模型的基础设施决定了您从实验到生产的速度。SageMaker AI 为在企业规模上运行 NEXUS 提供了托管、安全且可扩展的环境。NEXUS 和 AWS 共同减少了无差别的繁重工作,使您的数据科学家能够专注于业务成果,而不是基础设施管理。
- 加速实现价值 – 预构建的容器和脚本减少了部署时间。
- 成本效益 – SageMaker AI 的托管基础设施降低了运营开销。
- 可扩展性 – 自动扩展到 PB 级数据集。
- 合规就绪 – 默认满足 GDPR、HIPAA 和 SOC 2 要求。
- 持续学习 – 与 Amazon SageMaker Pipelines 原生集成,用于模型再训练。
- 多路复用支持 – 支持在单个 SageMaker AI 端点上执行多个 fit 和 predict 操作,无需为每个用例分配专用资源。
战略性的 AWS 合作伙伴关系
Fundamental 已与 AWS 建立战略合作伙伴关系,以加速企业采用:
- 原生集成 – 直接从 AWS Marketplace 部署 NEXUS。
- 安全基础设施 – 在 AWS 安全、合规的云环境中运行。
- 企业支持 – 专门的 AWS 解决方案架构师提供实施指导。
后续步骤
准备好改变您的数据驱动决策了吗?联系 Fundamental 团队了解更多信息。在 Amazon SageMaker AI 上的 JupyterLab 空间中尝试托管示例笔记本。
结论
在本文中,我们展示了 Amazon SageMaker AI 上的 NEXUS 模型支持如何帮助您从结构化数据资产中解锁新的洞察。无论您是预测设备故障、优化供应链还是检测金融欺诈,NEXUS 都能为您的企业预测工作负载提供确定性、可扩展的能力。
要了解更多信息,请参阅以下资源:
关于作者
Vivek Gangasani Vivek 是 SageMaker Inference 解决方案架构的全球负责人。他领导 SageMaker Inference 的解决方案架构、技术上市(GTM)和对外产品策略。他还帮助企业及初创公司使用 SageMaker 和 GPU 部署和优化生成式 AI 模型,并构建 AI 工作流。目前,他专注于制定优化推理性能的策略和内容,以及代理工作流、RAG 等用例。
Hazim Qudah Hazim 是 Amazon Web Services 的 AI/ML 专家解决方案架构师。他乐于帮助客户使用 AWS 技术和最佳实践构建和采用 AI/ML 解决方案。在加入 AWS 之前,他曾在多个行业和地区的客户中从事多年技术咨询工作。业余时间,他喜欢跑步和与他的狗玩耍!
Jimmy Shah Jimmy 是 AWS 的 SageMaker AI 首席专家。他是领导 SageMaker AI 对外产品管理和技术上市(GTM)策略的团队成员,专注于金融服务领域。目前,他专注于制定 SLM 微调和部署、代理式 AI 以及推理优化用例的策略和内容。