AWS · ML 博客

Amazon Nova 2 Lite 物体检测

Object detection with Amazon Nova 2 Lite

二〇二六年六月二日 · 英文原文

通过 Amazon Bedrock 的 Amazon Nova 2 Lite 多模态基础模型,无需训练即可基于自然语言提示检测物体,返回结构化 JSON 边界框坐标。使用 Amazon Bedrock、AWS Lambda 和 Amazon API Gateway 部署无服务器应用,提示工程指定物体类型与输出格式,归一化坐标转换为像素位置。测试中 Nova 2 Lite 准确检测街景中的 vehicle 和 stop sign。成本为每千输入 token $0.0003、输出 token $0.0025,处理 10,000 张图像约 $5.69。实际应用涵盖制造业质量控制(检测 scratch、dent)、精准农业(检测 diseased leaf、pest damage)及物流履约。作者为 AWS 的 Peter Yu、Joyee Zhao 和 Robert Stolz。

传统计算机视觉解决方案可能需要大量前期投入。搭建数据管道、模型训练基础设施、计算资源以及组建专门的数据科学团队,对于小型公司或团队来说往往难以承受。通过 Amazon Bedrock 提供的 Amazon Nova 2 Lite,提供了一种有吸引力的替代方案。这个多模态基础模型可以通过自然语言提示检测物体,无需训练。指定 "vehicle"、"person" 或 "dent",Nova 就会以结构化的 JSON 格式返回精确的边界框坐标。在本文中,我们将逐步介绍如何使用 Amazon Nova 2 Lite 实现物体检测。你将学习如何使用 Amazon Bedrock、AWS Lambda 和 Amazon API Gateway 部署一个物体检测应用。你还将学习如何编写有效的提示、处理结构化的 JSON 输出以及可视化结果。我们将探讨其在制造业、农业和物流领域的实际应用。

解决方案概览

开始之前,请确保你具备以下条件:

预估成本

物体检测解决方案使用四个主要步骤来识别和定位图像中的物体。

步骤:

  1. 提示工程 – 构建提示以指定物体和预期的 JSON 输出格式
  2. Amazon Bedrock – 调用 Amazon Bedrock 以访问 Amazon Nova 2 Lite,无需管理基础设施,并从响应中提取边界框信息
  3. 坐标处理 – 将 Nova 的归一化坐标(0-1000 比例)转换为像素位置
  4. 可视化 – 在图像上渲染边界框以进行验证

你通过 Amazon Bedrock 的 Converse API 发送一张图像和一个要检测的物体列表。Amazon Nova 2 Lite 分析图像并返回一个 JSON 响应,其中包含每个检测到的物体的边界框坐标。然后,你根据图像尺寸将归一化坐标(0-1000 比例)转换为像素位置。最后,通过在原始图像上绘制边界框来可视化结果。在短短几小时内即可部署物体检测——无需模型训练、机器学习 (ML) 专业知识或基础设施管理。

提示

提示工程在实现准确检测方面起着重要作用。提示模板(如下例所示)包含一组精心设计的指令,指定了关键要求。提示模板中的两个变量 elementsschema 会根据检测到的物体类型动态构建,使得提示模板无需修改即可处理任意物体类别。

# Object Detection and Localization

## Objective
Your task is to detect and localize objects in the target image with high precision and recall.

## Instruction
- The objects to be detected are: {elements}
- Analyze the provided target image and return only the reasoning and a JSON object with bounding box data for detected objects
- Think step-by-step and then provide precise bounding box coordinates for each detection
- Detect all instances of the specified objects
- Fit bounding boxes tightly around each object
- Do not output duplicate bounding boxes
- Coordinates should use the format [x_min, y_min, x_max, y_max] where:
    * (x_min, y_min) is the top-left corner of the bounding box
    * (x_max, y_max) is the bottom-right corner of the bounding box

## Output Requirements and Examples
The JSON output should strictly follow this structure including the word json:
```json
{schema}

Example JSON Structure:

{{
    "car": [{{
        "bbox": [321, 432, 543, 876],
    }}],
    "pedestrian": [{{
        "bbox": [432, 543, 654, 987],
    }},
    {{
        "bbox": [123, 234, 345, 678],
    }}],
    // Continue for all detected elements...
}}

Briefly explain the detection results and provide the specified JSON format wrapped within triple backticks.


有关完整的实现细节,请参阅我们的 GitHub 仓库。

## 示例:街景检测

我们在街景图像上测试了 Nova 2 Lite。无需任何训练或微调,我们让 Nova 检测两种物体类型:"vehicle" 和 "stop sign"。如图 1 所示,Nova 不仅准确检测到明显的物体,还检测到那些微小、遥远或部分遮挡的物体。边界框紧密贴合物体边界,间隙极小。Nova 仅使用 "vehicle" 和 "stop sign" 这样的基本物体名称就达到了这种精度,无需任何详细描述。

**图 1. Amazon Nova 2 Lite 为两种物体类型生成的边界框:"vehicle" 和 "stop sign"。**

## 在云端部署

Amazon Bedrock 提供对 Amazon Nova 2 Lite 的 API 访问,这意味着你可以从任何 AWS 计算服务调用它。选择最适合你工作负载的服务。

### 选择你的计算平台

对于事件驱动的工作负载和 API 端点,AWS Lambda 提供自动扩展和按调用付费模式,消除了空闲成本。如果你需要更多对运行时环境的控制,或有长时间运行的进程,Amazon Elastic Compute Cloud (Amazon EC2) 让你可以完全灵活地根据需要配置实例。对于基于容器的部署,使用 Amazon Elastic Container Service (Amazon ECS) 或 Amazon Elastic Kubernetes Service (Amazon EKS) 并配合自动扩展。无论你选择哪种计算服务,它们都调用相同的 Amazon Bedrock Converse API 与 Nova 模型交互。这种一致性使得将物体检测集成到你现有的基础设施中,或随着需求变化在计算平台之间迁移变得简单直接。

## 构建物体检测应用

我们构建了一个示例性的无服务器 Web 应用,展示了使用 Amazon Nova 2 Lite 进行物体检测。这个概念验证包括一个 Web 界面、安全的基础设施和自动扩展。你可以在几分钟内将其部署到自己的 AWS 账户中。

该应用采用优先无服务器的架构,使用多个 AWS 服务协同工作。Amazon CloudFront 从一个私有的 Amazon Simple Storage Service (Amazon S3) 存储桶提供单页应用,通过 Origin Access Control 提供全球分发和 HTTPS 强制。当用户上传图像并指定要检测的物体时,前端将请求发送到 Amazon API Gateway,后者将其路由到 AWS Lambda 函数。Lambda 函数充当编排层,调用 Amazon Bedrock 的 Converse API 将图像和检测提示发送给 Amazon Nova 2 Lite。Nova 为每个检测到的物体返回归一化的边界框坐标,Lambda 函数将其转换为像素位置,并在图像上渲染为带注释的框。带注释的结果通过相同的路径返回:从 Lambda 到 API Gateway,再到前端。然后用户会看到他们的图像,其中检测到的物体被高亮显示。

Amazon CloudFront 在全球范围内分发前端。API Gateway 将请求路由到 Lambda,Lambda 调用 Amazon Bedrock 来运行物体检测。这种架构自动扩展,并使每个组件专注于一项工作。

**图 2. 无服务器物体检测示例应用架构**

### 亲自尝试

完整的源代码,包括所有 AWS Cloud Development Kit (AWS CDK) 基础设施定义和 Lambda 函数,可在 GitHub 仓库中找到。在安装 AWS CLI 和 AWS CDK,并在 Amazon Bedrock 控制台中启用 Amazon Nova 2 Lite 访问权限后,部署就很简单了。这个无服务器模式展示了你可以多么快速地使用 Nova 模型构建 AI 应用。因为一切都是基础设施即代码,你可以对整个应用栈进行版本控制,并在多个环境或 AWS 账户之间一致地部署。

### 清理

为避免持续产生费用,请删除本指南中创建的资源。如果你部署了示例应用:

Delete the AWS CloudFormation stack

cdk destroy

Verify resources are removed

aws cloudformation list-stacks --stack-status-filter DELETE_COMPLETE


手动清理(如果需要):
*   删除 Amazon S3 存储桶及其内容
*   移除 AWS Lambda 函数
*   删除 Amazon API Gateway 端点
*   移除 Amazon CloudFront 分发

**成本影响**:Amazon Bedrock API 调用是按使用量付费的,没有持续的基础设施成本。一旦你删除了部署资源,只有在进行 API 调用时才会产生费用。

## 实际应用

以下示例展示了 Amazon Nova 2 Lite 如何应用于跨行业的实际用例。

### 制造业质量控制

一家金属加工厂每月处理 10,000 个零件。每个有缺陷的零件发货会导致 $50-200 的退货和返工成本。训练传统计算机视觉模型所需的大量前期投资对于他们的运营来说通常是难以承受的。借助 Amazon Nova 2 Lite,该工厂实现了质量检查自动化。他们指定 "scratch"、"dent" 或 "rust spot" 等缺陷,系统会自动识别它们。每个零件分析 5 张图像,每月成本约为 $8。

### 精准农业

一个 5,000 英亩的农场在 20 周的生长季节期间每周拍摄无人机图像,以尽早发现作物问题。早期检测可以防止过度施用化学品和作物损害。农场指定:"diseased leaf"、"pest damage"、"fungus"。每个季节处理 120 万张高分辨率图像的成本约为 $200。同样的方法使 GPS 引导设备能够检测障碍物(例如 "vehicle"、"equipment"、"debris"),从而可能实现自主田间作业。

### 物流与履约

配送中心通过指定 "torn box"、"crushed package"、"water damage" 来识别损坏的包裹。系统自动标记需要检查的物品,并将其路由到质量控制区域,确保整个运营过程中的标准一致。这种方法可扩展到库存监控(例如 "empty shelf"、"misplaced item")和安全合规(例如 "hard hat"、"safety vest"、"safety glasses"),使计算机视觉对任何规模的运营都变得可用。

## 结论

在本文中,我们展示了 Amazon Nova 2 Lite 如何使物体检测变得易于使用。通过使用自然语言提示指定物体名称,你可以在几小时内(而不是几个月)部署计算机视觉应用,而无需管理任何基础设施。它通过一个 API 提供物体检测性能,采用按需付费的成本结构,且无需机器学习 (ML) 专业知识。

准备好尝试了吗?从我们的 GitHub 仓库部署示例应用,或在 Amazon Bedrock 控制台中探索 Amazon Nova 模型。

## 关于作者

**Peter Yu** 是 AWS Generative AI Innovation Center 的高级数据科学家,他开发创新的生成式 AI 解决方案,并与客户合作,在他们的业务中解锁新的可能性。他之前在 McKinsey & Company 担任顾问,提供机器学习和数据科学解决方案以推动业务影响。

**Joyee Zhao** 是 AWS Professional Services 团队的高级交付顾问。在此职位上,她与企业客户合作,为其关键业务应用架构和交付云原生解决方案,专注于应用现代化、迁移策略和复杂数字化转型计划中的卓越运营等领域。

**Robert Stolz** 是 AWS 的解决方案架构师,他与金融服务行业的客户合作,通过云采用和 AI 解决方案推动业务价值。
译自 AWS · ML 博客 · 录于 二〇二六年六月二日