aws-ml

Popsa 如何使用 Amazon Nova 通过个性化标题建议启发客户

How Popsa used Amazon Nova to inspire customers with personalised title suggestions

二〇二六年五月八日 · 英文原文

摘要

Popsa 的 Bradley Grantham、Hugo Dugdale 介绍用 Amazon Bedrock、Claude 3 Haiku、Amazon Nova 和 retrieval-based few-shot prompting 重构 Title Suggestion。系统结合 metadata、computer vision、reverse geocoding 生成 12 种语言标题；2025 年生成超 550 万个标题，正反馈由 58% 升至 71%，Nova Pro 达 73%，ConverseStream 将 TTFS 从 1.41 秒降至 0.92 秒。

本文由 Popsa 的 Bradley Grantham 和 Hugo Dugdale 共同撰写。Popsa 是一家技术公司，帮助用户重新发现并重温隐藏在照片库中的有意义回忆。我们的服务覆盖 50 多个国家和 12 种语言，通过 design automation 和 AI 将日常照片转化为个人化、可分享的体验，包括精美印刷的 Photo Books。2016 年，我们发布了 PrintAI，这是一种早期算法，可完全接管从用户照片创建多样且有趣设计的过程。我们的客户可以使用该算法在 5 分钟内创建看起来由专业人士设计的 Photo Books。我们业务的一项核心理念是：技术应该为用户承担繁重工作，因此 automation 一直是我们产品的内在组成部分。在当前 Generative AI 时代，我们可以开发更多方式来提升客户体验，同时不让软件变得更复杂。本文将分享我们如何应用 Amazon Bedrock 和 Amazon Nova 系列模型，重新构想我们的 Title Suggestion 功能。通过结合 metadata、computer vision 和 retrieval-augmented generative AI，我们现在可以在 12 种语言中自动生成有创意且符合品牌调性的标题和副标题。借助 Amazon Bedrock 的统一 API、Anthropic’s Claude 3 Haiku 以及 Amazon Nova Lite 和 Pro，我们提升了质量、降低了成本，并缩短了响应时间。这带来了更高的客户满意度、可衡量的互动率和购买率提升，并在 2025 年生成了超过 550 万个个性化标题。使用 Amazon Bedrock 生成标题建议当客户收到他们的 Photo Book 时，首先看到的是封面，上面有醒目的标题和副标题。高质量的标题和副标题可以提升 Photo Book 的设计感，但大多数客户并不是专业文案，许多人会使用简单标题，例如 “France 2024”、“Photos from Spain”，甚至是 “Photos”。为了帮助用户提升照片呈现效果，我们开发并上线了名为 Title Suggestion 的功能，该功能自 2021 年起向用户开放。当用户为 Photo Book 设计选择照片时，我们的移动应用会读取图像中的 metadata，例如时间戳和地理坐标，并在设备端运行 convolutional neural networks 来提取相关特征。例如，图像中是否包含海滩、烧烤或宠物。为了使用这些数据，我们创建了一种名为 Title Suggestion Graph 的算法。该算法使用所选照片的 metadata 和数据构建可能的标题列表，并根据一组规则和模板生成一组合适的建议。例如：如果设计中的所有照片都拍摄于同一天，则建议标题为 “On this Day”，副标题为具体日期。2024 年 6 月，我们发现了通过应用 generative AI 改进 Title Suggestion 的机会，目标是用更有创意的标题启发用户。我们首先清晰定义问题，并建立评估指标。我们的解决方案必须满足严格要求：字符限制标题和副标题都不得超过 36 个字符，因为布局限制会影响文字在封面上的显示方式。标题类别每一组标题—副标题还必须关联一个类别，用于决定向用户展示该组内容时旁边显示的图标。虚构或错误类别会导致图标无法渲染。JSON 格式最后，所有输出都必须是有效 JSON，并包含键 title、subtitle 和 category。这有助于在应用中进行一致的解析、验证和渲染。这些规则有助于评估，因为它们可以用代码定义。因此，我们构建了一个包含 100 多个示例 Photo Books 的数据集，并在评估 pipeline 中定义了指标：标题/副标题建议符合字符限制的百分比有效标题类别的百分比响应符合正确 JSON 格式的百分比除了这些严格规则，我们还需要解决方案满足一些更广泛的准则：主题一致性类别应与内容匹配（例如，如果设计主题是海滩度假，滑雪图标就不合适）品牌风格建议应体现 Popsa 的语气和品牌识别标题—副标题连贯性配对内容应相互补充；不应重复或脱节。多语言质量建议需要在我们支持的全部 12 种语言中保持高质量。我们决定使用 LLM-as-a-judge 来根据这些准则评估性能。这帮助我们快速测试不同模型、prompt 和方法，以确定最可靠的方案。在缩小到两三个选项后，我们进行了大量内部测试。最佳结果来自 Retrieval-based few-shot prompting。我们创建了一个示例 Photo Books 和可接受标题建议的数据库。对于新的 Photo Book，我们检索若干相似的 Photo Book 设计，以及它们建议标题的随机样本。使用 Amazon Bedrock 和 Anthropic’s Claude 3 Haiku，我们将这些示例作为消息注入对话，然后将用户的新设计文档作为最终消息追加。这使 large language model（LLM）能够模拟先前响应，同时自然遵循我们定义的规则。该解决方案的完整架构如下图所示：当我们的 Title Suggestion Service 收到请求时，它首先解密并处理用户的设计，以提取时间戳。然后，它对设计中包含的任何纬度和经度执行 reverse geocoding 操作，并根据对象地标对设计主题进行分类。这会生成类似 “A skiing photobook with 21 photos taken in the Alps between 21st January 2025 and 23rd January 2025” 的描述。随后，我们将该描述传递给 retrieval-based few-shot prompting 组件，以生成最终面向用户的建议集。与之前基于 graph 的方法相比，结果更好：为了量化改进，我们依赖一个反馈循环，让客户将建议评为正面、中性或负面。我们还对数十万用户进行了 multivariate testing。反馈明显偏向 generative AI 标题，并且 Design Created 和 Purchase 等关键指标也有所提升。数月后，我们将该功能推广至 100% 用户。通过从 Graph Algorithm 转向 Claude 3 Haiku 来生成标题建议，我们将用户正面反馈提升了 13%（从 58% 提升到 71%）。使用 Amazon Nova 提升客户满意度并降低成本自 2024 年 Title Suggestions 基于 generative AI 重新上线以来，LLM 技术在性能、成本和速度方面都有显著提升。Amazon Bedrock 的统一 API 帮助我们通过切换 model IDs 来比较和测试新模型，并在数小时内发布实验，而不是数周。我们最近测试了 Amazon Nova 系列（Micro、Lite 和 Pro），它们支持 200 多种语言，并具备低延迟。2025 年初，我们进行了 multivariate A/B test，对比 Claude 3 Haiku 和 Nova 模型，跟踪 guardrail 指标，并通过应用内反馈功能收集直接用户偏好。对多种标题生成模型的测试显示，虽然 Claude 3 Haiku（71% 正面反馈）表现良好，但 Nova Pro 达到了最高用户满意度，正面反馈为 73%，负面反馈最低，为 12%。虽然 Nova Micro 优于我们的旧 Graph 方法，但与其他 LLM 相比，其用户满意度较低，因此被搁置。在剩余模型中，我们不仅关注质量，也关注成本、延迟和吞吐量，如下表所示。这些比较清楚表明，Nova Lite 能以更低成本和更快响应时间提供与 Claude Haiku 几乎相同的质量。模型每 1,000 个 input tokens 的价格每 1,000 个 output tokens 的价格响应时间（输出 500 个 tokens 的秒数）Claude 3 Haiku $0.00025 $0.00125 6.8 Amazon Nova Lite $0.000069 $0.000276 2.4 Amazon Nova Pro $0.00092 $0.00368 3.4 *价格来自 Amazon Bedrock pricing page *性能指标来自 Artificial Analysis 使用 ConverseStream API 降低 Time to First Suggestion 我们跟踪的一项关键延迟指标是 Time to First Suggestion（TTFS），用于衡量用户发出请求后第一个有效建议出现的速度。即使后台还在生成更多选项，降低 TTFS 也会让功能感觉响应更快，因为用户在离开前就能看到建议。为了改善 TTFS，我们从 Amazon Bedrock 的 InvokeModel API 迁移到 ConverseStream API，以便在 tokens 生成时进行流式传输。由于我们的服务需要有效的标题—副标题—类别三元组，我们扩展了 FastAPI，以实时解析 streams，并在验证通过后立即返回第一个建议。其他建议继续在后台流式生成，但客户端已经有可展示的内容。这一变化将第一个完善建议的 TTFS 大幅降低到 1 秒以内，而不是等待整批建议全部完成。通过迁移到 ConverseStream API，我们将平均 Time to First Suggestion 从 1.41 秒降低到 0.92 秒，向用户交付标题建议的速度提升了 35%。下一步 2025 年，我们的 Title Suggestion 功能已生成超过 550 万个标题，为我们提供了关于哪些内容有效、哪些无效，以及用户如何与建议互动的洞察。这个反馈循环将继续推动该功能演进。展望未来，我们计划面向部分用户使用 Nova Pro 等更大模型，以捕捉创造力和细微差别，同时仍能以具成本效益的方式规模化运行。我们从这些实验中收集的数据将帮助我们 fine-tune 更小模型，使其继承更大模型的优势，同时不牺牲延迟或可负担性。未来工作包括 tool integrations，为 LLM 提供有关每本 Photo Book 的更丰富上下文，从事件细节到季节线索，目标是生成更个性化、更具主题性且更符合品牌调性的标题。这些发展延续了我们的使命：让任何人，无论技能水平如何，都能快速将照片转化为有意义、有创意且值得珍藏的纪念品。作者简介 Bradley Grantham Bradley 是 Popsa 的 Lead Data Scientist，他的团队构建 AI 系统，帮助数百万人重新浏览和整理个人照片库。他的工作涵盖设备端 computer vision、由 Amazon Bedrock 驱动的 generative AI，以及从研究到部署构建 production ML 系统。Hugo Dugdale Hugo 是 Popsa 的 Data Scientist。Popsa 是一家技术公司，帮助数百万人将数字回忆转化为实体照片产品。他的工作横跨 computer vision、geospatial data 和 generative AI，负责构建和部署相关系统，支撑 Popsa 如何大规模理解和整理个人照片库。Ayman ElSayed Ayman 是 AWS 的 Startup Solutions Architect 和 Gen AI 专家，与 UK & Ireland 初创公司合作，帮助它们扩展 AI 愿景并实现业务目标。他曾任 Hawaya（被 MatchGroup 收购）的 CTO/Product，以及 EdTech AI 初创公司 Mavericks 的联合创始人/CTO，在英国初创生态中拥有指导、构建和全球扩展 AI 产品的实践经验。Ellen Franklin Ellen 是 AWS 的 Senior Account Manager，拥有 7 年经验，为 UKI 地区 B2C、FSI 和 ISV 领域的高增长初创公司提供建议。她是认证 AWS Solutions Architect Associate 和 AI Practitioner，处于商业战略与技术创新的交汇点，与创始人和领导团队合作，消除规模化障碍，规划企业 go-to-market，释放增长，并最大化 AWS 合作关系的价值。

译自 aws-ml · 录于二〇二六年五月八日