OpenAI · 官方博客

帮助ChatGPT更好识别敏感对话中的上下文

Helping ChatGPT better recognize context in sensitive conversations

二〇二六年五月十四日 · 英文原文

摘要

OpenAI 分享了 ChatGPT 安全更新的新细节，旨在通过识别对话中细微或逐渐演变的线索，更好地区分普通互动与高风险场景。更新包括安全摘要（由安全推理模型生成的简短事实性笔记），用于捕捉跨对话的潜在有害意图上下文，并指导模型更谨慎地回应（如缓和局势、拒绝细节或引导用户寻求支持）。与心理健康专家合作，内部评估显示，在长单次对话中，自杀和自残案例的安全回应表现提升50%，伤害他人案例提升16%；在GPT‑5.5 Instant上，伤害他人案例提升52%，自杀和自残案例提升39%。安全摘要质量评分平均4.93/5（相关性）和4.34/5（事实性）。

人们每天都会与 ChatGPT 交流那些对他们重要的事情——从日常问题到更私密或复杂的对话。在数以亿计的互动中，有些对话涉及正在挣扎或经历痛苦的人。我们设计系统在这些时刻谨慎回应，包括提供危机资源，并在需要时将人们与他们信任的人联系起来。

今天，我们分享关于安全更新的新细节，这些更新帮助 ChatGPT 通过识别细微或逐渐演变的线索，更好地识别风险何时可能随时间浮现，并利用该上下文信息来指导安全回应。这有助于 ChatGPT 区分人们每天进行的数十亿次安全互动与那些需要额外谨慎的罕见情况，从而能够更谨慎地回应——例如，缓和局势、拒绝有害细节，或引导用户转向更安全的替代方案。

这些改进建立在多年来在模型训练、评估、监控系统以及超过两年与心理健康和安全专家合作的广泛工作基础之上。

为什么上下文在敏感对话中很重要

在敏感对话中，上下文可能与单条消息本身同样重要。一个看似普通或模棱两可的请求，如果与之前出现的痛苦迹象或潜在有害意图放在一起看，可能具有截然不同的含义。为了做出适当回应，我们训练 ChatGPT 从周围上下文中识别潜在的有害意图，以便它能拒绝请求、缓和局势，并引导用户寻求支持。

这些情况并不常见，但正确应对至关重要。我们的目标是帮助 ChatGPT 在关键时刻连接相关信号，同时避免在普通对话中反应过度。

我们将这项工作聚焦于急性场景，包括自杀、自残和伤害他人。与心理健康专家合作，我们更新了模型策略和训练，以提高 ChatGPT 识别对话过程中浮现的警告信号的能力，并利用该上下文信息来指导更谨慎的回应。

在这些罕见的高风险情况下，ChatGPT 能更好地区分良性请求与可能预示更高伤害风险的请求。这建立在我们安全完成方法的基础上，该方法旨在拒绝用户请求中不安全的部分，并在可以安全回应时谨慎回应。目标是帮助模型更适当地根据上下文做出反应，当对话中出现伤害信号时提高警惕，同时在良性情况下继续提供有用的回应。

跨对话提升安全性

某些安全风险可能跨越不同的对话浮现。一次对话可能包含潜在有害意图的细微迹象，而另一次对话可能包含相关请求，只有结合之前的上下文才能触发担忧。如果没有这些与安全相关的上下文，后续对话——以及可能重要的警告信号——可能看起来是良性的。

在我们长期致力于加强 ChatGPT 识别这些痛苦迹象能力的基础上，我们开发了安全摘要：关于早期安全相关上下文的简短、事实性笔记，这些上下文在罕见的高风险情况下可能很重要。这些摘要由一个为安全推理任务训练的模型生成，范围狭窄，仅保留有限时间，并且仅在涉及严重安全问题时使用。它们旨在捕捉事实性的安全上下文，而非作为通用个性化或长期记忆。正如我们上面讨论的，我们还训练 ChatGPT 更谨慎地使用此上下文，以便它能更好地识别何时需要额外谨慎并做出适当回应——例如，通过缓和局势、拒绝提供细节，或引导用户转向更安全的替代方案。

与心理健康专家合作

我们根据心理健康专业人士的意见开发了这些系统，这些专业人士来自我们的全球医生网络，包括在法医心理学、自杀预防和自残方面具有专业知识的心理医生和心理学家。

这些专家帮助指导了关于何时应创建安全摘要、多少先前上下文可能相关，以及模型在回应时应考虑该上下文多长时间等决策。他们的意见使这项工作立足于现实世界的专业知识，并支持在敏感情况下做出更适当的回应。

衡量改进

这些更新帮助 ChatGPT 更好地识别对话内部和跨对话的潜在有害意图模式。当令人担忧的信号逐渐出现时，模型能更好地识别该模式并做出更安全的回应。

在专门设计用于衡量挑战性案例表现的内部评估中，这些更新显著改善了风险随时间变得更清晰场景下的安全回应。这些测试衡量了在模拟高风险情况的对话中，模型给出预期安全回应的频率。

在长单次对话场景中，自杀和自残案例的安全回应表现提升了 50%，伤害他人案例提升了 16%。这意味着模型更有可能识别出对话早期部分如何改变后续请求的含义，并做出适当回应。

我们还测试了跨多个对话和多个模型的表现，以确保这些改进在模型演进时保持有效。在 GPT‑5.5 Instant（ChatGPT 当前默认模型）上，伤害他人案例的安全回应表现提升了 52%，自杀和自残案例提升了 39%。

我们还评估了安全摘要本身的质量。在超过 4,000 次评估中，它们的安全相关性平均得分为 4.93（满分 5 分），事实性得分为 4.34（满分 5 分），表明它们通常准确且聚焦于最重要的安全上下文。

最后，我们测试了添加此安全上下文是否会降低普通对话的质量。在我们的内部测试中，日常聊天中的回应总体上保持可比性，用户对有无安全摘要的回应没有表现出明显的偏好。

展望未来

帮助 AI 系统识别那些只有随时间推移才变得清晰的风险，是一个困难且长期的挑战。信号可能很细微，分散在消息中，或隐藏在原本普通的对话里。我们将继续提高 ChatGPT 识别那些罕见但重要时刻并做出适当回应的能力。

目前，这项工作聚焦于自残和伤害他人场景。未来，我们可能会探索类似方法是否能在其他高风险领域（如生物学或网络安全）中提供帮助，并配备谨慎的保障措施。这仍然是一个持续的优先事项，随着我们的模型和理解不断演进，我们将继续加强保障措施。

了解更多关于我们的安全和心理健康工作：

译自 OpenAI · 官方博客 · 录于二〇二六年五月十四日