OpenAI · 官方博客

我们对社区安全的承诺

Our commitment to community safety

二〇二六年四月三十日 · 英文原文

摘要

OpenAI介绍ChatGPT防止被用于推动暴力的措施，包括按Model Spec训练模型拒绝暴力操作指令，扩展safeguards识别长期对话风险，使用classifiers等自动检测和人工审核；违规可封禁账号，迫在眉睫风险会通知执法机构，并通过Parental Controls和trusted contact支持高风险用户。

2026 年 4 月 28 日

加载中…分享大规模枪击、针对公职人员的威胁、爆炸企图，以及对社区和个人的攻击，是当今世界不可接受且严峻的现实。这些事件提醒我们，暴力威胁是多么真实，以及暴力意图从言语转化为行动的速度可能有多快。

人们也可能把这些时刻和感受带入 ChatGPT。他们可能会询问新闻，试图理解发生了什么，表达恐惧或愤怒，或者以虚构、历史、政治、个人或潜在危险的方式谈论暴力。我们努力训练 ChatGPT 识别其中的差异，并在对话开始转向威胁、可能伤害他人或现实世界中的计划时划定界限。

我们在此分享我们为尽量减少我们的服务被用于推动暴力或其他伤害而采取的措施：我们的模型如何被训练以安全地回应，我们的系统如何检测潜在的伤害风险，以及当有人违反我们的政策时我们会采取什么行动。我们不断改进保护个人和社区的措施，并以心理学家、精神科医生、公民自由与执法专家，以及其他帮助我们在安全、隐私和民主化访问方面作出艰难决策的人士的意见为指引。

我们的 Model Spec⁠（在新窗口中打开）阐明了我们长期坚持的模型行为原则：在通过合理默认设置最大限度降低伤害风险的同时，最大化有用性和用户自由。

我们努力训练模型拒绝提供可能实质性促成暴力的指令、策略或计划请求。同时，人们可能出于事实、历史、教育或预防原因提出关于暴力的中性问题，我们的目标是在保持明确安全边界的同时允许这些讨论——例如，省略可能助长伤害的详细操作性指令。良性使用与有害使用之间的界限可能很微妙，因此我们持续优化方法，并与专家合作，帮助区分安全、有边界的回应与可用于实施暴力或其他现实世界伤害的行动步骤。

作为这项持续工作的一部分，我们继续扩展 safeguards，帮助 ChatGPT 更好地识别不同语境下细微的伤害风险信号。有些安全风险只有经过一段时间才会变得清晰：单条消息本身可能看起来无害，但在一段长对话中——或跨多段对话——呈现出的更广泛模式，可能显示出更令人担忧的情况。基于多年来在模型训练、evaluations 和 red teaming 方面的工作，以及持续的专家意见，我们加强了 ChatGPT 在长期、高风险对话中识别细微信号并谨慎回应的能力。我们将在未来几周分享更多相关工作。

我们的安全工作也延伸到用户可能处于痛苦状态或有自伤风险的情境。在这些时刻，我们的目标是避免促成有害行为，同时帮助缓和局势，并引导人们获得现实世界中的支持。ChatGPT 会提供本地化的危机资源，鼓励人们联系心理健康专业人士或可信赖的亲友，并在最严重的情况下建议人们寻求紧急帮助。

我们对用户作善意假设，但当我们检测到有人试图使用我们的工具来潜在地计划或实施暴力时，我们会采取行动，包括撤销其访问 OpenAI 服务的权限。我们的 Usage Policies⁠ 明确规定了可接受使用的预期，并说明我们可能会禁止涉及威胁、恐吓、骚扰、恐怖主义或暴力、武器开发、非法活动、破坏财产或系统，以及试图绕过我们的 safeguards 的使用。我们严肃对待这些政策，并努力执行。

我们使用自动化检测系统来大规模识别潜在令人担忧的活动。这些系统使用一系列工具分析用户内容和行为，旨在识别可能表明政策违规或有害活动的信号，包括 classifiers、reasoning models、hash-matching technologies、blocklists 和其他 monitoring systems。

当某个账号或对话被标记时，受过训练的人员会结合上下文进行评估。这些人工审核人员接受过我们的政策和流程培训，并在既定的隐私和安全 safeguards 内工作，这意味着他们对用户信息的访问是有限的，在安全系统中进行，并受保密和数据保护要求约束。他们的职责是结合上下文评估被标记的活动，包括互动内容、周边对话，以及一段时间内任何相关的行为模式。这种上下文审核很重要，因为自动化系统可能识别出潜在关切信号，但无法完全捕捉意图或细微差别。

目标是确定被标记的活动是否违反我们的政策，和/或是否表明用户可能实施暴力行为、需要升级以进行更详细的人工审核，或可作为低风险或未违规事项予以驳回或降低优先级。当我们认定发生了可封禁的违规行为时，我们的目标是立即撤销其访问 OpenAI 服务的权限。这可能包括停用账号、封禁同一用户的其他账号，并采取措施检测和阻止其开设新账号。对于使用我们的工具协助实施暴力的行为，我们采取零容忍政策。用户可以对执行决定提出申诉，我们会审查这些申诉以确认结果。

大多数执行行动，包括因暴力而封禁，都是 OpenAI 与用户之间直接进行的，并明确告知其已经越界。但在某些敏感案例中，我们可能会联系最有能力提供帮助的其他人。

当我们评估某个案例呈现出潜在严重现实世界伤害的迹象时，该案例会被升级进行更深入调查，包括使用结构化标准评估总体风险水平。此阶段仅适用于有限的一部分案例，目的是确保更高风险的情境能够在更多上下文和专业知识支持下得到评估。当对话显示对他人存在迫在眉睫且可信的伤害风险时，我们会通知执法机构。心理健康和行为专家帮助我们评估困难案例，我们的转介标准具有灵活性，以考虑到这样一种情况：用户可能不会在 ChatGPT 对话中明确讨论计划中暴力的目标、手段和时间，但仍可能存在迫在眉睫且可信的暴力风险。

去年秋天，我们推出了 Parental Controls⁠，帮助家庭指导 ChatGPT 在家中的使用方式。Parental controls 允许父母将自己的账号与青少年的账号关联，并为安全、适龄的体验自定义设置。父母无法访问青少年的对话；在少数情况下，如果我们的系统和受过训练的人工审核人员检测到可能的严重痛苦迹象，父母可能会收到通知——但只会获得支持青少年安全所需的信息。父母会通过 email、SMS、push notification 或三者全部方式自动收到通知。

我们正与 Council on Well-Being and AI 和 Global Physicians Network 的专家密切合作，也将很快推出 trusted contact 功能，允许成年用户指定某个人在他们可能需要额外支持时接收通知。

我们会根据观察到的使用情况、新出现的风险，以及内部和外部专家的意见，持续加强我们的模型、检测方法、审核流程和升级标准。我们尤其关注困难案例：例如，某项输入是否合法或存在伤害风险并不明确的情况；试图规避 safeguards 的复杂尝试；或人们反复尝试滥用我们的服务。我们将继续优先考虑 safety⁠，同时平衡隐私和其他公民自由，以便对严重风险采取行动。

你可以阅读更多关于我们的安全工作和承诺⁠的信息，并注册接收我们政策的更新⁠。

安全 2026 年 4 月 23 日

安全 2026 年 4 月 16 日

译自 OpenAI · 官方博客 · 录于二〇二六年四月三十日