一声棒喝,本不立文字
偏要著録,已是二义

Apollo Research · 安全

我们在安全、科学传播与利益冲突方面的规范

Our Norms on Security, Science Communication and Conflicts of Interest

二〇二六年五月十三日 · 英文原文

Apollo Research 制定了利益冲突政策、发表与安全规范及科学传播规范。利益冲突方面,不接受结果依赖报酬、来自被评估组织的杂项赠款或投资,有财务利益者回避评估。安全规范遵循最小权限原则、差异化发表策略,不主动训练AI从事灾难性行为,信息安全符合ISO/IEC 27001、SOC 2标准。传播规范强调真实准确、科学严谨、协作同行评审,并与政府合作防止领域退化。

在 Apollo Research,我们将研究建立在具体的政策与日常实践之上,旨在维护我们的使命与科学诚信。我们鼓励在整个工作流程中保持严谨与清晰,并辅以明确的利益冲突政策以及强有力的发表与安全规范。在这篇博文中,我们将更详细地介绍其中一些规范。

我们的利益冲突政策

我们相信并支持一个繁荣且功能健全的评估生态系统的发展,这个生态系统应雄心勃勃地效仿更大型、更成熟的行业。作为其中的一部分,我们主张评估人员应因其工作获得公平的报酬。在生态系统达到理想状态(届时其他机制可能可行)之前,我们通常要求委托我们工作的各方按公平市场价值支付报酬。以下是我们内部利益冲突政策的一些细节。

  1. 我们不接受报酬取决于工作结果的工作。
  2. 我们不接受来自我们正在或预期将为其进行评估(合同之外)的组织的杂项赠款或投资。
  3. 任何被认为在我们正在评估的组织中拥有财务利益的个人,都将被回避参与该特定评估。
  4. 我们不接受会导致我们的研究或研究结果被歪曲的工作。

我们的发表与安全规范

根据我们的使命,Apollo Research 的目标是创造能够减少或防止可能对人类造成灾难性风险的 AI 系统发展的研究与工具。这意味着我们需要谨慎选择分享什么内容以及与谁分享。在某些时候,如果我们的研究被某些方获取,可能会带来一些风险。因此,我们旨在通过各种规范、安全流程和发表原则来减轻这些风险,以下将介绍其中一部分。

  1. 我们遵循最小权限原则,即尽可能将敏感信息限制在最少必要人员范围内。
  2. 我们维护全面的技术安全控制,包括但不限于:基于角色的访问控制的强身份验证、端点保护、物理安全、电子邮件保护和日志记录。
  3. 在运行任何实验之前,我们会仔细权衡可能的收益与风险,并且仅在收益明显大于危害时才进行该实验。
  4. 我们不会,也永远不会主动训练 AI 模型从事灾难性的危险行为。
  5. 我们采用差异化发表策略,即根据项目的安全需求以及我们对分享工作的收益与风险的评估,以不同程度的开放性传播信息。默认情况下,所有新项目都分配最高安全级别,而降低每个项目的隐私级别需要承担举证责任。同样,我们也会从出版物中删去敏感信息。

我们的信息安全策略符合 ISO/IEC 27001、SOC 2 以及适用的隐私和数据保护法规。我们正在推进 ISO/IEC 27001/42001 和 SOC 2 Type II 的正式认证。我们之前关于安全政策的博文可在此处访问

对于与我们合作且关注知识产权或敏感信息的第三方,请联系我们了解我们安全计划的详细信息。

我们的科学传播规范

我们认识到,有效且负责任的科学传播对于建立和维护公众及机构的信任至关重要。鉴于 AI 安全研究的复杂性和高风险性,以清晰、有分寸且严谨的方式向所有相关利益方传播我们的工作至关重要。我们力求向政府、行业和广大公众真实、准确地传达我们的研究及其发现,确保所有提案都有理有据,并建立在坚实的科学证据之上。

我们实施以下规范以确保传播的严谨性和谨慎性:

  1. 我们承诺在与政府、行业和公众的所有接触中,真实、直接且准确地传达我们的研究及其发现。
  2. 我们优先考虑科学严谨性,并专注于提出基于我们工作的、有充分依据的政策建议。
  3. 我们培养协作和同行评审的文化,积极邀请多元见解以建立集体专业知识,并避免可避免的盲点。
  4. 我们与相关政府机构和部门密切合作,并支持基于最新技术、其潜力及局限性的努力。
  5. 我们承诺采取行动,在其他条件相同的情况下,防止该领域的退化,例如防止评估质量的“逐底竞争”。
译自 Apollo Research · 安全 · 录于 二〇二六年五月十三日