OpenAI · 官方博客

通过 API 中的新模型推进语音智能

Advancing voice intelligence with new models in the API

二〇二六年五月七日 · 英文原文

摘要

OpenAI 在 Realtime API 发布 GPT‑Realtime‑2、GPT‑Realtime‑Translate、GPT‑Realtime‑Whisper，覆盖实时 voice reasoning、70+ 输入语言到 13 种输出语言翻译和 streaming speech-to-text；GPT‑Realtime‑2 context window 增至 128K，并支持 tool calls、可调 reasoning effort。

我们在 API 中推出三款 audio model，为开发者解锁一类新的 voice app。借助这些模型，开发者可以构建更自然、更智能响应，并能实时采取行动的 voice experience：

GPT‑Realtime‑2，我们首个具备 GPT‑5 级 reasoning 能力的 voice model，能够处理更难的请求，并自然地推进对话。
GPT‑Realtime‑Translate，一款新的实时翻译模型，可在跟上说话人节奏的同时，将 70+ 种输入语言的语音翻译成 13 种输出语言。
GPT‑Realtime‑Whisper，一款新的 streaming speech-to-text，可在说话人讲话时实时转写语音。

试用 GPT-Realtime-2

启动 session，然后与 GPT-Realtime-2 自然对话。

我可以问什么？

启动 session 后，可以试着说以下内容之一：

我今晚临时要办一场晚餐。我有 30 分钟时间，两位素食朋友，一位不吃蘑菇的人，还有一个很小的厨房。帮我规划一个简单菜单。
我要在日本的一场 live event 上欢迎来宾。请用日语说一段温暖、自然的欢迎词，就像主持人开启一场特别活动那样。
我的订单号是 Orbit-742Q。请清楚地复述一遍，这样我可以确认是否正确。
帮我练习告诉团队我们达成了发布里程碑。先用沉稳自信的语气说一遍，再用更兴奋的语气说一遍。
我正在为一次公路旅行策划 trivia。给我三个听起来 deceptively simple 的 trick questions，然后用一句话解释每个答案。

此 demo 有时间限制。使用它即表示你同意 OpenAI 的条款，并确认已了解我们的隐私政策。

Voice 正在成为人们使用软件的最自然方式之一。它让人们可以在开车时寻求帮助，在穿过机场时修改旅行计划，用自己偏好的语言获得支持，或在不停止打字的情况下完成任务流程。

但构建有用的 voice product，不只是需要快速轮流发言或听起来自然的声音。一个 voice agent 需要理解用户的意思，跟踪 context，在请求变化时恢复，边对话边使用 tool，并以符合当下情境的方式回应。

我们此次发布的这些模型，共同推动 realtime audio 从简单的一问一答，走向真正能做事的 voice interface：在对话展开时倾听、reason、翻译、转写并采取行动。

Voice 作为人与产品之间的 interface

随着 voice 成为使用软件的更自然方式，我们看到开发者围绕 voice AI 中的三种新兴模式进行构建：

**Voice-to-action，**人们可以描述自己的需求，系统则可以对请求进行 reasoning、使用 tool 并完成任务。例如，Zillow 正在构建一个 assistant，它可以听取、reason 并处理这样的请求：“find me homes within my BuyAbility, avoid busy streets, and schedule a tour for Saturday.”
**Systems-to-voice，**软件可以将 context 转化为实时语音指导。例如，一个 travel app 可以主动告诉旅客：“Your inbound flight is delayed, but you can still make your connection. I found the new gate, mapped the fastest route through the terminal, and your bag is still expected to transfer.”
**Voice-to-voice，**AI 可以帮助实时对话跨语言、任务或变化中的 context 持续进行。例如，Deutsche Telekom 正在构建 voice support experience，让客户可以使用自己最熟悉的语言交流，同时模型会实时翻译对话。

这些模式也可以结合使用。Priceline 正在迈向一个未来：旅客可以通过 voice 管理整个行程，以对话方式搜索航班和酒店，处理航班延误后调整酒店预订或获取 TSA 等候时间实时更新等变更，并在旅客落地后翻译对话。

Realtime voice：帮助 voice model 进行 reasoning 并采取行动

GPT‑Realtime‑2 面向实时 voice interaction 构建，在模型对请求进行 reasoning、调用 tool、处理更正或打断，并以符合当下情境的方式回应时，仍能让对话持续推进。

**Preambles：**开发者可以在主要回应前启用短语，例如 “let me check that” 或 “one moment while I look into it”，让用户知道 agent 正在处理请求。
**Parallel tool calls and tool transparency：**模型可以同时调用多个 tool，并通过 “checking your calendar” 或 “looking that up now” 这样的短语让这些动作可被听见，帮助 agent 在完成任务时保持响应性。
**更强的恢复行为：**模型可以通过说 “I’m having trouble with that right now” 等方式更自然地恢复，而不是静默失败或中断对话。
**面向 agentic workflow 的更长 context：**我们将 context window 从 32K 增加到 128K，以支持更长、更连贯的 session 和更复杂的任务流。
**更强的领域理解：**模型能更好地保留专业术语、专有名词、医疗健康术语，以及生产环境中重要的其他词汇。
**更可控的语气和表达：**模型可以更好地调整语气——在解决问题时保持冷静，在用户受挫时体现同理心，或在确认成功操作时表现得积极。
**可调整的 reasoning effort：**开发者现在可以从 minimal, low, medium, high, and xhigh 这几个 reasoning level 中选择，默认是 low，在简单交互的较低 latency 与复杂请求的更审慎 reasoning 之间取得平衡。

这些提升体现在与生产级 voice agent 高度相关的 audio evals 上：GPT‑Realtime‑2 (high) 在用于衡量 audio intelligence 的 Big Bench Audio 上比 GPT‑Realtime‑1.5 高 15.2%。GPT‑Realtime‑2 (xhigh) 在用于评估 instruction following 的 Audio MultiChallenge 上比 GPT‑Realtime‑1.5 高 13.8%，展示出在实时对话中更强的 reasoning、context management 和控制能力。

评估支持 audio input 的 language model 中具有挑战性的 reasoning 能力。Audio MultiChallenge⁠（在新窗口中打开）评估 spoken dialogue system 中的 multi-turn conversational intelligence，包括 instruction following、context integration、self-consistency，以及处理自然语音更正的能力。

GPT‑Realtime‑2 的优势体现在多种不同 use case 中：

用户

我正在考虑在通勤铁路车站旁开一家 900 平方英尺的独立咖啡店。客流在周二到周四早上 7 点到 10 点达到峰值；周一、周五和下午要冷清得多。租金很贵，但我很喜欢舒适座位、慢速手冲和本地糕点的想法。给我做一个战略性的 pre-mortem：如果一年后失败了，最可能发生了什么？然后建议我在承诺开完整咖啡馆之前，应该测试的最小版本业务是什么。

0:00 1:04

0:00 0:51

在早期测试中，企业使用 GPT‑Realtime‑2 构建 voice agent，帮助客户和员工通过自然对话完成事情：

“GPT-Realtime-2 最突出的地方，是它为复杂 voice interaction 带来的 intelligence 和 tool-calling 可靠性。在我们最难的 adversarial benchmark 上，经过 prompt optimization 后，这转化为 call success rate 提升 26 个百分点（95% vs. 69%）。GPT-Realtime-2 在 Fair Housing 合规方面也明显更稳健，这对我们的业务至关重要。agentic competence 与 guardrail strength 的结合，使其能够用于 Zillow 的生产级 voice。”

— Josh Weisberg，Zillow SVP and Head of AI

Realtime translation：构建实时多语言 voice experience

GPT‑Realtime‑Translate 帮助开发者构建实时多语言 voice experience，让每个人都可以用自己偏好的语言讲话，并实时听到对话翻译，同时阅读实时 transcription。它支持超过 70 种输入语言和 13 种输出语言，适用于 customer support、跨境销售、教育、活动、媒体，以及服务全球受众的 creator platform。

对开发者而言，实时翻译需要在跟上说话人节奏的同时保留含义，即使人们自然说话、切换 context，或使用地区发音和领域特定语言也要做到这一点。例如，Deutsche Telekom 正在测试该模型用于多语言 voice interaction，其中更低 latency 和更强 fluency 可以让跨语言对话感觉更自然。

在这段视频中，Vimeo 展示了 GPT‑Realtime‑Translate 如何在产品教育视频播放时进行实时翻译，让全球客户无需等待单独制作的版本，就能以自己偏好的语言听到更新。

“为印度构建 voice AI 意味着要处理多样的地区 phonetics。在我们针对 Hindi、Tamil 和 Telugu 的 evals 中，GPT-Realtime-Translate 的 Word Error Rates 比我们测试过的任何其他模型低 12.5%，同时 fallback rates 更低、task completion 更高，latency 也能支撑自然对话。它为多语言 voice AI 设立了新的标准。”

— Prateek Sachan，BolnaAI Co-founder & CTO

Realtime transcription：构建低 latency transcription experience

GPT‑Realtime‑Whisper 是一款新的 streaming transcription model，面向低 latency speech-to-text 构建。它会在人们讲话时转写 audio，因此实时产品可以感觉更快、更有响应性、更自然——从即时出现的 captions，到跟上对话节奏的 meeting notes。

该模型让实时语音可以在发生时进入业务 workflow。团队可以为会议、课堂、广播和活动提供 captions；在对话仍在进行时生成 notes 和 summaries；构建需要持续理解用户的 voice agent；并为 customer support、医疗健康、销售、招聘以及其他高频 spoken interaction 创建更快的 follow-up workflow。

Safety

Realtime API 集成了多层 safeguard 和 mitigation，以帮助防止滥用。我们在 Realtime API session 中使用 active classifier，这意味着如果检测到某些对话违反我们的 harmful content guidelines，这些对话可能会被停止。开发者也可以使用 Agents SDK⁠.⁠（在新窗口中打开）轻松添加自己的额外 safety guardrail。

我们的 usage policies⁠⁠ 禁止将我们服务的输出重新用于或分发为 spam、deception 或其他有害目的。开发者也必须向最终用户明确说明他们正在与 AI 交互，除非这一点从 context 中已经很明显。

Pricing & availability

GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 已在 Realtime API 中提供。GPT‑Realtime‑2 的价格为 $32 / 1M audio input tokens（cached input tokens 为 $0.40）和 $64 / 1M audio output tokens。GPT‑Realtime‑Translate 的价格为每分钟 $0.034。GPT‑Realtime‑Whisper 的价格为每分钟 $0.017。

Get started

要开始构建，在 Codex⁠ 中打开此 prompt，将 GPT‑Realtime‑2 添加到现有 app，或启动一个新的 app。如果你还没有 Codex，请先下载 Codex app⁠。

译自 OpenAI · 官方博客 · 录于二〇二六年五月七日