一声棒喝,本不立文字
偏要著録,已是二义

OpenAI · 官方博客

通过 API 中的新模型推进语音智能

Advancing voice intelligence with new models in the API

二〇二六年五月七日 · 英文原文

OpenAI 在 Realtime API 发布 GPT‑Realtime‑2、GPT‑Realtime‑Translate、GPT‑Realtime‑Whisper,覆盖实时 voice reasoning、70+ 输入语言到 13 种输出语言翻译和 streaming speech-to-text;GPT‑Realtime‑2 context window 增至 128K,并支持 tool calls、可调 reasoning effort。

我们在 API 中推出三款 audio model,为开发者解锁一类新的 voice app。借助这些模型,开发者可以构建更自然、更智能响应,并能实时采取行动的 voice experience:

试用 GPT-Realtime-2

启动 session,然后与 GPT-Realtime-2 自然对话。

我可以问什么?

启动 session 后,可以试着说以下内容之一:

此 demo 有时间限制。使用它即表示你同意 OpenAI 的 条款,并确认已了解我们的 隐私政策

Voice 正在成为人们使用软件的最自然方式之一。它让人们可以在开车时寻求帮助,在穿过机场时修改旅行计划,用自己偏好的语言获得支持,或在不停止打字的情况下完成任务流程。

但构建有用的 voice product,不只是需要快速轮流发言或听起来自然的声音。一个 voice agent 需要理解用户的意思,跟踪 context,在请求变化时恢复,边对话边使用 tool,并以符合当下情境的方式回应。

我们此次发布的这些模型,共同推动 realtime audio 从简单的一问一答,走向真正能做事的 voice interface:在对话展开时倾听、reason、翻译、转写并采取行动。

Voice 作为人与产品之间的 interface

随着 voice 成为使用软件的更自然方式,我们看到开发者围绕 voice AI 中的三种新兴模式进行构建:

这些模式也可以结合使用。Priceline 正在迈向一个未来:旅客可以通过 voice 管理整个行程,以对话方式搜索航班和酒店,处理航班延误后调整酒店预订或获取 TSA 等候时间实时更新等变更,并在旅客落地后翻译对话。

Realtime voice:帮助 voice model 进行 reasoning 并采取行动

GPT‑Realtime‑2 面向实时 voice interaction 构建,在模型对请求进行 reasoning、调用 tool、处理更正或打断,并以符合当下情境的方式回应时,仍能让对话持续推进。

这些提升体现在与生产级 voice agent 高度相关的 audio evals 上:GPT‑Realtime‑2 (high) 在用于衡量 audio intelligence 的 Big Bench Audio 上比 GPT‑Realtime‑1.5 高 15.2%。GPT‑Realtime‑2 (xhigh) 在用于评估 instruction following 的 Audio MultiChallenge 上比 GPT‑Realtime‑1.5 高 13.8%,展示出在实时对话中更强的 reasoning、context management 和控制能力。

评估支持 audio input 的 language model 中具有挑战性的 reasoning 能力。Audio MultiChallenge⁠(在新窗口中打开) 评估 spoken dialogue system 中的 multi-turn conversational intelligence,包括 instruction following、context integration、self-consistency,以及处理自然语音更正的能力。

GPT‑Realtime‑2 的优势体现在多种不同 use case 中:

用户

我正在考虑在通勤铁路车站旁开一家 900 平方英尺的独立咖啡店。客流在周二到周四早上 7 点到 10 点达到峰值;周一、周五和下午要冷清得多。租金很贵,但我很喜欢舒适座位、慢速手冲和本地糕点的想法。给我做一个战略性的 pre-mortem:如果一年后失败了,最可能发生了什么?然后建议我在承诺开完整咖啡馆之前,应该测试的最小版本业务是什么。

0:00 1:04

0:00 0:51

在早期测试中,企业使用 GPT‑Realtime‑2 构建 voice agent,帮助客户和员工通过自然对话完成事情:

“GPT-Realtime-2 最突出的地方,是它为复杂 voice interaction 带来的 intelligence 和 tool-calling 可靠性。在我们最难的 adversarial benchmark 上,经过 prompt optimization 后,这转化为 call success rate 提升 26 个百分点(95% vs. 69%)。GPT-Realtime-2 在 Fair Housing 合规方面也明显更稳健,这对我们的业务至关重要。agentic competence 与 guardrail strength 的结合,使其能够用于 Zillow 的生产级 voice。”

— Josh Weisberg,Zillow SVP and Head of AI

Realtime translation:构建实时多语言 voice experience

GPT‑Realtime‑Translate 帮助开发者构建实时多语言 voice experience,让每个人都可以用自己偏好的语言讲话,并实时听到对话翻译,同时阅读实时 transcription。它支持超过 70 种输入语言和 13 种输出语言,适用于 customer support、跨境销售、教育、活动、媒体,以及服务全球受众的 creator platform。

对开发者而言,实时翻译需要在跟上说话人节奏的同时保留含义,即使人们自然说话、切换 context,或使用地区发音和领域特定语言也要做到这一点。例如,Deutsche Telekom 正在测试该模型用于多语言 voice interaction,其中更低 latency 和更强 fluency 可以让跨语言对话感觉更自然。

在这段视频中,Vimeo 展示了 GPT‑Realtime‑Translate 如何在产品教育视频播放时进行实时翻译,让全球客户无需等待单独制作的版本,就能以自己偏好的语言听到更新。

“为印度构建 voice AI 意味着要处理多样的地区 phonetics。在我们针对 Hindi、Tamil 和 Telugu 的 evals 中,GPT-Realtime-Translate 的 Word Error Rates 比我们测试过的任何其他模型低 12.5%,同时 fallback rates 更低、task completion 更高,latency 也能支撑自然对话。它为多语言 voice AI 设立了新的标准。”

— Prateek Sachan,BolnaAI Co-founder & CTO

Realtime transcription:构建低 latency transcription experience

GPT‑Realtime‑Whisper 是一款新的 streaming transcription model,面向低 latency speech-to-text 构建。它会在人们讲话时转写 audio,因此实时产品可以感觉更快、更有响应性、更自然——从即时出现的 captions,到跟上对话节奏的 meeting notes。

该模型让实时语音可以在发生时进入业务 workflow。团队可以为会议、课堂、广播和活动提供 captions;在对话仍在进行时生成 notes 和 summaries;构建需要持续理解用户的 voice agent;并为 customer support、医疗健康、销售、招聘以及其他高频 spoken interaction 创建更快的 follow-up workflow。

Safety

Realtime API 集成了多层 safeguard 和 mitigation,以帮助防止滥用。我们在 Realtime API session 中使用 active classifier,这意味着如果检测到某些对话违反我们的 harmful content guidelines,这些对话可能会被停止。开发者也可以使用 Agents SDK⁠.⁠(在新窗口中打开) 轻松添加自己的额外 safety guardrail。

我们的 usage policies⁠⁠ 禁止将我们服务的输出重新用于或分发为 spam、deception 或其他有害目的。开发者也必须向最终用户明确说明他们正在与 AI 交互,除非这一点从 context 中已经很明显。

Pricing & availability

GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 已在 Realtime API 中提供。GPT‑Realtime‑2 的价格为 $32 / 1M audio input tokens(cached input tokens 为 $0.40)和 $64 / 1M audio output tokens。GPT‑Realtime‑Translate 的价格为每分钟 $0.034。GPT‑Realtime‑Whisper 的价格为每分钟 $0.017。

Get started

要开始构建,在 Codex⁠ 中打开此 prompt,将 GPT‑Realtime‑2 添加到现有 app,或启动一个新的 app。如果你还没有 Codex,请先下载 Codex app⁠

译自 OpenAI · 官方博客 · 录于 二〇二六年五月七日