通过 API 中的新模型推进语音智能
Advancing voice intelligence with new models in the API
OpenAI 在 Realtime API 发布 GPT‑Realtime‑2、GPT‑Realtime‑Translate、GPT‑Realtime‑Whisper,覆盖实时 voice reasoning、70+ 输入语言到 13 种输出语言翻译和 streaming speech-to-text;GPT‑Realtime‑2 context window 增至 128K,并支持 tool calls、可调 reasoning effort。
我们在 API 中推出三款 audio model,为开发者解锁一类新的 voice app。借助这些模型,开发者可以构建更自然、更智能响应,并能实时采取行动的 voice experience:
- GPT‑Realtime‑2,我们首个具备 GPT‑5 级 reasoning 能力的 voice model,能够处理更难的请求,并自然地推进对话。
- GPT‑Realtime‑Translate,一款新的实时翻译模型,可在跟上说话人节奏的同时,将 70+ 种输入语言的语音翻译成 13 种输出语言。
- GPT‑Realtime‑Whisper,一款新的 streaming speech-to-text,可在说话人讲话时实时转写语音。
试用 GPT-Realtime-2
启动 session,然后与 GPT-Realtime-2 自然对话。
我可以问什么?
启动 session 后,可以试着说以下内容之一:
- 我今晚临时要办一场晚餐。我有 30 分钟时间,两位素食朋友,一位不吃蘑菇的人,还有一个很小的厨房。帮我规划一个简单菜单。
- 我要在日本的一场 live event 上欢迎来宾。请用日语说一段温暖、自然的欢迎词,就像主持人开启一场特别活动那样。
- 我的订单号是 Orbit-742Q。请清楚地复述一遍,这样我可以确认是否正确。
- 帮我练习告诉团队我们达成了发布里程碑。先用沉稳自信的语气说一遍,再用更兴奋的语气说一遍。
- 我正在为一次公路旅行策划 trivia。给我三个听起来 deceptively simple 的 trick questions,然后用一句话解释每个答案。
此 demo 有时间限制。使用它即表示你同意 OpenAI 的 条款,并确认已了解我们的 隐私政策。
Voice 正在成为人们使用软件的最自然方式之一。它让人们可以在开车时寻求帮助,在穿过机场时修改旅行计划,用自己偏好的语言获得支持,或在不停止打字的情况下完成任务流程。
但构建有用的 voice product,不只是需要快速轮流发言或听起来自然的声音。一个 voice agent 需要理解用户的意思,跟踪 context,在请求变化时恢复,边对话边使用 tool,并以符合当下情境的方式回应。
我们此次发布的这些模型,共同推动 realtime audio 从简单的一问一答,走向真正能做事的 voice interface:在对话展开时倾听、reason、翻译、转写并采取行动。
Voice 作为人与产品之间的 interface
随着 voice 成为使用软件的更自然方式,我们看到开发者围绕 voice AI 中的三种新兴模式进行构建:
- **Voice-to-action,**人们可以描述自己的需求,系统则可以对请求进行 reasoning、使用 tool 并完成任务。例如,Zillow 正在构建一个 assistant,它可以听取、reason 并处理这样的请求:“find me homes within my BuyAbility, avoid busy streets, and schedule a tour for Saturday.”
- **Systems-to-voice,**软件可以将 context 转化为实时语音指导。例如,一个 travel app 可以主动告诉旅客:“Your inbound flight is delayed, but you can still make your connection. I found the new gate, mapped the fastest route through the terminal, and your bag is still expected to transfer.”
- **Voice-to-voice,**AI 可以帮助实时对话跨语言、任务或变化中的 context 持续进行。例如,Deutsche Telekom 正在构建 voice support experience,让客户可以使用自己最熟悉的语言交流,同时模型会实时翻译对话。
这些模式也可以结合使用。Priceline 正在迈向一个未来:旅客可以通过 voice 管理整个行程,以对话方式搜索航班和酒店,处理航班延误后调整酒店预订或获取 TSA 等候时间实时更新等变更,并在旅客落地后翻译对话。
Realtime voice:帮助 voice model 进行 reasoning 并采取行动
GPT‑Realtime‑2 面向实时 voice interaction 构建,在模型对请求进行 reasoning、调用 tool、处理更正或打断,并以符合当下情境的方式回应时,仍能让对话持续推进。
- **Preambles:**开发者可以在主要回应前启用短语,例如 “let me check that” 或 “one moment while I look into it”,让用户知道 agent 正在处理请求。
- **Parallel tool calls and tool transparency:**模型可以同时调用多个 tool,并通过 “checking your calendar” 或 “looking that up now” 这样的短语让这些动作可被听见,帮助 agent 在完成任务时保持响应性。
- **更强的恢复行为:**模型可以通过说 “I’m having trouble with that right now” 等方式更自然地恢复,而不是静默失败或中断对话。
- **面向 agentic workflow 的更长 context:**我们将 context window 从 32K 增加到 128K,以支持更长、更连贯的 session 和更复杂的任务流。
- **更强的领域理解:**模型能更好地保留专业术语、专有名词、医疗健康术语,以及生产环境中重要的其他词汇。
- **更可控的语气和表达:**模型可以更好地调整语气——在解决问题时保持冷静,在用户受挫时体现同理心,或在确认成功操作时表现得积极。
- **可调整的 reasoning effort:**开发者现在可以从 minimal, low, medium, high, and xhigh 这几个 reasoning level 中选择,默认是 low,在简单交互的较低 latency 与复杂请求的更审慎 reasoning 之间取得平衡。
这些提升体现在与生产级 voice agent 高度相关的 audio evals 上:GPT‑Realtime‑2 (high) 在用于衡量 audio intelligence 的 Big Bench Audio 上比 GPT‑Realtime‑1.5 高 15.2%。GPT‑Realtime‑2 (xhigh) 在用于评估 instruction following 的 Audio MultiChallenge 上比 GPT‑Realtime‑1.5 高 13.8%,展示出在实时对话中更强的 reasoning、context management 和控制能力。
评估支持 audio input 的 language model 中具有挑战性的 reasoning 能力。Audio MultiChallenge(在新窗口中打开) 评估 spoken dialogue system 中的 multi-turn conversational intelligence,包括 instruction following、context integration、self-consistency,以及处理自然语音更正的能力。
GPT‑Realtime‑2 的优势体现在多种不同 use case 中:
用户
我正在考虑在通勤铁路车站旁开一家 900 平方英尺的独立咖啡店。客流在周二到周四早上 7 点到 10 点达到峰值;周一、周五和下午要冷清得多。租金很贵,但我很喜欢舒适座位、慢速手冲和本地糕点的想法。给我做一个战略性的 pre-mortem:如果一年后失败了,最可能发生了什么?然后建议我在承诺开完整咖啡馆之前,应该测试的最小版本业务是什么。
0:00 1:04
0:00 0:51
在早期测试中,企业使用 GPT‑Realtime‑2 构建 voice agent,帮助客户和员工通过自然对话完成事情:
“GPT-Realtime-2 最突出的地方,是它为复杂 voice interaction 带来的 intelligence 和 tool-calling 可靠性。在我们最难的 adversarial benchmark 上,经过 prompt optimization 后,这转化为 call success rate 提升 26 个百分点(95% vs. 69%)。GPT-Realtime-2 在 Fair Housing 合规方面也明显更稳健,这对我们的业务至关重要。agentic competence 与 guardrail strength 的结合,使其能够用于 Zillow 的生产级 voice。”
— Josh Weisberg,Zillow SVP and Head of AI
Realtime translation:构建实时多语言 voice experience
GPT‑Realtime‑Translate 帮助开发者构建实时多语言 voice experience,让每个人都可以用自己偏好的语言讲话,并实时听到对话翻译,同时阅读实时 transcription。它支持超过 70 种输入语言和 13 种输出语言,适用于 customer support、跨境销售、教育、活动、媒体,以及服务全球受众的 creator platform。
对开发者而言,实时翻译需要在跟上说话人节奏的同时保留含义,即使人们自然说话、切换 context,或使用地区发音和领域特定语言也要做到这一点。例如,Deutsche Telekom 正在测试该模型用于多语言 voice interaction,其中更低 latency 和更强 fluency 可以让跨语言对话感觉更自然。
在这段视频中,Vimeo 展示了 GPT‑Realtime‑Translate 如何在产品教育视频播放时进行实时翻译,让全球客户无需等待单独制作的版本,就能以自己偏好的语言听到更新。
“为印度构建 voice AI 意味着要处理多样的地区 phonetics。在我们针对 Hindi、Tamil 和 Telugu 的 evals 中,GPT-Realtime-Translate 的 Word Error Rates 比我们测试过的任何其他模型低 12.5%,同时 fallback rates 更低、task completion 更高,latency 也能支撑自然对话。它为多语言 voice AI 设立了新的标准。”
— Prateek Sachan,BolnaAI Co-founder & CTO
Realtime transcription:构建低 latency transcription experience
GPT‑Realtime‑Whisper 是一款新的 streaming transcription model,面向低 latency speech-to-text 构建。它会在人们讲话时转写 audio,因此实时产品可以感觉更快、更有响应性、更自然——从即时出现的 captions,到跟上对话节奏的 meeting notes。
该模型让实时语音可以在发生时进入业务 workflow。团队可以为会议、课堂、广播和活动提供 captions;在对话仍在进行时生成 notes 和 summaries;构建需要持续理解用户的 voice agent;并为 customer support、医疗健康、销售、招聘以及其他高频 spoken interaction 创建更快的 follow-up workflow。
Safety
Realtime API 集成了多层 safeguard 和 mitigation,以帮助防止滥用。我们在 Realtime API session 中使用 active classifier,这意味着如果检测到某些对话违反我们的 harmful content guidelines,这些对话可能会被停止。开发者也可以使用 Agents SDK.(在新窗口中打开) 轻松添加自己的额外 safety guardrail。
我们的 usage policies 禁止将我们服务的输出重新用于或分发为 spam、deception 或其他有害目的。开发者也必须向最终用户明确说明他们正在与 AI 交互,除非这一点从 context 中已经很明显。
Pricing & availability
GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper 已在 Realtime API 中提供。GPT‑Realtime‑2 的价格为 $32 / 1M audio input tokens(cached input tokens 为 $0.40)和 $64 / 1M audio output tokens。GPT‑Realtime‑Translate 的价格为每分钟 $0.034。GPT‑Realtime‑Whisper 的价格为每分钟 $0.017。
Get started
要开始构建,在 Codex 中打开此 prompt,将 GPT‑Realtime‑2 添加到现有 app,或启动一个新的 app。如果你还没有 Codex,请先下载 Codex app。