Together AI · 官方

推出语音查找器——从600多种声音中快速为你的应用找到合适声音的新工具

Introducing voice finder — a new tool to quickly find the right voice for your app from over 600+ voices

二〇二六年五月十二日 · 英文原文

摘要

Voice Finder 为开发者提供了一种搜索 Together AI 语音目录的工具，支持输入应用场景或上传音频样本，并基于排序结果进行筛选和试听。该工具索引了10个TTS模型中的600多种语音，利用全模态模型生成了涵盖音高、性别、口音、语言、年龄、情感和说话风格等15个以上维度的结构化元数据，支持自然语言搜索和手动筛选。Together AI 提供实时语音助手构建平台，端到端延迟低于500ms。

为语音助手（voice agent）选择合适的语音，目前仍过于依赖人工操作。供应商的目录可能包含数十甚至数百种语音，而文档很少告诉你哪一种适合金融科技支持助手、冥想指导或游戏节目主持人。

Voice Finder 为开发者提供了一种更快捷的方式来搜索 Together AI 的语音目录。输入你正在构建的应用场景，或上传一段你心目中语音的简短音频样本，然后比较排序后的推荐结果，在线试听，并根据对你的用例重要的属性进行筛选。

图片1：Voice Finder 演示动画

工作原理

Voice Finder 索引了 Together AI 上 10 个 TTS 模型中的 600 多种语音。每种语音都可以直接在工具中播放。

在排序层背后，一个全模态模型（omni-model）已听过每一种语音，并生成了涵盖 15 个以上维度的结构化元数据，包括音高、性别、口音、语言、年龄、情感和说话风格。这些元数据同时支持自然语言搜索和手动筛选。

一些示例搜索：

“冥想应用用的平静女声”
“金融科技支持助手用的自信声音”
“游戏节目用的活力主持人”
“客服用的温暖双语声音”

目标很简单：从用例出发，快速获得一个简短的语音候选列表，以便继续构建。

这对语音助手为何重要

语音助手依赖的不仅仅是模型质量。语音必须适配产品、客户和具体场景。医疗问诊助手、餐厅点餐助手和娱乐伴侣不应听起来可以互换。

Together AI 为团队提供了一个单一平台，用于构建跨 STT、LLM 和 TTS 的实时语音助手。完整 pipeline 在同一云上共置运行，端到端延迟保持在 500ms 以下，足以支持实时轮换对话。Voice Finder 通过为开发者提供更快捷的方式来探索该技术栈中可用的语音，从而简化了模型选择步骤。

译自 Together AI · 官方 · 录于二〇二六年五月十二日