一声棒喝,本不立文字
偏要著録,已是二义

Together AI · 官方

推出语音查找器——从600多种声音中快速为你的应用找到合适声音的新工具

Introducing voice finder — a new tool to quickly find the right voice for your app from over 600+ voices

二〇二六年五月十二日 · 英文原文

Voice Finder 为开发者提供了一种搜索 Together AI 语音目录的工具,支持输入应用场景或上传音频样本,并基于排序结果进行筛选和试听。该工具索引了10个TTS模型中的600多种语音,利用全模态模型生成了涵盖音高、性别、口音、语言、年龄、情感和说话风格等15个以上维度的结构化元数据,支持自然语言搜索和手动筛选。Together AI 提供实时语音助手构建平台,端到端延迟低于500ms。

为语音助手(voice agent)选择合适的语音,目前仍过于依赖人工操作。供应商的目录可能包含数十甚至数百种语音,而文档很少告诉你哪一种适合金融科技支持助手、冥想指导或游戏节目主持人。

Voice Finder 为开发者提供了一种更快捷的方式来搜索 Together AI 的语音目录。输入你正在构建的应用场景,或上传一段你心目中语音的简短音频样本,然后比较排序后的推荐结果,在线试听,并根据对你的用例重要的属性进行筛选。

图片1:Voice Finder 演示动画

工作原理

Voice Finder 索引了 Together AI 上 10 个 TTS 模型中的 600 多种语音。每种语音都可以直接在工具中播放。

在排序层背后,一个全模态模型(omni-model)已听过每一种语音,并生成了涵盖 15 个以上维度的结构化元数据,包括音高、性别、口音、语言、年龄、情感和说话风格。这些元数据同时支持自然语言搜索和手动筛选。

一些示例搜索:

目标很简单:从用例出发,快速获得一个简短的语音候选列表,以便继续构建。

这对语音助手为何重要

语音助手依赖的不仅仅是模型质量。语音必须适配产品、客户和具体场景。医疗问诊助手、餐厅点餐助手和娱乐伴侣不应听起来可以互换。

Together AI 为团队提供了一个单一平台,用于构建跨 STT、LLM 和 TTS 的实时语音助手。完整 pipeline 在同一云上共置运行,端到端延迟保持在 500ms 以下,足以支持实时轮换对话。Voice Finder 通过为开发者提供更快捷的方式来探索该技术栈中可用的语音,从而简化了模型选择步骤。

译自 Together AI · 官方 · 录于 二〇二六年五月十二日