推出语音查找器——从600多种声音中快速为你的应用找到合适声音的新工具
Introducing voice finder — a new tool to quickly find the right voice for your app from over 600+ voices
Voice Finder 为开发者提供了一种搜索 Together AI 语音目录的工具,支持输入应用场景或上传音频样本,并基于排序结果进行筛选和试听。该工具索引了10个TTS模型中的600多种语音,利用全模态模型生成了涵盖音高、性别、口音、语言、年龄、情感和说话风格等15个以上维度的结构化元数据,支持自然语言搜索和手动筛选。Together AI 提供实时语音助手构建平台,端到端延迟低于500ms。
为语音助手(voice agent)选择合适的语音,目前仍过于依赖人工操作。供应商的目录可能包含数十甚至数百种语音,而文档很少告诉你哪一种适合金融科技支持助手、冥想指导或游戏节目主持人。
Voice Finder 为开发者提供了一种更快捷的方式来搜索 Together AI 的语音目录。输入你正在构建的应用场景,或上传一段你心目中语音的简短音频样本,然后比较排序后的推荐结果,在线试听,并根据对你的用例重要的属性进行筛选。

工作原理
Voice Finder 索引了 Together AI 上 10 个 TTS 模型中的 600 多种语音。每种语音都可以直接在工具中播放。
在排序层背后,一个全模态模型(omni-model)已听过每一种语音,并生成了涵盖 15 个以上维度的结构化元数据,包括音高、性别、口音、语言、年龄、情感和说话风格。这些元数据同时支持自然语言搜索和手动筛选。
一些示例搜索:
- “冥想应用用的平静女声”
- “金融科技支持助手用的自信声音”
- “游戏节目用的活力主持人”
- “客服用的温暖双语声音”
目标很简单:从用例出发,快速获得一个简短的语音候选列表,以便继续构建。
这对语音助手为何重要
语音助手依赖的不仅仅是模型质量。语音必须适配产品、客户和具体场景。医疗问诊助手、餐厅点餐助手和娱乐伴侣不应听起来可以互换。
Together AI 为团队提供了一个单一平台,用于构建跨 STT、LLM 和 TTS 的实时语音助手。完整 pipeline 在同一云上共置运行,端到端延迟保持在 500ms 以下,足以支持实时轮换对话。Voice Finder 通过为开发者提供更快捷的方式来探索该技术栈中可用的语音,从而简化了模型选择步骤。