跳转至

文本语音合成

POST /v1/audio/speech

请参考 快速上手指南 获取您的 API 密钥。

$YOUR_API_KEY 替换为您上一步生成的实际 API 密钥。
请将 $AUDIO_SAMPLE_URL 替换为语音样本的 URL,并将 $OUTPUT_PATH 替换为音频输出保存路径。




请求体


model 字符串 必填
用于语音生成的模型 ID。

该字段支持两种类型的模型:

  • 语音生成模型:将文本转换为自然语音。
  • 声色克隆模型:模仿特定说话人声音进行生成。

两种模型均可调用。


text 字符串 必填
要转换为语音的文本。推荐长度:不超过 200 字符,以获得最佳效果。


language 字符串 可选 默认值为 zh-cn

输入文本的语言代码,如 zh-cn(中文)和 en(英文)等。默认值为 zh-cn


sample_rate 整数 可选 默认值为 8000

音频采样率(Hz)。常用值:800012000160002400048000。默认值为 8000


format 字符串 可选 默认值为 wav

输出音频格式。通常支持:wavmp3ogg。默认值为 wav


stream 布尔值 可选 默认值为 false

若设为 true,API 将以流式格式返回音频,客户端可在生成过程中实时接收与播放音频,降低延迟。
若设为 false 或省略,API 会在生成完成后返回完整音频文件。
默认值为 false


speed 浮点数 可选 默认值为 1.0

控制生成音频的语速。
可接受范围通常为 0.02.0。默认值为 1.0


instruct_text 字符串 可选 默认值为 ""

自然语言指令,用于引导模型的语气、情绪、语速、方言或角色风格。
为了确保最佳音质,请至少包含下方所列的支持关键词之一:

支持关键词:

・情感:高兴、悲伤、惊讶、愤怒、恐惧、厌恶、冷静、严肃等 ・语速:快速、非常快速、慢速、非常慢速 ・方言:粤语、四川话、上海话、郑州话、长沙话、天津话等 ・角色扮演:神秘、凶狠、好奇、优雅、孤独、机器人、小猪佩奇等

示例值:

・"用开心的语气说话"
・"使用非常慢且冷静的语调"
・"像小猪佩奇那样说话"
・"用四川话并带有好奇的语气说话"

默认值为 ""(不提供提示)。


prompt_speech 字符串 可选

参考音频文件的 URL。模型将模仿提供的语音样本的音色、语调、风格进行语音生成。

该音频必须通过公网可访问,格式应为标准音频格式如 .mp3.wav 等。

注意:仅当所选模型支持音色克隆功能时该字段才会生效;若为语音生成模型,填写此字段将不会产生效果。

若未提供此字段,系统将使用默认语音。




返回值

使用 curl 时,如果未指定 --output 选项,API 返回的二进制内容将直接打印至终端,可能导致乱码或界面错乱。

请务必使用:--output $OUTPUT_PATH 将音频另存为文件。