文本语音合成
POST /v1/audio/speech
请参考 快速上手指南 获取您的 API 密钥。
将 $YOUR_API_KEY
替换为您上一步生成的实际 API 密钥。
请将 $AUDIO_SAMPLE_URL
替换为语音样本的 URL,并将 $OUTPUT_PATH
替换为音频输出保存路径。
请求体
model
字符串
必填
用于语音生成的模型 ID。
该字段支持两种类型的模型:
- 语音生成模型:将文本转换为自然语音。
- 声色克隆模型:模仿特定说话人声音进行生成。
两种模型均可调用。
text
字符串
必填
要转换为语音的文本。推荐长度:不超过 200 字符,以获得最佳效果。
language 字符串 可选 默认值为 zh-cn
输入文本的语言代码,如 zh-cn
(中文)和 en
(英文)等。默认值为 zh-cn
。
sample_rate 整数 可选 默认值为 8000
音频采样率(Hz)。常用值:8000
、12000
、16000
、24000
、48000
。默认值为 8000
。
format 字符串 可选 默认值为 wav
输出音频格式。通常支持:wav
、mp3
、ogg
。默认值为 wav
。
stream 布尔值 可选 默认值为 false
若设为 true
,API 将以流式格式返回音频,客户端可在生成过程中实时接收与播放音频,降低延迟。
若设为 false
或省略,API 会在生成完成后返回完整音频文件。
默认值为 false
。
speed 浮点数 可选 默认值为 1.0
控制生成音频的语速。
可接受范围通常为 0.0
到 2.0
。默认值为 1.0
。
instruct_text 字符串 可选 默认值为 ""
自然语言指令,用于引导模型的语气、情绪、语速、方言或角色风格。
为了确保最佳音质,请至少包含下方所列的支持关键词之一:
支持关键词:
・情感:高兴、悲伤、惊讶、愤怒、恐惧、厌恶、冷静、严肃等 ・语速:快速、非常快速、慢速、非常慢速 ・方言:粤语、四川话、上海话、郑州话、长沙话、天津话等 ・角色扮演:神秘、凶狠、好奇、优雅、孤独、机器人、小猪佩奇等
示例值:
・"用开心的语气说话
"
・"使用非常慢且冷静的语调
"
・"像小猪佩奇那样说话
"
・"用四川话并带有好奇的语气说话
"
默认值为 ""
(不提供提示)。
prompt_speech 字符串 可选
参考音频文件的 URL。模型将模仿提供的语音样本的音色、语调、风格进行语音生成。
该音频必须通过公网可访问,格式应为标准音频格式如 .mp3
、.wav
等。
注意:仅当所选模型支持音色克隆功能时该字段才会生效;若为语音生成模型,填写此字段将不会产生效果。
若未提供此字段,系统将使用默认语音。
返回值
使用 curl 时,如果未指定 --output 选项,API 返回的二进制内容将直接打印至终端,可能导致乱码或界面错乱。
请务必使用:--output $OUTPUT_PATH
将音频另存为文件。