文本语音合成

POST /v1/audio/speech

请参考快速上手指南获取您的 API 密钥。

将 $YOUR_API_KEY 替换为您上一步生成的实际 API 密钥。
请将 $AUDIO_SAMPLE_URL 替换为语音样本的 URL，并将 $OUTPUT_PATH 替换为音频输出保存路径。

请求体

model 字符串必填
用于语音生成的模型 ID。

该字段支持两种类型的模型：

两种模型均可调用。

text 字符串必填
要转换为语音的文本。推荐长度：不超过 200 字符，以获得最佳效果。

language 字符串可选默认值为 zh-cn

输入文本的语言代码，如 zh-cn（中文）和 en（英文）等。默认值为 zh-cn。

sample_rate 整数可选默认值为 8000

音频采样率（Hz）。常用值：8000、12000、16000、24000、48000。默认值为 8000。

format 字符串可选默认值为 wav

输出音频格式。通常支持：wav、mp3、ogg。默认值为 wav。

stream 布尔值可选默认值为 false

若设为 true，API 将以流式格式返回音频，客户端可在生成过程中实时接收与播放音频，降低延迟。
若设为 false 或省略，API 会在生成完成后返回完整音频文件。
默认值为 false。

speed 浮点数可选默认值为 1.0

控制生成音频的语速。
可接受范围通常为 0.0 到 2.0。默认值为 1.0。

instruct_text 字符串可选默认值为 ""

自然语言指令，用于引导模型的语气、情绪、语速、方言或角色风格。
为了确保最佳音质，请至少包含下方所列的支持关键词之一：

支持关键词：

・情感：高兴、悲伤、惊讶、愤怒、恐惧、厌恶、冷静、严肃等・语速：快速、非常快速、慢速、非常慢速・方言：粤语、四川话、上海话、郑州话、长沙话、天津话等・角色扮演：神秘、凶狠、好奇、优雅、孤独、机器人、小猪佩奇等

示例值：

・"用开心的语气说话"
・"使用非常慢且冷静的语调"
・"像小猪佩奇那样说话"
・"用四川话并带有好奇的语气说话"

默认值为 ""（不提供提示）。

prompt_speech 字符串可选

参考音频文件的 URL。模型将模仿提供的语音样本的音色、语调、风格进行语音生成。

该音频必须通过公网可访问，格式应为标准音频格式如 .mp3、.wav 等。

注意：仅当所选模型支持音色克隆功能时该字段才会生效；若为语音生成模型，填写此字段将不会产生效果。

若未提供此字段，系统将使用默认语音。

返回值

使用 curl 时，如果未指定 --output 选项，API 返回的二进制内容将直接打印至终端，可能导致乱码或界面错乱。

请务必使用：--output $OUTPUT_PATH 将音频另存为文件。