テキスト音声合成

POST /v1/audio/speech

クイックスタートガイドを参照して、APIキーを取得してください。

$YOUR_API_KEY を、前のステップで取得した実際のAPIキーに置き換えてください。
$AUDIO_SAMPLE_URL を音声サンプルのURLに、$OUTPUT_PATH を出力ファイルの保存先に置き換えてください。

リクエストボディ

model 文字列必須
音声を生成するためのモデルIDを指定します。

本フィールドでは、以下の2種類のモデルを使用できます：

どちらのモデルタイプも利用できます。

text 文字列必須
音声に変換したいテキスト。推奨文字数は最大200文字です。

language 文字列オプションデフォルト: zh-cn

入力テキストの言語コード。例: zh-cn（中国語）、 en（英語）など。デフォルトは zh-cn。

sample_rate 整数オプションデフォルト: 8000

音声サンプルレート（Hz）。一般的な値：8000、12000、16000、24000、48000。

format 文字列オプションデフォルト: wav

出力音声のフォーマット。一般的に wav、mp3、ogg をサポートします。

stream ブールオプションデフォルト: false

true に設定すると、ストリーミング形式で音声が返され、音声生成中にリアルタイムで再生可能になります。
false または省略時は、音声合成完了後に全体を一括返却します。

speed 浮動小数点オプションデフォルト: 1.0

話速の調整。範囲は通常 0.0 ～ 2.0。

instruct_text 文字列オプションデフォルト: ""

感情・話速・方言・キャラクターなどを指定する自然言語形式の指示です。
音質を最適化するため、以下のいずれかのキーワードを含めてください：

サポートキーワード：

・感情：うれしい、悲しい、驚き、怒り、恐れ、嫌悪、落ち着き、真面目など・話す速さ：速い、とても速い、ゆっくり、とてもゆっくり・方言：広東語、四川語、上海語、鄭州方言、長沙方言、天津方言など・ロールプレイ：神秘的、凶暴、好奇心旺盛、上品、孤独、ロボット、ペッパピッグなど

例：

・"Speak in a happy tone"

・"Use a very slow and calm voice"

・"Speak like Peppa Pig"

・"Use a Sichuan dialect with a curious tone"

デフォルトは ""（指示なし）。

prompt_speech 文字列オプション

参照音声ファイルのURLを指定します。指定された音声サンプルの話し方（トーン、音色、話し方のスタイルなど）をモデルが模倣して音声を合成します。

音声ファイルは .mp3、.wav などの一般的な形式で、外部からアクセス可能なURLである必要があります。

注意：このフィールドは、音声クローニング機能をサポートするモデルを使用している場合のみ有効です。音声生成モデルを使用している場合、本フィールドを指定しても効果はありません。

未指定の場合は、デフォルト音声が使用されます。

レスポンス

curl使用時に --output オプションを指定しないと、音声バイナリがターミナルに出力され、画面が乱れる可能性があります。

必ず --output $OUTPUT_PATH を指定してファイルとして保存してください。