テキスト音声合成
POST /v1/audio/speech
クイックスタートガイド を参照して、APIキーを取得してください。
$YOUR_API_KEY
を、前のステップで取得した実際のAPIキーに置き換えてください。
$AUDIO_SAMPLE_URL
を音声サンプルのURLに、$OUTPUT_PATH
を出力ファイルの保存先に置き換えてください。
リクエストボディ
model
文字列
必須
音声を生成するためのモデルIDを指定します。
本フィールドでは、以下の2種類のモデルを使用できます:
- 音声生成モデル:テキストを自然な音声に変換します。
- 音声クローニングモデル:特定の話者の声を模倣して音声を生成します。
どちらのモデルタイプも利用できます。
text
文字列
必須
音声に変換したいテキスト。推奨文字数は最大200文字です。
language 文字列 オプション デフォルト: zh-cn
入力テキストの言語コード。例: zh-cn
(中国語)、 en
(英語)など。デフォルトは zh-cn
。
sample_rate 整数 オプション デフォルト: 8000
音声サンプルレート(Hz)。一般的な値:8000
、12000
、16000
、24000
、48000
。
format 文字列 オプション デフォルト: wav
出力音声のフォーマット。一般的に wav
、mp3
、ogg
をサポートします。
stream ブール オプション デフォルト: false
true
に設定すると、ストリーミング形式で音声が返され、音声生成中にリアルタイムで再生可能になります。
false
または省略時は、音声合成完了後に全体を一括返却します。
speed 浮動小数点 オプション デフォルト: 1.0
話速の調整。範囲は通常 0.0
~ 2.0
。
instruct_text 文字列 オプション デフォルト: ""
感情・話速・方言・キャラクターなどを指定する自然言語形式の指示です。
音質を最適化するため、以下のいずれかのキーワードを含めてください:
サポートキーワード:
・感情:うれしい、悲しい、驚き、怒り、恐れ、嫌悪、落ち着き、真面目など ・話す速さ:速い、とても速い、ゆっくり、とてもゆっくり ・方言:広東語、四川語、上海語、鄭州方言、長沙方言、天津方言など ・ロールプレイ:神秘的、凶暴、好奇心旺盛、上品、孤独、ロボット、ペッパピッグなど
例:
・"Speak in a happy tone
"
・"Use a very slow and calm voice
"
・"Speak like Peppa Pig
"
・"Use a Sichuan dialect with a curious tone
"
デフォルトは ""
(指示なし)。
prompt_speech 文字列 オプション
参照音声ファイルのURLを指定します。指定された音声サンプルの話し方(トーン、音色、話し方のスタイルなど)をモデルが模倣して音声を合成します。
音声ファイルは .mp3
、.wav
などの一般的な形式で、外部からアクセス可能なURLである必要があります。
注意:このフィールドは、音声クローニング機能をサポートするモデルを使用している場合のみ有効です。音声生成モデルを使用している場合、本フィールドを指定しても効果はありません。
未指定の場合は、デフォルト音声が使用されます。
レスポンス
curl使用時に --output
オプションを指定しないと、音声バイナリがターミナルに出力され、画面が乱れる可能性があります。
必ず --output $OUTPUT_PATH
を指定してファイルとして保存してください。