コンテンツにスキップ

テキスト音声合成

POST /v1/audio/speech

クイックスタートガイド を参照して、APIキーを取得してください。

$YOUR_API_KEY を、前のステップで取得した実際のAPIキーに置き換えてください。
$AUDIO_SAMPLE_URL を音声サンプルのURLに、$OUTPUT_PATH を出力ファイルの保存先に置き換えてください。




リクエストボディ


model 文字列 必須
音声を生成するためのモデルIDを指定します。

本フィールドでは、以下の2種類のモデルを使用できます:

  • 音声生成モデル:テキストを自然な音声に変換します。
  • 音声クローニングモデル:特定の話者の声を模倣して音声を生成します。

どちらのモデルタイプも利用できます。


text 文字列 必須
音声に変換したいテキスト。推奨文字数は最大200文字です。


language 文字列 オプション デフォルト: zh-cn

入力テキストの言語コード。例: zh-cn(中国語)、 en(英語)など。デフォルトは zh-cn


sample_rate 整数 オプション デフォルト: 8000

音声サンプルレート(Hz)。一般的な値:800012000160002400048000


format 文字列 オプション デフォルト: wav

出力音声のフォーマット。一般的に wavmp3ogg をサポートします。


stream ブール オプション デフォルト: false

true に設定すると、ストリーミング形式で音声が返され、音声生成中にリアルタイムで再生可能になります。
false または省略時は、音声合成完了後に全体を一括返却します。


speed 浮動小数点 オプション デフォルト: 1.0

話速の調整。範囲は通常 0.02.0


instruct_text 文字列 オプション デフォルト: ""

感情・話速・方言・キャラクターなどを指定する自然言語形式の指示です。
音質を最適化するため、以下のいずれかのキーワードを含めてください:

サポートキーワード:

・感情:うれしい、悲しい、驚き、怒り、恐れ、嫌悪、落ち着き、真面目など ・話す速さ:速い、とても速い、ゆっくり、とてもゆっくり ・方言:広東語、四川語、上海語、鄭州方言、長沙方言、天津方言など ・ロールプレイ:神秘的、凶暴、好奇心旺盛、上品、孤独、ロボット、ペッパピッグなど

例:

・"Speak in a happy tone"

・"Use a very slow and calm voice"

・"Speak like Peppa Pig"

・"Use a Sichuan dialect with a curious tone"

デフォルトは ""(指示なし)。


prompt_speech 文字列 オプション

参照音声ファイルのURLを指定します。指定された音声サンプルの話し方(トーン、音色、話し方のスタイルなど)をモデルが模倣して音声を合成します。

音声ファイルは .mp3.wav などの一般的な形式で、外部からアクセス可能なURLである必要があります。

注意:このフィールドは、音声クローニング機能をサポートするモデルを使用している場合のみ有効です。音声生成モデルを使用している場合、本フィールドを指定しても効果はありません。

未指定の場合は、デフォルト音声が使用されます。




レスポンス

curl使用時に --output オプションを指定しないと、音声バイナリがターミナルに出力され、画面が乱れる可能性があります。

必ず --output $OUTPUT_PATH を指定してファイルとして保存してください。