マルチモーダル入力

画像認識モデルのような一部のモデルは、テキストとメディアファイルを組み合わせて使用できるマルチモーダル入力をサポートしています。以下の例は、画像の提供方法を示しています。

POST /v1/chat/completions

curlPython

curl https://api-platform.ope.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $YOUR_API_KEY" \
  -d '{
    "model": "$MODEL_ID",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": [
          {
            "type": "image_url",
            "image_url": {"url": "$URL"}     # 画像URLまたはデータURL（base64）
          },
          {
            "type": "image_url",
            "image_url": {"url": "$URL"}     # 複数入力対応
          },
          {
            "type": "text",
            "text": "この画像の意味を説明してください。"
          }
        ]
      }
    ]
  }'

# まず、OpenAIライブラリをインストールしてください：
# pip install openai
from openai import OpenAI

client = OpenAI(
    api_key="$YOUR_API_KEY",
    base_url="https://api-platform.ope.ai/v1/"
)

completion = client.chat.completions.create(
    model="$MODEL_ID",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": [
            {
                "type": "image_url",
                "image_url": {"url": $URL}    # 画像URLまたはデータURL（base64）
            },
            {
                "type": "image_url",
                "image_url": {"url": $URL}    # 複数枚入力対応
            },
            {
                "type": "text",
                "text": "これらの画像の意味を説明してください。"
            }
        ]}
    ]
)
print(completion.choices[0].message)