Audio Understanding

POST

/v1beta/models/gemini-2.5-pro:generateContent

Upload audio via inline_data (base64, e.g. audio/mp3)
Use text to specify tasks such as transcription, summarization, or Q&A
Supports native multimodal generateContent format
Official docs: Audio understanding

Authorizations

bearer

Type

HTTP (bearer)

Request Body

application/json

object

object[]

Required

Responses

Success

Content-Type

application/json

POST

/v1beta/models/gemini-2.5-pro:generateContent

Playground

Authorization

bearer

Body

OpenAI Official Format

Chat Mode

Unified Standard API Format

Unified Standard Format

Chat Mode

OpenAI Format

Unified Standard API

OpenAI-Compatible Format

Replicate Official Format

OpenAI Compatible Format

Audio Understanding

Authorizations

Request Body

Responses

Playground

Samples

Audio Understanding​

Authorizations​

Request Body​

Responses​

Playground​

Samples​

Audio Understanding

Authorizations

Request Body

Responses

Playground

Samples