채팅 완료 생성 (스트리밍)

POST

/v1/chat/completions

OpenAI Chat Completions API와 호환되는 스트리밍 채팅 엔드포인트
model 매개변수로 AI 모델 선택
요청 본문에 stream: true를 설정하여 SSE 스트리밍 활성화
공식 문서: Chat Completions

Authorizations

bearer

Type

HTTP (bearer)

Request Body

application/json

object

사용할 모델. Chat API와 호환되는 모델은 모델 엔드포인트 호환 표를 참조하세요.

object[]

Required

지금까지 대화에 포함된 메시지 목록.

0~2 사이 샘플링 온도. 높은 값(예: 0.8)은 출력을 더 무작위로, 낮은 값(예: 0.2)은 더 집중적으로 만듭니다. 일반적으로 top_p 또는 이 값 중 하나만 변경하는 것을 권장합니다.

temperature 대안 핵 샘플링. top_p 확률 질량을 가진 토큰만 고려(예: 0.1 = 상위 10%). 일반적으로 temperature 또는 이 값 중 하나만 변경하는 것을 권장합니다.

기본값 1. 입력 메시지당 생성할 채팅 완료 선택 수.

스트리밍은 true로 설정. SSE로 부분 메시지 델타가 전송되며 data: [DONE]에서 스트림이 종료됩니다.

기본값 null. API가 더 이상 토큰을 생성하지 않는 최대 4개 시퀀스.

기본값 inf. 완료에서 생성할 최대 토큰 수.

입·출력 토큰 총 길이는 모델 컨텍스트 길이로 제한됩니다.

-2.0~2.0 숫자. 지금까지 텍스트에 나타났는지에 따라 새 토큰에 페널티를 주어 새 주제 가능성을 높입니다. 자세히

기본값 0. -2.0~2.0. 텍스트 내 빈도에 따라 새 토큰에 페널티를 주어 반복을 줄입니다.

지정 토큰이 완료에 나타날 가능성을 수정합니다.
토큰 ID를 -100~100 편향 값에 매핑하는 JSON. 샘플링 전 logit에 적용되며 효과는 모델마다 다릅니다.

최종 사용자 고유 식별자. OpenAI 남용 모니터링에 도움이 됩니다. 자세히

출력 형식 객체. { "type": "json_object" }로 JSON 모드 활성화. JSON 모드 사용 시 system/user 메시지로 JSON 생성을 지시해야 합니다.

베타. 설정 시 동일 시드·매개변수로 반복 요청 시 가능한 한 결정적으로 샘플링합니다. 응답의 system_fingerprint로 백엔드 변경을 모니터링하세요.

모델이 호출할 수 있는 도구 목록. 현재 함수만 도구로 지원됩니다.

호출할 함수 제어: none = 호출 없음, auto = 모델 선택, {"type": "function", "function": {"name": "my_function"}}로 강제. 함수 없으면 기본 none, 있으면 auto.

object

추가 매개변수

OpenAI 공식 형식

채팅 모드

통합 표준 API 형식

통일된 표준 형식

Chat 모드

OpenAI 호환 형식

통합 표준 API

OpenAI 호환 형식

Replicate 공식 형식

OpenAI 호환 형식

채팅 완료 생성 (스트리밍)

Authorizations

Request Body

Responses

Playground

Samples

채팅 완료 생성 (스트리밍)​

Authorizations​

Request Body​

Responses​

Playground​

Samples​

채팅 완료 생성 (스트리밍)

Authorizations

Request Body

Responses

Playground

Samples