채팅 완료 생성 (스트리밍)
- OpenAI Chat Completions API와 호환되는 스트리밍 채팅 엔드포인트
model매개변수로 AI 모델 선택- 요청 본문에
stream: true를 설정하여 SSE 스트리밍 활성화 - 공식 문서: Chat Completions
Authorizations
Request Body
사용할 모델. Chat API와 호환되는 모델은 모델 엔드포인트 호환 표를 참조하세요.
지금까지 대화에 포함된 메시지 목록.
0~2 사이 샘플링 온도. 높은 값(예: 0.8)은 출력을 더 무작위로, 낮은 값(예: 0.2)은 더 집중적으로 만듭니다. 일반적으로 top_p 또는 이 값 중 하나만 변경하는 것을 권장합니다.
temperature 대안 핵 샘플링. top_p 확률 질량을 가진 토큰만 고려(예: 0.1 = 상위 10%). 일반적으로 temperature 또는 이 값 중 하나만 변경하는 것을 권장합니다.
기본값 1. 입력 메시지당 생성할 채팅 완료 선택 수.
스트리밍은 true로 설정. SSE로 부분 메시지 델타가 전송되며 data: [DONE]에서 스트림이 종료됩니다.
기본값 null. API가 더 이상 토큰을 생성하지 않는 최대 4개 시퀀스.
기본값 inf. 완료에서 생성할 최대 토큰 수.
입·출력 토큰 총 길이는 모델 컨텍스트 길이로 제한됩니다.
-2.0~2.0 숫자. 지금까지 텍스트에 나타났는지에 따라 새 토큰에 페널티를 주어 새 주제 가능성을 높입니다. 자세히
기본값 0. -2.0~2.0. 텍스트 내 빈도에 따라 새 토큰에 페널티를 주어 반복을 줄입니다.
지정 토큰이 완료에 나타날 가능성을 수정합니다.
토큰 ID를 -100~100 편향 값에 매핑하는 JSON. 샘플링 전 logit에 적용되며 효과는 모델마다 다릅니다.
최종 사용자 고유 식별자. OpenAI 남용 모니터링에 도움이 됩니다. 자세히
출력 형식 객체. { "type": "json_object" }로 JSON 모드 활성화. JSON 모드 사용 시 system/user 메시지로 JSON 생성을 지시해야 합니다.
베타. 설정 시 동일 시드·매개변수로 반복 요청 시 가능한 한 결정적으로 샘플링합니다. 응답의 system_fingerprint로 백엔드 변경을 모니터링하세요.
모델이 호출할 수 있는 도구 목록. 현재 함수만 도구로 지원됩니다.
호출할 함수 제어: none = 호출 없음, auto = 모델 선택, {"type": "function", "function": {"name": "my_function"}}로 강제. 함수 없으면 기본 none, 있으면 auto.
추가 매개변수