Часто задаваемые вопросы

Сначала проверьте эту страницу по типичным вопросам.

1. Использование моделей и безопасность

Хранит ли Fast-Token содержимое API-запросов пользователей?

Fast-Token не сохраняет содержимое запросов, отправленных через API, и не записывает ответы моделей. Fast-Token выступает только каналом ретрансляции: безопасно пересылает запросы соответствующим поставщикам моделей и возвращает вам их ответы без изменений.

Почему официальные Claude, GPT, Qwen отличаются от результатов API?

Сами модели те же; в официальных продуктах есть дополнительная инженерная обработка (например встроенные промпты).

Веб-версия — как полностью обставленная квартира: поиск, память, калькулятор, системные промпты и т.д.
API — как «коробка»: только ядро; контекст и инструменты настраивает разработчик.

Почему серию GPT-5 не рекомендуют для переводчиков?

Модели GPT-5 — reasoning-модели для сложных рассуждений и структурированной генерации, а не для частых задач в реальном времени.

Причины

Медленнее (больше шагов рассуждения).
Больше токенов (длинные системные промпты и контекст рассуждений).
Плагины перевода могут случайно сработать на политики безопасности.

Для перевода и диалога лучше лёгкие модели вроде GPT-4o mini или Gemini — быстрее и стабильнее.

Почему GPT-5 иногда отвечает «Я GPT-4» на вопрос «кто ты»?

Это галлюцинация языковой модели: неверное описание своей базы, происхождения или возможностей. С GPT-4, GPT-5, Claude и др. возможны уверенные, но неверные ответы о «личности» модели.

Пояснение

Платформа не подменяет и не намеренно меняет вывод модели — это нормальное поведение LLM.
В обучении GPT-5 не называли «GPT-5»; имя задали после обучения.
Модель не знает своё имя и дату знаний; веб OpenAI отвечает верно из‑за системных промптов. Мы даём официальный API, не веб-версию.
Прямой вопрос о себе через API может дать случайный неточный ответ — у модели нет настоящего самосознания.

Частые таймауты при вызове Gemini-3-Pro и подобных

Увеличьте таймаут. Gemini-3-Pro — крупная модель с долгим рассуждением; на сложных задачах ответ может занять больше 30 секунд, и дефолт 30 с часто недостаточен.

Если нужен именно Gemini-3-Pro — продлите таймаут.
Если важна скорость — легче модели вроде Gemini 2.0 при коротком таймауте.

Почему одно «привет» съело много токенов?

Некоторые сторонние инструменты (Cline, Claude Code и др.) автоматически добавляют контекст и системные промпты; скрытое содержимое тоже считается в токенах.

Даже при одной фразе в запросе может быть длинная история или пресеты — это со стороны инструмента, не генерирует Fast-Token.

Лимиты частоты параллельных запросов API?

Сейчас единого лимита параллелизма на платформе нет. При проблемах с конкурентностью обратитесь в поддержку.

Почему один и тот же промпт даёт разный результат?

LLM используют вероятностную выборку (temperature, top-p и т.д.) и случайно выбирают среди вероятных токенов.

Для стабильности снизьте temperature или отключите сэмплирование.
На результат влияют контекст, системные промпты и сеть.

Почему ответ Claude обрывается раньше времени?

Для Claude Fast-Token поддерживает два способа:

API, совместимый с OpenAI Chat
Нативный API Anthropic Claude

При вызове Claude через OpenAI Chat по умолчанию max_tokens=4096. Без большего значения вывод остановится на этом пределе. «Незавершённый» ответ чаще всего из‑за лимита длины, а не сбоя модели.

Как генерировать длиннее

В OpenAI Chat-совместимом API задайте больший max_tokens, например:

python

completion = client.chat.completions.create(
  model="claude-sonnet-4-6",
  max_tokens=6000,
  messages=[
    {
      "role": "assistant",
      "content": "总是用中文回复"
    },
    {
      "role": "user",
      "content": "What is the meaning of life?, over 6000 words"
    },
  ]
)

max_tokens не должен превышать максимум модели. Если обрезка остаётся — пришлите имя модели и полные параметры запроса.

2. Вызов API и данные

Какие API доступны?

Единый шлюз, совместимый с основными спецификациями:

Эндпоинт в стиле OpenAI: https://fast-token.com/v1 (GPT и совместимые модели)
Ретрансляция Claude: https://fast-token.com (совместимость с Anthropic SDK)

Какие данные записываются при использовании API?

Только необходимое: учётная запись, журналы вызовов, модели, расход токенов, оплата.

Конфиденциальность

Ввод пользователя и вывод модели не сохраняются.
Данные только для биллинга и улучшения сервиса, не для анализа контента и не для третьих лиц.
Fast-Token не хранит тела запросов; если облако или поставщик модели ведут логи по безопасности/комплаенсу, действуют их политики.

3. Знания о моделях и типичные явления

Что такое AI-галлюцинация?

Когда LLM выдаёт информацию, не соответствующую фактам, без оснований или выдуманную.

Возможные причины

Смещение или пробелы в обучающих данных.
Переобучение.
Случайность при генерации.

Галлюцинации свойственны всем крупным языковым моделям, это не сбой системы.

4. Использование и устранение неполадок

Как отслеживать использование API и расход?

В консоли Fast-Token: объём вызовов, токены, детализация оплаты.

Статистика по моделям и периодам помогает оптимизировать стратегию и затраты.

Что делать при ошибке вызова?

В ответе API есть код и описание.

Частые причины:

Неверный формат запроса.
Модель недоступна или превышен лимит.

Как управлять API-ключами?

В консоли: создать, отозвать или обновить ключи.

5. Начало работы и тарификация

Как устроена тарификация ретранслятора?

Несколько режимов: за запрос, за токены и др.
Отображение использования API и стоимости в реальном времени.

Какие языки программирования поддерживаются?

REST API — любой язык с HTTP: Python, JavaScript, Java, Go, PHP, C# и др.

Как перенести существующий код?

Замените базовый URL API на наш адрес ретрансляции; остальные параметры без изменений. Пример:

text

// Было
https://api.openai.com/v1/chat/completions

// Стало
https://fast-token.com/v1/chat/completions

В большинстве библиотек достаточно сменить baseURL и ключ API.

Что делать при сбое API-запроса?

Типичные причины и решения:

Ошибка аутентификации — проверьте ключ.
Недостаточно средств — пополните счёт.
Ошибка параметров — сверьтесь с документацией.
Модель недоступна — попробуйте другую.
Таймаут — сеть или нагрузка; повторите позже.

Если не помогло — онлайн-поддержка.

Где смотреть журнал вызовов и объём?

После входа: страница Журнал использования — время, модель, токены, стоимость.

Как обеспечивается безопасность данных?

Тела запросов и ответов не храним.
Весь трафик API по TLS.
Строгий контроль доступа и прав.
Регулярный аудит и сканирование уязвимостей.

Как получить помощь?

Документация для разработчиков.
Онлайн-поддержка.

Есть ли примеры кода?

Примеры и SDK для Python, Node.js, Java и др. — раздел Документация вверху сайта.

Часто задаваемые вопросы ​

1. Использование моделей и безопасность ​

Хранит ли Fast-Token содержимое API-запросов пользователей? ​

Почему официальные Claude, GPT, Qwen отличаются от результатов API? ​

Почему серию GPT-5 не рекомендуют для переводчиков? ​

Причины ​

Почему GPT-5 иногда отвечает «Я GPT-4» на вопрос «кто ты»? ​

Пояснение ​

Частые таймауты при вызове Gemini-3-Pro и подобных ​

Почему одно «привет» съело много токенов? ​

Лимиты частоты параллельных запросов API? ​

Почему один и тот же промпт даёт разный результат? ​

Почему ответ Claude обрывается раньше времени? ​

Как генерировать длиннее ​

2. Вызов API и данные ​

Какие API доступны? ​

Какие данные записываются при использовании API? ​

Конфиденциальность ​

3. Знания о моделях и типичные явления ​

Что такое AI-галлюцинация? ​

Возможные причины ​

4. Использование и устранение неполадок ​

Как отслеживать использование API и расход? ​

Что делать при ошибке вызова? ​

Как управлять API-ключами? ​

Рекомендации по безопасности ​

5. Начало работы и тарификация ​

Как устроена тарификация ретранслятора? ​

Какие языки программирования поддерживаются? ​

Как перенести существующий код? ​

Что делать при сбое API-запроса? ​

Где смотреть журнал вызовов и объём? ​

Как обеспечивается безопасность данных? ​

Как получить помощь? ​

Есть ли примеры кода? ​