Skip to content

Часто задаваемые вопросы

Сначала проверьте эту страницу по типичным вопросам.

1. Использование моделей и безопасность

Хранит ли Fast-Token содержимое API-запросов пользователей?

Fast-Token не сохраняет содержимое запросов, отправленных через API, и не записывает ответы моделей. Fast-Token выступает только каналом ретрансляции: безопасно пересылает запросы соответствующим поставщикам моделей и возвращает вам их ответы без изменений.

Почему официальные Claude, GPT, Qwen отличаются от результатов API?

Сами модели те же; в официальных продуктах есть дополнительная инженерная обработка (например встроенные промпты).

  • Веб-версия — как полностью обставленная квартира: поиск, память, калькулятор, системные промпты и т.д.
  • API — как «коробка»: только ядро; контекст и инструменты настраивает разработчик.

Почему серию GPT-5 не рекомендуют для переводчиков?

Модели GPT-5 — reasoning-модели для сложных рассуждений и структурированной генерации, а не для частых задач в реальном времени.

Причины

  • Медленнее (больше шагов рассуждения).
  • Больше токенов (длинные системные промпты и контекст рассуждений).
  • Плагины перевода могут случайно сработать на политики безопасности.

Для перевода и диалога лучше лёгкие модели вроде GPT-4o mini или Gemini — быстрее и стабильнее.

Почему GPT-5 иногда отвечает «Я GPT-4» на вопрос «кто ты»?

Это галлюцинация языковой модели: неверное описание своей базы, происхождения или возможностей. С GPT-4, GPT-5, Claude и др. возможны уверенные, но неверные ответы о «личности» модели.

Пояснение

  • Платформа не подменяет и не намеренно меняет вывод модели — это нормальное поведение LLM.
  • В обучении GPT-5 не называли «GPT-5»; имя задали после обучения.
  • Модель не знает своё имя и дату знаний; веб OpenAI отвечает верно из‑за системных промптов. Мы даём официальный API, не веб-версию.
  • Прямой вопрос о себе через API может дать случайный неточный ответ — у модели нет настоящего самосознания.

Частые таймауты при вызове Gemini-3-Pro и подобных

Увеличьте таймаут. Gemini-3-Pro — крупная модель с долгим рассуждением; на сложных задачах ответ может занять больше 30 секунд, и дефолт 30 с часто недостаточен.

  • Если нужен именно Gemini-3-Pro — продлите таймаут.
  • Если важна скорость — легче модели вроде Gemini 2.0 при коротком таймауте.

Почему одно «привет» съело много токенов?

Некоторые сторонние инструменты (Cline, Claude Code и др.) автоматически добавляют контекст и системные промпты; скрытое содержимое тоже считается в токенах.

Даже при одной фразе в запросе может быть длинная история или пресеты — это со стороны инструмента, не генерирует Fast-Token.

Лимиты частоты параллельных запросов API?

Сейчас единого лимита параллелизма на платформе нет. При проблемах с конкурентностью обратитесь в поддержку.

Почему один и тот же промпт даёт разный результат?

LLM используют вероятностную выборку (temperature, top-p и т.д.) и случайно выбирают среди вероятных токенов.

  • Для стабильности снизьте temperature или отключите сэмплирование.
  • На результат влияют контекст, системные промпты и сеть.

Почему ответ Claude обрывается раньше времени?

Для Claude Fast-Token поддерживает два способа:

  1. API, совместимый с OpenAI Chat
  2. Нативный API Anthropic Claude

При вызове Claude через OpenAI Chat по умолчанию max_tokens=4096. Без большего значения вывод остановится на этом пределе. «Незавершённый» ответ чаще всего из‑за лимита длины, а не сбоя модели.

Как генерировать длиннее

В OpenAI Chat-совместимом API задайте больший max_tokens, например:

python
completion = client.chat.completions.create(
  model="claude-sonnet-4-6",
  max_tokens=6000,
  messages=[
    {
      "role": "assistant",
      "content": "总是用中文回复"
    },
    {
      "role": "user",
      "content": "What is the meaning of life?, over 6000 words"
    },
  ]
)

max_tokens не должен превышать максимум модели. Если обрезка остаётся — пришлите имя модели и полные параметры запроса.

2. Вызов API и данные

Какие API доступны?

Единый шлюз, совместимый с основными спецификациями:

Какие данные записываются при использовании API?

Только необходимое: учётная запись, журналы вызовов, модели, расход токенов, оплата.

Конфиденциальность

  • Ввод пользователя и вывод модели не сохраняются.
  • Данные только для биллинга и улучшения сервиса, не для анализа контента и не для третьих лиц.
  • Fast-Token не хранит тела запросов; если облако или поставщик модели ведут логи по безопасности/комплаенсу, действуют их политики.

3. Знания о моделях и типичные явления

Что такое AI-галлюцинация?

Когда LLM выдаёт информацию, не соответствующую фактам, без оснований или выдуманную.

Возможные причины

  • Смещение или пробелы в обучающих данных.
  • Переобучение.
  • Случайность при генерации.

Галлюцинации свойственны всем крупным языковым моделям, это не сбой системы.

4. Использование и устранение неполадок

Как отслеживать использование API и расход?

В консоли Fast-Token: объём вызовов, токены, детализация оплаты.

Статистика по моделям и периодам помогает оптимизировать стратегию и затраты.

Что делать при ошибке вызова?

В ответе API есть код и описание.

Частые причины:

  • Неверный формат запроса.
  • Модель недоступна или превышен лимит.

Как управлять API-ключами?

В консоли: создать, отозвать или обновить ключи.

Рекомендации по безопасности

  • Не светите ключи в публичных средах.
  • Отдельный ключ на проект.
  • Регулярная ротация.

5. Начало работы и тарификация

Как устроена тарификация ретранслятора?

  1. Несколько режимов: за запрос, за токены и др.
  2. Отображение использования API и стоимости в реальном времени.

Какие языки программирования поддерживаются?

REST API — любой язык с HTTP: Python, JavaScript, Java, Go, PHP, C# и др.

Как перенести существующий код?

Замените базовый URL API на наш адрес ретрансляции; остальные параметры без изменений. Пример:

text
// Было
https://api.openai.com/v1/chat/completions

// Стало
https://fast-token.com/v1/chat/completions

В большинстве библиотек достаточно сменить baseURL и ключ API.

Что делать при сбое API-запроса?

Типичные причины и решения:

  1. Ошибка аутентификации — проверьте ключ.
  2. Недостаточно средств — пополните счёт.
  3. Ошибка параметров — сверьтесь с документацией.
  4. Модель недоступна — попробуйте другую.
  5. Таймаут — сеть или нагрузка; повторите позже.

Если не помогло — онлайн-поддержка.

Где смотреть журнал вызовов и объём?

После входа: страница Журнал использования — время, модель, токены, стоимость.

Как обеспечивается безопасность данных?

  1. Тела запросов и ответов не храним.
  2. Весь трафик API по TLS.
  3. Строгий контроль доступа и прав.
  4. Регулярный аудит и сканирование уязвимостей.

Как получить помощь?

  1. Документация для разработчиков.
  2. Онлайн-поддержка.

Есть ли примеры кода?

Примеры и SDK для Python, Node.js, Java и др. — раздел Документация вверху сайта.