Часто задаваемые вопросы
Сначала проверьте эту страницу по типичным вопросам.
1. Использование моделей и безопасность
Хранит ли Fast-Token содержимое API-запросов пользователей?
Fast-Token не сохраняет содержимое запросов, отправленных через API, и не записывает ответы моделей. Fast-Token выступает только каналом ретрансляции: безопасно пересылает запросы соответствующим поставщикам моделей и возвращает вам их ответы без изменений.
Почему официальные Claude, GPT, Qwen отличаются от результатов API?
Сами модели те же; в официальных продуктах есть дополнительная инженерная обработка (например встроенные промпты).
- Веб-версия — как полностью обставленная квартира: поиск, память, калькулятор, системные промпты и т.д.
- API — как «коробка»: только ядро; контекст и инструменты настраивает разработчик.
Почему серию GPT-5 не рекомендуют для переводчиков?
Модели GPT-5 — reasoning-модели для сложных рассуждений и структурированной генерации, а не для частых задач в реальном времени.
Причины
- Медленнее (больше шагов рассуждения).
- Больше токенов (длинные системные промпты и контекст рассуждений).
- Плагины перевода могут случайно сработать на политики безопасности.
Для перевода и диалога лучше лёгкие модели вроде GPT-4o mini или Gemini — быстрее и стабильнее.
Почему GPT-5 иногда отвечает «Я GPT-4» на вопрос «кто ты»?
Это галлюцинация языковой модели: неверное описание своей базы, происхождения или возможностей. С GPT-4, GPT-5, Claude и др. возможны уверенные, но неверные ответы о «личности» модели.
Пояснение
- Платформа не подменяет и не намеренно меняет вывод модели — это нормальное поведение LLM.
- В обучении GPT-5 не называли «GPT-5»; имя задали после обучения.
- Модель не знает своё имя и дату знаний; веб OpenAI отвечает верно из‑за системных промптов. Мы даём официальный API, не веб-версию.
- Прямой вопрос о себе через API может дать случайный неточный ответ — у модели нет настоящего самосознания.
Частые таймауты при вызове Gemini-3-Pro и подобных
Увеличьте таймаут. Gemini-3-Pro — крупная модель с долгим рассуждением; на сложных задачах ответ может занять больше 30 секунд, и дефолт 30 с часто недостаточен.
- Если нужен именно Gemini-3-Pro — продлите таймаут.
- Если важна скорость — легче модели вроде Gemini 2.0 при коротком таймауте.
Почему одно «привет» съело много токенов?
Некоторые сторонние инструменты (Cline, Claude Code и др.) автоматически добавляют контекст и системные промпты; скрытое содержимое тоже считается в токенах.
Даже при одной фразе в запросе может быть длинная история или пресеты — это со стороны инструмента, не генерирует Fast-Token.
Лимиты частоты параллельных запросов API?
Сейчас единого лимита параллелизма на платформе нет. При проблемах с конкурентностью обратитесь в поддержку.
Почему один и тот же промпт даёт разный результат?
LLM используют вероятностную выборку (temperature, top-p и т.д.) и случайно выбирают среди вероятных токенов.
- Для стабильности снизьте temperature или отключите сэмплирование.
- На результат влияют контекст, системные промпты и сеть.
Почему ответ Claude обрывается раньше времени?
Для Claude Fast-Token поддерживает два способа:
- API, совместимый с OpenAI Chat
- Нативный API Anthropic Claude
При вызове Claude через OpenAI Chat по умолчанию max_tokens=4096. Без большего значения вывод остановится на этом пределе. «Незавершённый» ответ чаще всего из‑за лимита длины, а не сбоя модели.
Как генерировать длиннее
В OpenAI Chat-совместимом API задайте больший max_tokens, например:
completion = client.chat.completions.create(
model="claude-sonnet-4-6",
max_tokens=6000,
messages=[
{
"role": "assistant",
"content": "总是用中文回复"
},
{
"role": "user",
"content": "What is the meaning of life?, over 6000 words"
},
]
)max_tokens не должен превышать максимум модели. Если обрезка остаётся — пришлите имя модели и полные параметры запроса.
2. Вызов API и данные
Какие API доступны?
Единый шлюз, совместимый с основными спецификациями:
- Эндпоинт в стиле OpenAI: https://fast-token.com/v1 (GPT и совместимые модели)
- Ретрансляция Claude: https://fast-token.com (совместимость с Anthropic SDK)
Какие данные записываются при использовании API?
Только необходимое: учётная запись, журналы вызовов, модели, расход токенов, оплата.
Конфиденциальность
- Ввод пользователя и вывод модели не сохраняются.
- Данные только для биллинга и улучшения сервиса, не для анализа контента и не для третьих лиц.
- Fast-Token не хранит тела запросов; если облако или поставщик модели ведут логи по безопасности/комплаенсу, действуют их политики.
3. Знания о моделях и типичные явления
Что такое AI-галлюцинация?
Когда LLM выдаёт информацию, не соответствующую фактам, без оснований или выдуманную.
Возможные причины
- Смещение или пробелы в обучающих данных.
- Переобучение.
- Случайность при генерации.
Галлюцинации свойственны всем крупным языковым моделям, это не сбой системы.
4. Использование и устранение неполадок
Как отслеживать использование API и расход?
В консоли Fast-Token: объём вызовов, токены, детализация оплаты.
Статистика по моделям и периодам помогает оптимизировать стратегию и затраты.
Что делать при ошибке вызова?
В ответе API есть код и описание.
Частые причины:
- Неверный формат запроса.
- Модель недоступна или превышен лимит.
Как управлять API-ключами?
В консоли: создать, отозвать или обновить ключи.
Рекомендации по безопасности
- Не светите ключи в публичных средах.
- Отдельный ключ на проект.
- Регулярная ротация.
5. Начало работы и тарификация
Как устроена тарификация ретранслятора?
- Несколько режимов: за запрос, за токены и др.
- Отображение использования API и стоимости в реальном времени.
Какие языки программирования поддерживаются?
REST API — любой язык с HTTP: Python, JavaScript, Java, Go, PHP, C# и др.
Как перенести существующий код?
Замените базовый URL API на наш адрес ретрансляции; остальные параметры без изменений. Пример:
// Было
https://api.openai.com/v1/chat/completions
// Стало
https://fast-token.com/v1/chat/completionsВ большинстве библиотек достаточно сменить baseURL и ключ API.
Что делать при сбое API-запроса?
Типичные причины и решения:
- Ошибка аутентификации — проверьте ключ.
- Недостаточно средств — пополните счёт.
- Ошибка параметров — сверьтесь с документацией.
- Модель недоступна — попробуйте другую.
- Таймаут — сеть или нагрузка; повторите позже.
Если не помогло — онлайн-поддержка.
Где смотреть журнал вызовов и объём?
После входа: страница Журнал использования — время, модель, токены, стоимость.
Как обеспечивается безопасность данных?
- Тела запросов и ответов не храним.
- Весь трафик API по TLS.
- Строгий контроль доступа и прав.
- Регулярный аудит и сканирование уязвимостей.
Как получить помощь?
- Документация для разработчиков.
- Онлайн-поддержка.
Есть ли примеры кода?
Примеры и SDK для Python, Node.js, Java и др. — раздел Документация вверху сайта.