Skip to content

Questions fréquentes

Consultez d’abord cette page pour les questions courantes.

1. Utilisation des modèles et sécurité

Fast-Token stocke-t-il le contenu des requêtes API ?

Fast-Token ne stocke aucun contenu de requête envoyé via l’API et n’enregistre pas les réponses des modèles. Fast-Token sert uniquement de relais pour transmettre vos requêtes en toute sécurité aux fournisseurs de modèles et vous renvoyer leurs réponses telles quelles.

Pourquoi les produits officiels Claude, GPT, Qwen diffèrent-ils des résultats API ?

Les modèles sous-jacents sont les mêmes ; les produits officiels ajoutent de l’ingénierie (prompts intégrés, etc.).

  • La version web est comme un logement meublé : recherche, mémoire, calculatrice, prompts système, etc.
  • L’API est une coque vide : capacité de base uniquement ; le développeur configure contexte et outils.

Pourquoi ne pas recommander la famille GPT-5 pour la traduction ?

Les GPT-5 sont des modèles de raisonnement pour tâches complexes et génération structurée, pas pour des usages temps réel à haute fréquence.

Raisons

  • Appels plus lents (plus d’étapes de raisonnement).
  • Plus de tokens (prompts système et contexte de raisonnement longs).
  • Les extensions de traduction peuvent déclencher des politiques de sécurité par erreur.

Pour traduction ou dialogue, préférez des modèles légers comme GPT-4o mini ou Gemini, plus rapides et stables.

Pourquoi GPT-5 répond parfois « Je suis GPT-4 » à « Qui es-tu ? »

C’est une hallucination : description erronée de sa base, origine ou capacités. Avec GPT-4, GPT-5, Claude, etc., des réponses fausses mais assurées sur l’identité sont possibles.

Précisions

  • Ce n’est pas une modification délibérée de la plateforme, c’est un comportement LLM normal.
  • GPT-5 n’a pas reçu le nom « GPT-5 » à l’entraînement ; le nom a été défini après coup.
  • Le modèle ne connaît ni son nom ni sa date de connaissances ; le web OpenAI répond grâce aux prompts système. Nous fournissons l’API officielle, pas le produit web.
  • Via l’API, les réponses sur l’identité peuvent être aléatoires et inexactes : pas de vraie conscience de soi.

Timeouts fréquents avec Gemini-3-Pro et similaires

Augmentez le délai d’expiration. Gemini-3-Pro est un grand modèle avec un long temps de raisonnement ; sur tâches complexes, plus de 30 secondes est possible, donc 30 s par défaut suffit rarement.

  • Si vous devez utiliser Gemini-3-Pro, prolongez le timeout.
  • Si la vitesse compte, un modèle léger comme Gemini 2.0 convient mieux à un timeout court.

Pourquoi un simple « bonjour » a consommé beaucoup de tokens ?

Certains outils tiers (Cline, Claude Code, etc.) ajoutent automatiquement contexte ou prompts système ; ce contenu caché compte dans les tokens.

Même une seule phrase utilisateur peut embarquer un long historique ou des textes de configuration — côté outil, pas généré par Fast-Token.

Limites de fréquence des requêtes concurrentes ?

Aucune limite unifiée de concurrence sur la plateforme pour l’instant. En cas de problème, contactez le support.

Pourquoi le même prompt donne des résultats différents ?

Les LLM utilisent un échantillonnage probabiliste (temperature, top-p, etc.) et choisissent au hasard parmi les tokens probables.

  • Pour plus de stabilité, baissez la temperature ou désactivez l’échantillonnage.
  • Le contexte, les prompts système et le réseau influencent aussi.

Pourquoi les réponses Claude s’arrêtent-elles parfois tôt ?

Pour Claude, Fast-Token propose deux modes :

  1. API compatible OpenAI Chat
  2. API native Anthropic Claude

En appelant Claude via l’API compatible OpenAI Chat, la valeur par défaut est max_tokens=4096. Sans valeur plus élevée, la sortie s’arrête à cette limite. Une réponse « incomplète » vient souvent de cette limite, pas d’une panne du modèle.

Générer plus longtemps

Sur l’API compatible OpenAI Chat, augmentez max_tokens, par exemple :

python
completion = client.chat.completions.create(
  model="claude-sonnet-4-6",
  max_tokens=6000,
  messages=[
    {
      "role": "assistant",
      "content": "总是用中文回复"
    },
    {
      "role": "user",
      "content": "What is the meaning of life?, over 6000 words"
    },
  ]
)

max_tokens ne doit pas dépasser le maximum du modèle. Si la troncature persiste, indiquez le modèle et les paramètres complets de la requête.

2. Appels API et données

Quelles API sont disponibles ?

Passerelle unifiée compatible avec les principales conventions :

Quelles données sont enregistrées pendant l’usage API ?

Uniquement le nécessaire : compte, journaux d’appels, modèles utilisés, tokens, facturation.

Confidentialité

  • Pas de stockage des entrées utilisateur ni des sorties modèle.
  • Données pour facturation et amélioration du service uniquement, pas d’analyse de contenu ni de partage tiers.
  • Fast-Token ne conserve pas les corps de requête ; si un cloud ou fournisseur de modèle journalise pour sécurité/conformité, leurs politiques s’appliquent.

3. Connaissances sur les modèles et phénomènes courants

Qu’est-ce que l’hallucination IA ?

Lorsqu’un LLM produit des informations fausses, non fondées ou inventées.

Causes possibles

  • Biais ou lacunes des données d’entraînement.
  • Surapprentissage.
  • Aléatoire à la génération.

L’hallucination est commune à tous les grands modèles de langage, ce n’est pas une panne système.

4. Utilisation et dépannage

Comment suivre l’usage API et la consommation ?

Console Fast-Token : volume d’appels, tokens, détail de facturation.

Statistiques par modèle et période pour optimiser stratégie et coûts.

En cas d’échec ou d’erreur API ?

Les erreurs API incluent un code et un message.

Causes fréquentes :

  • Format de requête incorrect.
  • Modèle indisponible ou quota dépassé.

Comment gérer les clés API ?

Génération, révocation et mise à jour des clés dans la console.

Conseils de sécurité

  • Ne pas exposer les clés en public.
  • Une clé par projet.
  • Rotation régulière.

5. Prise en main et facturation

Comment fonctionne la facturation du relais ?

  1. Plusieurs modes : par requête, par token, etc.
  2. Affichage en temps réel de l’usage API et des frais.

Quels langages de programmation sont pris en charge ?

API REST : tout langage capable d’envoyer des requêtes HTTP — Python, JavaScript, Java, Go, PHP, C#, etc.

Comment migrer du code existant ?

Remplacez l’URL de base API par notre adresse de relais ; le reste des paramètres inchangé. Exemple :

text
// Adresse d’origine
https://api.openai.com/v1/chat/completions

// Remplacer par
https://fast-token.com/v1/chat/completions

La plupart des bibliothèques clientes ne demandent que baseURL et la clé API.

Que faire si les requêtes API échouent ?

Causes et solutions courantes :

  1. Erreur d’authentification : vérifiez la clé.
  2. Solde insuffisant : rechargez le compte.
  3. Erreur de paramètres : consultez la documentation.
  4. Modèle indisponible : essayez un autre modèle.
  5. Timeout : réseau ou charge ; réessayez plus tard.

Contactez le support en ligne si le problème persiste.

Où voir les journaux d’appels et l’usage ?

Après connexion, page Journaux d’utilisation : heure, modèle, tokens, coût.

Comment la sécurité des données est-elle assurée ?

  1. Pas de stockage des corps de requête et de réponse.
  2. Trafic API chiffré en TLS.
  3. Contrôle d’accès et permissions stricts.
  4. Audits de sécurité et scans de vulnérabilités réguliers.

Comment obtenir de l’aide ?

  1. Documentation développeur.
  2. Support en ligne.

Exemples de code disponibles ?

Exemples et SDK pour Python, Node.js, Java, etc. — section Documentation en haut du site.