Häufig gestellte Fragen

Bitte zuerst diese Seite für häufige Fragen lesen.

1. Modellnutzung und Sicherheit

Speichert Fast-Token Inhalte von API-Anfragen?

Fast-Token speichert weder Anfrageinhalte, die Sie per API senden, noch protokolliert es Modellantworten. Fast-Token fungiert nur als Relais und leitet Ihre Anfragen sicher an die jeweiligen Modellanbieter weiter und gibt deren Antworten unverändert zurück.

Warum unterscheiden sich offizielle Claude-, GPT-, Qwen-Produkte von API-Ergebnissen?

Die Modelle selbst sind gleich; offizielle Produkte haben zusätzliche Technik (z. B. eingebaute Prompts).

Die Web-Version ist wie eine voll eingerichtete Wohnung: Suche, Gedächtnis, Rechner, System-Prompts usw.
API-Aufrufe sind wie ein Rohbau: nur Kernfähigkeit; Kontext und Tools konfiguriert der Entwickler.

Warum wird die GPT-5-Familie für Übersetzungstools nicht empfohlen?

GPT-5-Modelle sind Reasoning-Modelle für komplexes Schließen und strukturierte Generierung, nicht für häufige Echtzeitaufgaben.

Gründe

Langsamere Aufrufe (mehr Reasoning-Schritte).
Höherer Token-Verbrauch (lange System-Prompts und Reasoning-Kontext).
Übersetzungs-Plugins können Sicherheitsrichtlinien versehentlich auslösen.

Für Übersetzung oder Dialog eignen sich leichte Modelle wie GPT-4o mini oder Gemini — schneller und stabiler.

Warum antwortet GPT-5 manchmal „Ich bin GPT-4“ auf „Wer bist du?“?

Das ist eine Halluzination: falsche Beschreibung von Basis, Herkunft oder Fähigkeiten. Bei GPT-4, GPT-5, Claude usw. sind selbstsichere, aber falsche Identitätsantworten möglich.

Hinweise

Die Plattform ändert oder tauscht die Modellausgabe nicht absichtlich — normales LLM-Verhalten.
GPT-5 erhielt den Namen „GPT-5“ nicht im Training; der Name wurde danach vom Anbieter festgelegt.
Das Modell kennt weder seinen Namen noch den Wissensstand; die OpenAI-Web-Oberfläche antwortet dank eingebauter System-Prompts. Wir bieten die offizielle API, nicht die Web-Version.
Identitätsfragen per API können zufällig und ungenau sein — echtes Selbstbewusstsein gibt es nicht.

Häufige Timeouts bei Gemini-3-Pro und ähnlichen Modellen

Erhöhen Sie das Timeout. Gemini-3-Pro ist ein großes Modell mit langem Reasoning; bei komplexen Aufgaben kann die Antwort über 30 Sekunden dauern — 30 s Standard reicht oft nicht.

Bei Gemini-3-Pro: Timeout angemessen verlängern.
Bei Bedarf an Geschwindigkeit: leichtere Modelle wie Gemini 2.0 für kurze Timeouts.

Warum verbrauchte ein einziges „Hallo“ viele Tokens?

Einige Drittanbieter-Tools (z. B. Cline, Claude Code) hängen automatisch Kontext oder System-Prompts an; dieser versteckte Inhalt zählt mit.

Auch bei einer Nutzereingabe kann die Backend-Anfrage lange Verlaufshistorie oder Konfigurationstexte enthalten — vom Tool, nicht von Fast-Token erzeugt.

Grenzen für parallele API-Anfragen?

Derzeit gibt es keine einheitliche Parallelitätsgrenze auf der Plattform. Bei Parallelitätsproblemen wenden Sie sich an den Support.

Warum liefert derselbe Prompt jedes Mal andere Ergebnisse?

LLMs nutzen probabilistisches Sampling (temperature, top-p usw.) und wählen zufällig unter wahrscheinlichen Tokens.

Für stabilere Ausgabe: temperature senken oder Sampling abschalten.
Auch Kontext, System-Prompts und Netzwerk wirken mit.

Warum enden Claude-Antworten manchmal früh?

Für Claude unterstützt Fast-Token zwei Aufrufarten:

OpenAI-Chat-kompatible API
Native Anthropic-Claude-API

Bei Claude über die OpenAI-Chat-kompatible API ist standardmäßig max_tokens=4096. Ohne höheren Wert stoppt die Ausgabe an dieser Grenze. „Unvollständige“ Antworten sind meist das Standard-Längenlimit, kein Modellfehler.

Längere Texte erzeugen

In der OpenAI-Chat-kompatiblen API max_tokens erhöhen, z. B.:

python

completion = client.chat.completions.create(
  model="claude-sonnet-4-6",
  max_tokens=6000,
  messages=[
    {
      "role": "assistant",
      "content": "总是用中文回复"
    },
    {
      "role": "user",
      "content": "What is the meaning of life?, over 6000 words"
    },
  ]
)

max_tokens darf das Modellmaximum nicht überschreiten. Bei weiterhin abgeschnittener Ausgabe: Modellname und vollständige Anfrageparameter mitteilen.

2. API-Aufrufe und Daten

Welche API-Endpunkte gibt es?

Einheitliches Gateway, kompatibel mit gängigen Modellkonventionen:

OpenAI-Standard-Endpunkt: https://fast-token.com/v1 (GPT und kompatible Modelle)
Claude-Relais: https://fast-token.com (Anthropic-SDK-kompatibel)

Welche Daten werden bei API-Nutzung erfasst?

Nur das Nötige: Konto, Aufrufprotokolle, genutzte Modelle, Token-Verbrauch, Abrechnung.

Datenschutz

Keine Speicherung von Nutzereingaben oder Modellausgaben.
Daten nur für Abrechnung und Serviceverbesserung, nicht für Inhaltsanalyse oder Weitergabe an Dritte.
Fast-Token behält keine konkreten Anfragekörper; protokollieren Cloud- oder Modellanbieter aus Sicherheits- oder Compliance-Gründen, gelten deren Datenschutzrichtlinien.

3. Modellwissen und häufige Phänomene

Was ist KI-Halluzination?

Wenn ein LLM Informationen erzeugt, die falsch, unbelegt oder erfunden sind.

Mögliche Ursachen

Verzerrung oder Lücken in Trainingsdaten.
Überanpassung.
Zufälligkeit bei der Generierung.

Halluzination ist allen großen Sprachmodellen gemeinsam, kein Systemfehler.

4. Nutzung und Fehlerbehebung

API-Nutzung und Verbrauch überwachen?

In der Fast-Token-Konsole: Aufrufvolumen, Token-Verbrauch, Abrechnungsdetails.

Auswertung nach Modell und Zeitraum zur Optimierung von Strategie und Kosten.

Was tun bei Fehlern?

API-Fehler enthalten Code und Beschreibung.

Häufige Ursachen:

Falsches Anfrageformat.
Modell nicht verfügbar oder Kontingent überschritten.

API-Schlüssel verwalten?

Schlüssel in der Konsole erzeugen, widerrufen oder aktualisieren.

Sicherheitsempfehlungen

Schlüssel nicht in öffentlichen Umgebungen preisgeben.
Pro Projekt eigener Schlüssel.
Regelmäßig rotieren.

5. Einstieg und Abrechnung

Wie funktioniert die Relais-Abrechnung?

Mehrere Modi: pro Anfrage, pro Token usw.
Echtzeitanzeige von API-Nutzung und Kosten.

Welche Programmiersprachen werden unterstützt?

REST-API — jede Sprache mit HTTP: Python, JavaScript, Java, Go, PHP, C# usw.

Bestehenden Code migrieren?

Ersetzen Sie die ursprüngliche API-Basis-URL durch unsere Relais-Adresse; andere Parameter bleiben gleich. Beispiel:

text

// Ursprünglich
https://api.openai.com/v1/chat/completions

// Ersetzen durch
https://fast-token.com/v1/chat/completions

In den meisten Client-Bibliotheken reichen baseURL und API-Schlüssel.

Was tun bei fehlgeschlagenen API-Anfragen?

Typische Ursachen und Lösungen:

Authentifizierungsfehler: API-Schlüssel prüfen.
Unzureichendes Guthaben: Konto aufladen.
Parameterfehler: Dokumentation prüfen.
Modell nicht verfügbar: anderes Modell versuchen.
Timeout: Netzwerk oder Last — später erneut versuchen.

Bei anhaltenden Problemen: Online-Support.

Aufrufprotokolle und Nutzung einsehen?

Nach Anmeldung: Seite Nutzungsprotokolle mit Zeit, Modell, Tokens und Kosten.

Wie wird Datensicherheit gewährleistet?

Keine Speicherung von Anfrage- und Antwortdaten.
Gesamter API-Verkehr per TLS verschlüsselt.
Strenge Zugriffskontrolle und Berechtigungen.
Regelmäßige Sicherheitsaudits und Schwachstellenscans.

Hilfe erhalten?

Entwicklerdokumentation lesen.
Online-Support kontaktieren.

Beispielcode vorhanden?

Beispiele und SDKs für Python, Node.js, Java usw. — Abschnitt Dokumentation oben auf der Seite.

Häufig gestellte Fragen ​

1. Modellnutzung und Sicherheit ​

Speichert Fast-Token Inhalte von API-Anfragen? ​

Warum unterscheiden sich offizielle Claude-, GPT-, Qwen-Produkte von API-Ergebnissen? ​

Warum wird die GPT-5-Familie für Übersetzungstools nicht empfohlen? ​

Gründe ​

Warum antwortet GPT-5 manchmal „Ich bin GPT-4“ auf „Wer bist du?“? ​

Hinweise ​

Häufige Timeouts bei Gemini-3-Pro und ähnlichen Modellen ​

Warum verbrauchte ein einziges „Hallo“ viele Tokens? ​

Grenzen für parallele API-Anfragen? ​

Warum liefert derselbe Prompt jedes Mal andere Ergebnisse? ​

Warum enden Claude-Antworten manchmal früh? ​

Längere Texte erzeugen ​

2. API-Aufrufe und Daten ​

Welche API-Endpunkte gibt es? ​

Welche Daten werden bei API-Nutzung erfasst? ​

Datenschutz ​

3. Modellwissen und häufige Phänomene ​

Was ist KI-Halluzination? ​

Mögliche Ursachen ​

4. Nutzung und Fehlerbehebung ​

API-Nutzung und Verbrauch überwachen? ​

Was tun bei Fehlern? ​

API-Schlüssel verwalten? ​

Sicherheitsempfehlungen ​

5. Einstieg und Abrechnung ​

Wie funktioniert die Relais-Abrechnung? ​

Welche Programmiersprachen werden unterstützt? ​

Bestehenden Code migrieren? ​

Was tun bei fehlgeschlagenen API-Anfragen? ​

Aufrufprotokolle und Nutzung einsehen? ​

Wie wird Datensicherheit gewährleistet? ​

Hilfe erhalten? ​

Beispielcode vorhanden? ​