Skip to content

Preguntas frecuentes

Consulte primero esta página para dudas habituales.

1. Uso de modelos y seguridad

¿Fast-Token almacena el contenido de las solicitudes API?

Fast-Token no almacena el contenido de las solicitudes enviadas por la API ni registra las respuestas de los modelos. Fast-Token actúa solo como canal de retransmisión para reenviar sus solicitudes de forma segura a los proveedores de modelos correspondientes y devolverle sus respuestas sin cambios.

¿Por qué los productos oficiales Claude, GPT, Qwen difieren de los resultados de la API?

Los modelos subyacentes son los mismos; los productos oficiales añaden ingeniería extra (por ejemplo prompts integrados).

  • La versión web es como una vivienda amueblada: búsqueda, memoria, calculadora, prompts del sistema, etc.
  • La API es como un esqueleto: solo capacidad central; el desarrollador configura contexto y herramientas.

¿Por qué no se recomienda la familia GPT-5 para herramientas de traducción?

Los GPT-5 son modelos de razonamiento para tareas complejas y generación estructurada, no para uso en tiempo real de alta frecuencia.

Motivos

  • Llamadas más lentas (más pasos de razonamiento).
  • Mayor consumo de tokens (prompts del sistema y contexto de razonamiento largos).
  • Los complementos de traducción pueden activar políticas de seguridad por error.

Para traducción o diálogo, prefiera modelos ligeros como GPT-4o mini o Gemini: más rápidos y estables.

¿Por qué GPT-5 a veces responde «Soy GPT-4» a «¿Quién eres?»?

Es una alucinación del modelo de lenguaje: descripción incorrecta de su base, origen o capacidades. Con GPT-4, GPT-5, Claude, etc., pueden aparecer respuestas seguras pero incorrectas sobre la identidad.

Notas

  • No es que la plataforma modifique o sustituya la salida a propósito; es comportamiento normal de los LLM.
  • GPT-5 no recibió el nombre «GPT-5» en el entrenamiento; el nombre lo definió el proveedor después.
  • El modelo no conoce su nombre ni la fecha de conocimiento; la web de OpenAI responde bien por los prompts del sistema integrados. Ofrecemos la API oficial, no la versión web.
  • Preguntar la identidad por API puede dar respuestas aleatorias e inexactas: el modelo no tiene autoconciencia real.

¿Qué hacer si llamadas a Gemini-3-Pro u otros modelos suelen agotar el tiempo de espera?

Aumente el timeout. Gemini-3-Pro es un modelo grande con razonamiento largo; en tareas complejas la respuesta puede superar 30 segundos, y 30 s por defecto suele ser insuficiente.

  • Si debe usar Gemini-3-Pro, prolongue el timeout.
  • Si prioriza la velocidad, modelos ligeros como Gemini 2.0 encajan mejor con timeouts cortos.

¿Por qué un solo «hola» consumió muchos tokens?

Algunas herramientas de terceros (Cline, Claude Code, etc.) adjuntan contexto o prompts del sistema automáticamente; ese contenido oculto también cuenta en los tokens.

Aunque el usuario escriba una frase, la solicitud puede incluir historial largo o textos de configuración — viene de la herramienta, no lo genera Fast-Token.

¿Límites de frecuencia de solicitudes concurrentes?

Actualmente no hay un límite unificado de concurrencia en la plataforma. Si tiene problemas de concurrencia, contacte con soporte.

¿Por qué el mismo prompt da resultados distintos cada vez?

Los LLM usan muestreo probabilístico (temperature, top-p, etc.) y eligen al azar entre tokens probables.

  • Para más estabilidad, baje temperature o desactive el muestreo.
  • También influyen el contexto, los prompts del sistema y la red.

¿Por qué las respuestas de Claude a veces terminan antes?

Para Claude, Fast-Token admite dos formas de llamada:

  1. API compatible con OpenAI Chat
  2. API nativa de Anthropic Claude

Al llamar a Claude por la API compatible con OpenAI Chat, el valor por defecto es max_tokens=4096. Sin un valor mayor, la salida se detiene en ese límite. Una respuesta «incompleta» suele deberse a ese límite, no a un fallo del modelo.

Generar texto más largo

En la API compatible con OpenAI Chat, aumente max_tokens, por ejemplo:

python
completion = client.chat.completions.create(
  model="claude-sonnet-4-6",
  max_tokens=6000,
  messages=[
    {
      "role": "assistant",
      "content": "总是用中文回复"
    },
    {
      "role": "user",
      "content": "What is the meaning of life?, over 6000 words"
    },
  ]
)

max_tokens no debe superar el máximo del modelo. Si sigue truncándose, indique el modelo y los parámetros completos de la solicitud.

2. Llamadas API y datos

¿Qué API están disponibles?

Puerta de enlace unificada compatible con las principales convenciones:

¿Qué datos se registran durante el uso de la API?

Solo lo necesario: cuenta, registros de llamadas, modelos usados, tokens consumidos y facturación.

Privacidad

  • No guardamos entradas del usuario ni salidas del modelo.
  • Los datos solo sirven para facturación y mejora del servicio, no para análisis de contenido ni para terceros.
  • Fast-Token no conserva cuerpos de solicitud concretos; si la nube o el proveedor del modelo registran accesos por seguridad o cumplimiento, rigen sus políticas de privacidad.

3. Conocimiento de modelos y fenómenos habituales

¿Qué es la alucinación de IA?

Cuando un LLM genera información falsa, sin fundamento o inventada.

Posibles causas

  • Sesgo o lagunas en los datos de entrenamiento.
  • Sobreajuste.
  • Aleatoriedad en la generación.

La alucinación es común a todos los grandes modelos de lenguaje; no es un fallo del sistema.

4. Uso y resolución de problemas

¿Cómo supervisar el uso y el gasto de la API?

En la consola de Fast-Token: volumen de llamadas, tokens y detalle de facturación.

Estadísticas por modelo y periodo para optimizar estrategia y costes.

¿Qué hacer si falla la llamada o hay error?

Los errores API incluyen código y descripción.

Causas frecuentes:

  • Formato de solicitud incorrecto.
  • Modelo no disponible o cuota superada.

¿Cómo gestionar las claves API?

Genere, revoque o actualice claves en la consola.

Recomendaciones de seguridad

  • No exponga claves en entornos públicos.
  • Una clave por proyecto.
  • Rote las claves con regularidad.

5. Primeros pasos y facturación

¿Cómo funciona la facturación del relé?

  1. Varios modos: por solicitud, por token, etc.
  2. Visualización en tiempo real del uso de la API y los cargos.

¿Qué lenguajes de programación se admiten?

API REST: cualquier lenguaje que envíe HTTP — Python, JavaScript, Java, Go, PHP, C#, etc.

¿Cómo migrar código existente?

Sustituya la URL base de la API por nuestra dirección de retransmisión; el resto de parámetros igual. Ejemplo:

text
// Dirección original
https://api.openai.com/v1/chat/completions

// Sustituir por
https://fast-token.com/v1/chat/completions

En la mayoría de bibliotecas cliente basta con cambiar baseURL y la clave API.

¿Qué hacer si fallan las solicitudes API?

Causas y soluciones habituales:

  1. Error de autenticación: compruebe la clave.
  2. Saldo insuficiente: recargue la cuenta.
  3. Error de parámetros: consulte la documentación.
  4. Modelo no disponible: pruebe otro modelo.
  5. Timeout: red o carga; reintente más tarde.

Si no se resuelve, contacte con soporte en línea.

¿Dónde ver registros de llamadas y uso?

Tras iniciar sesión, página Registros de uso: hora, modelo, tokens y coste.

¿Cómo se garantiza la seguridad de los datos?

  1. No almacenamos cuerpos de solicitud ni respuesta.
  2. Todo el tráfico API va cifrado con TLS.
  3. Control de acceso y permisos estrictos.
  4. Auditorías de seguridad y escaneos de vulnerabilidades periódicos.

¿Cómo obtener ayuda?

  1. Documentación para desarrolladores.
  2. Soporte en línea.

¿Hay código de ejemplo?

Ejemplos y SDK para Python, Node.js, Java, etc. — sección Documentación en la parte superior del sitio.