Skip to content

常见问题

高频问题请先查阅此文档。

1. 模型使用与安全

Fast-Token 是否会存储用户 API 请求内容?

Fast-Token 不会存储您通过 API 发送的任何请求内容,也不会记录模型返回的响应内容。Fast-Token 的角色仅为中转通道,用于将您的请求安全地转发至相应的模型提供商,并将对方的响应原样返回给您。

为什么 Claude、GPT、Qwen 等官方产品与 API 返回结果不同?

模型本身是相同的,官方产品进行了额外的工程优化(例如内置提示词)。

  • 网页版相当于精装房,内置搜索、记忆、计算器、系统提示词等功能。
  • API 调用相当于毛坯房,只提供核心能力,其他功能需要开发者自行配置上下文和工具。

为什么不推荐在翻译类工具中使用 GPT-5 系列模型?

GPT-5 系列属于推理模型,设计目标是执行复杂推理与结构化生成,不适合高频实时任务。

原因

  • 调用速度较慢(推理步骤多)。
  • 消耗更多 Token(系统提示和推理上下文较长)。
  • 翻译插件可能误触安全策略。

翻译或对话场景推荐使用 GPT-4o mini 或 Gemini 等轻量模型,响应更快、更稳定。

为什么问「你是谁」时,GPT-5 有时会回答「我是 GPT-4」?

这种现象属于语言模型的幻觉,表现为模型对自身基座、来源或能力的描述错误。在使用 GPT-4、GPT-5、Claude 等大语言模型时,开发者可能会遇到模型自信却不准确地回答自身身份的情况。

说明

  • 这种现象并非平台故意修改或替换模型输出,也不是「移花接木」,属于 LLM 的正常行为。
  • GPT-5 在训练阶段并未被赋予「GPT-5」这个名称,这个名字是官方在训练完成后定义的。
  • 模型本身不知道自己的名称或知识库时间;OpenAI 网页版能正确回答,是因为网页内置了系统提示词;我们提供的是官方 API 版本,非网页版本。
  • 通过 API 直接询问模型自身身份时,回答可能随机且不准确,因为模型本身并不具备自我认知。

调用某些模型(如 Gemini-3-Pro)时经常超时怎么办?

请提高超时设置时长。Gemini-3-Pro 属于大模型,推理过程会有较长的思考时间,尤其在复杂任务下响应时间可能超过 30 秒。因此 30s 的默认设置容易导致超时。

  • 如果必须使用 Gemini-3-Pro,请将超时时间适当延长。
  • 如果对响应速度要求较高,建议改用 Gemini 2.0 等轻量模型,更适合短时间超时配置。

为什么只发了一句「你好」,却消耗了很多 Tokens?

部分第三方工具(如 Cline、Claude Code 等)在请求时会自动携带上下文或系统提示,这些隐藏内容也会计入 Token 消耗。

即使用户只输入一句「你好」,后台请求中可能包含大量历史对话或设定文本。这些附加内容来自工具端,而非 Fast-Token 平台生成。

API 并发请求的频率限制是多少?

平台当前对并发请求没有统一限制。若遇到并发问题,请联系客服。

为什么相同提示词,每次生成结果不同?

大模型在生成文本时使用概率采样机制(如 temperature、top-p 等),每次会从多个可能的词中随机选择。

  • 若希望结果更稳定,可降低 temperature 或关闭采样。
  • 生成差异也可能受上下文、系统提示或网络环境影响。

使用 Claude 模型时,为什么回答会提前结束?

针对 Claude 模型,Fast-Token 当前支持两种调用方式:

  1. OpenAI Chat 兼容接口
  2. Anthropic Claude 原生接口

当通过 OpenAI Chat 兼容接口调用 Claude 模型时,系统默认 max_tokens=4096。如果请求中未显式设置更大的 max_tokens,模型将在达到该上限后自动停止输出。因此,出现「回答未完成即结束」的情况,通常并非模型异常,而是触达了默认输出长度限制。

如何生成更长文本?

在 OpenAI Chat 兼容接口下,可手动设置更大的 max_tokens 参数,例如:

python
completion = client.chat.completions.create(
  model="claude-sonnet-4-6",
  max_tokens=6000,
  messages=[
    {
      "role": "assistant",
      "content": "总是用中文回复"
    },
    {
      "role": "user",
      "content": "What is the meaning of life?, over 6000 words"
    },
  ]
)

max_tokens 不得超过对应模型的最大支持上限。如设置后仍出现截断,可提供模型名称及完整请求参数以便进一步排查。

2. API 调用与数据

有哪些可用的 API 接口?

提供统一网关,兼容多种主流模型规范:

API 使用期间会记录哪些数据?

我们仅记录必要的使用数据,包括账户信息、调用记录、使用模型、Token 消耗量及支付信息。

隐私保障

  • 不会保存用户输入或模型输出内容。
  • 数据仅用于计费与服务优化,不会用于内容分析或向第三方共享。
  • Fast-Token 自身不会保留具体请求数据,但若底层云厂商(如模型提供方或托管平台)出于安全或合规要求记录访问日志,该部分数据将受其隐私政策约束。

3. 模型知识与常见现象

什么是 AI 幻觉(AI Hallucination)?

AI 幻觉是指大型语言模型生成与事实不符、缺乏依据或完全虚构的信息。

可能原因

  • 训练数据偏差或缺失。
  • 模型参数过拟合。
  • 生成阶段存在随机性。

幻觉是所有大语言模型的共性现象,并非系统故障。

4. 使用与故障排查

如何监控 API 使用情况和消耗?

可通过 Fast-Token 控制台查看调用量、Token 消耗量及计费明细。

支持按模型、时间段进行分类统计,便于优化调用策略和成本管理。

调用失败或报错时该怎么办?

API 返回错误时会附带错误码与说明。

常见原因包括:

  • 请求格式错误。
  • 模型不可用或超出限额。

如何管理 API Key?

用户可在控制台生成、撤销或更新 API Key。

安全建议

  • 不要在公共环境中暴露 API Key。
  • 为不同项目使用独立 Key。
  • 定期更换以保障账户安全。

5. 平台入门与计费

中转站的计费模式是怎样的?

  1. 提供多种计费模式:按请求次数、按 token 数量等。
  2. 实时显示用户的 API 使用情况和费用。

支持哪些编程语言的调用?

我们的 API 遵循 RESTful 标准,支持任何可以发送 HTTP 请求的编程语言,包括但不限于 Python、JavaScript、Java、Go、PHP、C# 等。

如何将现有代码迁移?

只需将原 API 请求地址替换为我们的中转地址,其余参数保持不变。例如:

text
// 原地址
https://api.openai.com/v1/chat/completions

// 替换为
https://fast-token.com/v1/chat/completions

大部分客户端库只需修改 baseURLAPIKEY 即可无缝切换。

API 请求失败怎么办?

常见的 API 请求失败原因及解决方案:

  1. 认证错误:检查 API 密钥是否正确。
  2. 余额不足:请及时充值账户。
  3. 参数错误:参考文档检查请求参数。
  4. 模型不可用:尝试切换到其他可用模型。
  5. 请求超时:可能是网络问题或服务压力大,请稍后重试。

如果无法解决,可联系在线客服。

如何查看 API 调用记录和用量?

登录后,可在「使用日志」页面查看详细的 API 调用记录,包括时间、模型、消耗的 token 数量和费用等信息。

数据安全如何保障?

  1. 我们不存储您的请求内容和响应数据。
  2. 所有 API 请求采用 TLS 加密传输。
  3. 严格的访问控制和权限管理。
  4. 定期安全审计和漏洞扫描。

遇到问题如何获取帮助?

  1. 查阅详细的开发文档。
  2. 可联系在线客服支持。

有开发示例代码吗?

我们提供多种编程语言的示例代码和 SDK,包括 Python、Node.js、Java 等,详见顶部的「文档」部分。