よくある質問
よくある質問はまず本ページをご確認ください。
1. モデルの利用とセキュリティ
Fast-Token はユーザー API リクエストの内容を保存しますか?
Fast-Token は API 経由で送信されたリクエスト内容も、モデルから返されたレスポンス内容も保存・記録しません。Fast-Token は中継チャネルとして、リクエストを各モデルプロバイダーへ安全に転送し、応答をそのままお客様に返す役割のみを担います。
公式の Claude・GPT・Qwen と API の結果が異なるのはなぜですか?
モデル本体は同じで、公式プロダクトには追加のエンジニアリング(組み込みプロンプトなど)があります。
- Web 版は内装済みの家のようなもので、検索・記憶・計算・システムプロンプトなどが組み込まれています。
- API 呼び出しはスケルトン状態で、コア能力のみ。コンテキストやツールは開発者が設定します。
翻訳ツールで GPT-5 系を推奨しない理由は?
GPT-5 系は推論モデルで、複雑な推論や構造化生成向けであり、高頻度のリアルタイム処理には向きません。
理由
- 呼び出しが遅い(推論ステップが多い)。
- トークン消費が多い(システムプロンプトと推論コンテキストが長い)。
- 翻訳プラグインが安全ポリシーに誤って抵触する場合がある。
翻訳や対話には GPT-4o mini や Gemini などの軽量モデルが、より速く安定します。
「あなたは誰?」と聞くと GPT-5 が「GPT-4 です」と答えることがあるのはなぜ?
言語モデルの幻覚(ハルシネーション)で、自身のベースや出所・能力を誤って説明することがあります。GPT-4、GPT-5、Claude などでも、自信満々に誤った自己紹介が起こり得ます。
補足
- プラットフォームが意図的に出力を改ざん・すり替えしているわけではなく、LLM として一般的な挙動です。
- GPT-5 は学習時に「GPT-5」という名称を与えられておらず、名称は学習後に公式が定義したものです。
- モデル自体は自身の名称や知識のカットオフを知りません。OpenAI の Web 版が正しく答えるのは組み込みシステムプロンプトのためで、当方は公式 API 版を提供しています(Web 版ではありません)。
- API で直接自己認識を尋ねると、ランダムで不正確な回答になり得ます。真の自己認識は持ちません。
Gemini-3-Pro などの呼び出しがよくタイムアウトする
タイムアウト時間を延長してください。Gemini-3-Pro は大規模モデルで推論に時間がかかり、複雑なタスクでは 30 秒を超えることもあります。デフォルト 30 秒では不足しがちです。
- Gemini-3-Pro を使う場合はタイムアウトを適切に延ばしてください。
- 応答速度を重視する場合は Gemini 2.0 など軽量モデルが、短いタイムアウト設定に適しています。
「こんにちは」一言だけなのにトークンを多く消費した
Cline、Claude Code など一部の第三者ツールは、リクエスト時にコンテキストやシステムプロンプトを自動付与し、その非表示分もトークンに含まれます。
ユーザー入力が一言でも、バックエンドには長い会話履歴や設定文が含まれることがあります。これはツール側由来で、Fast-Token が生成したものではありません。
API 同時リクエストの頻度制限は?
現在、プラットフォーム全体で統一の同時実行制限はありません。同時実行で問題がある場合はサポートへお問い合わせください。
同じプロンプトでも毎回結果が違うのはなぜ?
大規模言語モデルは temperature や top-p などの確率的サンプリングで、候補からランダムに選択します。
- 安定させたい場合は temperature を下げるかサンプリングを無効化してください。
- コンテキスト、システムプロンプト、ネットワークの影響もあります。
Claude の回答が途中で終わることがある
Claude について Fast-Token は次の 2 方式をサポートしています。
- OpenAI Chat 互換 API
- Anthropic Claude ネイティブ API
OpenAI Chat 互換 API で Claude を呼ぶ場合、デフォルトは max_tokens=4096 です。より大きな max_tokens を指定しないと、この上限で出力が止まります。「途中終了」は多くの場合モデル異常ではなく、デフォルトの出力長制限です。
より長いテキストを生成するには
OpenAI Chat 互換 API では max_tokens を大きく設定します。例:
completion = client.chat.completions.create(
model="claude-sonnet-4-6",
max_tokens=6000,
messages=[
{
"role": "assistant",
"content": "总是用中文回复"
},
{
"role": "user",
"content": "What is the meaning of life?, over 6000 words"
},
]
)max_tokens はモデルの上限を超えられません。増やしても切り詰められる場合は、モデル名とリクエスト全文を共有いただければ調査します。
2. API 呼び出しとデータ
利用できる API は?
統一ゲートウェイで主要なモデル仕様に対応しています。
- OpenAI 標準エンドポイント:https://fast-token.com/v1(GPT および互換モデル)
- Claude 中継エンドポイント:https://fast-token.com(Anthropic SDK 互換)
API 利用中に記録されるデータは?
アカウント情報、呼び出し記録、使用モデル、トークン消費、課金情報など必要最小限のみです。
プライバシー
- ユーザー入力やモデル出力は保存しません。
- データは課金とサービス改善のみに使用し、コンテンツ分析や第三者共有には使いません。
- Fast-Token 自体は具体的なリクエスト本文を保持しませんが、下層のクラウドやモデル提供者がセキュリティ・コンプライアンスでアクセスログを残す場合、そのデータは各社のプライバシーポリシーに従います。
3. モデルの知識とよくある現象
AI 幻覚(AI Hallucination)とは?
大規模言語モデルが事実と異なる、根拠のない、または完全に作られた情報を生成する現象です。
考えられる原因
- 学習データの偏りや欠落。
- 過学習。
- 生成時のランダム性。
幻覚はすべての大規模言語モデルに共通する現象であり、システム障害ではありません。
4. 利用とトラブルシューティング
API の利用状況と消費を確認するには?
Fast-Token コンソールで呼び出し量、トークン消費、課金明細を確認できます。
モデル別・期間別の集計で、利用戦略とコスト管理に役立ちます。
呼び出し失敗やエラー時は?
API エラーにはコードと説明が付きます。
よくある原因:
- リクエスト形式の誤り。
- モデル利用不可または上限超過。
API キーの管理は?
コンソールで API キーの生成・失効・更新ができます。
セキュリティの推奨
- 公開環境で API キーを露出しない。
- プロジェクトごとに別キーを使う。
- 定期的にローテーションする。
5. はじめにと課金
中継サービスの課金方式は?
- リクエスト回数課金、トークン数課金など複数の方式があります。
- API 利用状況と費用をリアルタイム表示します。
対応プログラミング言語は?
RESTful API のため、HTTP リクエストを送れる言語なら利用可能です(Python、JavaScript、Java、Go、PHP、C# など)。
既存コードの移行は?
元の API ベース URL を中継アドレスに差し替えるだけで、他のパラメータはそのままです。例:
// 元のアドレス
https://api.openai.com/v1/chat/completions
// 差し替え先
https://fast-token.com/v1/chat/completions多くのクライアントライブラリは baseURL と API キーの変更だけで移行できます。
API リクエストが失敗する場合は?
よくある原因と対処:
- 認証エラー:API キーを確認。
- 残高不足:チャージ。
- パラメータエラー:ドキュメントでリクエストを確認。
- モデル利用不可:別モデルを試す。
- タイムアウト:ネットワークまたは負荷。しばらくして再試行。
解決しない場合はオンラインサポートへ。
呼び出し記録と使用量の確認は?
ログイン後、「利用ログ」で API 呼び出しの時刻・モデル・消費トークン・費用などを確認できます。
データセキュリティは?
- リクエスト内容とレスポンスデータは保存しません。
- すべての API 通信は TLS で暗号化。
- 厳格なアクセス制御と権限管理。
- 定期的なセキュリティ監査と脆弱性スキャン。
困ったときのサポートは?
- 開発ドキュメントを参照。
- オンラインサポートに連絡。
サンプルコードはありますか?
Python、Node.js、Java など各言語のサンプルと SDK を提供しています。サイト上部の「ドキュメント」をご覧ください。