Câu hỏi thường gặp

Vui lòng xem trang này trước cho các câu hỏi phổ biến.

1. Sử dụng mô hình và bảo mật

Fast-Token có lưu trữ nội dung yêu cầu API của người dùng không?

Fast-Token không lưu bất kỳ nội dung yêu cầu nào bạn gửi qua API, cũng không ghi lại nội dung phản hồi từ mô hình. Fast-Token chỉ đóng vai trò kênh chuyển tiếp, chuyển yêu cầu của bạn an toàn tới nhà cung cấp mô hình tương ứng và trả phản hồi nguyên vẹn cho bạn.

Vì sao sản phẩm chính thức Claude, GPT, Qwen khác kết quả API?

Bản thân mô hình giống nhau; sản phẩm chính thức có tối ưu kỹ thuật thêm (ví dụ prompt tích hợp).

Bản web như nhà đã trang bị đầy đủ: tìm kiếm, bộ nhớ, máy tính, system prompt, v.v.
Gọi API như khung thô: chỉ năng lực cốt lõi; nhà phát triển tự cấu hình ngữ cảnh và công cụ.

Vì sao không khuyến nghị dòng GPT-5 cho công cụ dịch?

Dòng GPT-5 là mô hình suy luận, thiết kế cho suy luận phức tạp và sinh có cấu trúc, không phù hợp tác vụ thời gian thực tần suất cao.

Lý do

Gọi chậm hơn (nhiều bước suy luận).
Tiêu tốn nhiều token hơn (system prompt và ngữ cảnh suy luận dài).
Plugin dịch có thể vô tình chạm chính sách an toàn.

Với dịch hoặc hội thoại, nên dùng mô hình nhẹ như GPT-4o mini hoặc Gemini — nhanh và ổn định hơn.

Vì sao hỏi «bạn là ai» đôi khi GPT-5 trả lời «tôi là GPT-4»?

Đây là ảo giác của mô hình ngôn ngữ: mô tả sai về nền tảng, nguồn gốc hoặc khả năng. Với GPT-4, GPT-5, Claude, v.v., có thể gặp câu trả lời tự tin nhưng sai về danh tính.

Giải thích

Không phải nền tảng cố ý sửa hoặc thay thế đầu ra mô hình; đây là hành vi LLM bình thường.
GPT-5 không được gán tên «GPT-5» khi huấn luyện; tên do nhà cung cấp đặt sau huấn luyện.
Mô hình không biết tên hay mốc kiến thức của mình; bản web OpenAI trả lời đúng nhờ system prompt tích hợp. Chúng tôi cung cấp API chính thức, không phải bản web.
Hỏi danh tính qua API có thể cho câu trả lời ngẫu nhiên, không chính xác — mô hình không có ý thức bản thân thật.

Gọi Gemini-3-Pro hay mô hình tương tự hay timeout?

Hãy tăng thời gian timeout. Gemini-3-Pro là mô hình lớn, suy luận lâu; với tác vụ phức tạp có thể vượt 30 giây, nên mặc định 30s dễ timeout.

Nếu bắt buộc dùng Gemini-3-Pro, kéo dài timeout phù hợp.
Nếu cần phản hồi nhanh, dùng mô hình nhẹ như Gemini 2.0 phù hợp timeout ngắn hơn.

Vì sao chỉ gửi «xin chào» mà tốn nhiều token?

Một số công cụ bên thứ ba (Cline, Claude Code, v.v.) tự đính kèm ngữ cảnh hoặc system prompt; phần ẩn đó cũng tính vào token.

Dù người dùng chỉ nhập một câu, yêu cầu phía sau có thể chứa lịch sử hội thoại dài hoặc văn bản cấu hình — từ phía công cụ, không do Fast-Token tạo.

Giới hạn tần suất yêu cầu đồng thời API?

Hiện nền tảng không có giới hạn đồng thời thống nhất. Nếu gặp vấn đề đồng thời, liên hệ hỗ trợ.

Vì sao cùng prompt mỗi lần kết quả khác nhau?

LLM dùng lấy mẫu xác suất (temperature, top-p, v.v.) và chọn ngẫu nhiên trong các token có khả năng.

Muốn ổn định hơn: giảm temperature hoặc tắt lấy mẫu.
Khác biệt cũng có thể do ngữ cảnh, system prompt hoặc mạng.

Vì sao câu trả lời Claude đôi khi dừng sớm?

Với Claude, Fast-Token hỗ trợ hai cách gọi:

API tương thích OpenAI Chat
API gốc Anthropic Claude

Khi gọi Claude qua API tương thích OpenAI Chat, mặc định max_tokens=4096. Nếu không đặt max_tokens lớn hơn, mô hình dừng khi chạm giới hạn — thường không phải lỗi mô hình mà do giới hạn độ dài mặc định.

Sinh văn bản dài hơn

Trên API tương thích OpenAI Chat, đặt max_tokens lớn hơn, ví dụ:

python

completion = client.chat.completions.create(
  model="claude-sonnet-4-6",
  max_tokens=6000,
  messages=[
    {
      "role": "assistant",
      "content": "总是用中文回复"
    },
    {
      "role": "user",
      "content": "What is the meaning of life?, over 6000 words"
    },
  ]
)

max_tokens không được vượt giới hạn tối đa của mô hình. Nếu vẫn bị cắt sau khi tăng, cung cấp tên mô hình và tham số yêu cầu đầy đủ để kiểm tra.

2. Gọi API và dữ liệu

Có những API nào?

Cổng thống nhất, tương thích các quy ước mô hình chính:

Điểm cuối chuẩn OpenAI: https://fast-token.com/v1 (GPT và mô hình tương thích)
Điểm chuyển tiếp Claude: https://fast-token.com (tương thích Anthropic SDK)

Dữ liệu nào được ghi khi dùng API?

Chỉ ghi dữ liệu cần thiết: tài khoản, nhật ký gọi, mô hình dùng, token tiêu thụ, thanh toán.

Quyền riêng tư

Không lưu đầu vào người dùng hay đầu ra mô hình.
Dữ liệu chỉ cho thanh toán và cải thiện dịch vụ, không phân tích nội dung hay chia sẻ bên thứ ba.
Fast-Token không giữ nội dung yêu cầu cụ thể; nếu cloud hoặc nhà cung cấp mô hình ghi log vì bảo mật/tuân thủ, dữ liệu đó theo chính sách riêng của họ.

3. Kiến thức mô hình và hiện tượng thường gặp

Ảo giác AI (AI Hallucination) là gì?

Khi LLM sinh thông tin sai sự thật, không có căn cứ hoặc bịa đặt.

Nguyên nhân có thể

Lệch hoặc thiếu dữ liệu huấn luyện.
Overfitting.
Tính ngẫu nhiên khi sinh.

Ảo giác là đặc điểm chung của mọi LLM lớn, không phải lỗi hệ thống.

4. Sử dụng và xử lý sự cố

Theo dõi sử dụng API và chi phí?

Xem trên bảng điều khiển Fast-Token: lượng gọi, token, chi tiết thanh toán.

Thống kê theo mô hình và khoảng thời gian để tối ưu chiến lược và chi phí.

Khi gọi thất bại hoặc lỗi?

Lỗi API kèm mã và mô tả.

Nguyên nhân thường gặp:

Sai định dạng yêu cầu.
Mô hình không khả dụng hoặc vượt hạn mức.

Quản lý API Key?

Tạo, thu hồi hoặc cập nhật API Key trên bảng điều khiển.

Khuyến nghị bảo mật

Không lộ API Key ở môi trường công khai.
Mỗi dự án một key riêng.
Thay key định kỳ.

5. Bắt đầu và thanh toán

Mô hình thanh toán trạm chuyển tiếp?

Nhiều chế độ: theo lần gọi, theo token, v.v.
Hiển thị thời gian thực mức sử dụng API và phí.

Hỗ trợ ngôn ngữ lập trình nào?

API RESTful; mọi ngôn ngữ gửi được HTTP — Python, JavaScript, Java, Go, PHP, C#, v.v.

Di chuyển code hiện có?

Chỉ thay URL API gốc bằng địa chỉ chuyển tiếp của chúng tôi; tham số khác giữ nguyên. Ví dụ:

text

// Địa chỉ gốc
https://api.openai.com/v1/chat/completions

// Thay bằng
https://fast-token.com/v1/chat/completions

Hầu hết thư viện client chỉ cần đổi baseURL và API key.

Yêu cầu API thất bại?

Nguyên nhân và cách xử lý thường gặp:

Lỗi xác thực: kiểm tra API key.
Số dư không đủ: nạp tài khoản.
Lỗi tham số: xem tài liệu.
Mô hình không khả dụng: thử mô hình khác.
Timeout: mạng hoặc tải cao; thử lại sau.

Nếu không giải quyết được, liên hệ hỗ trợ trực tuyến.

Xem nhật ký gọi và mức sử dụng?

Sau đăng nhập, trang Nhật ký sử dụng: thời gian, mô hình, token, chi phí.

Bảo mật dữ liệu?

Không lưu nội dung yêu cầu và phản hồi.
Mọi API qua TLS.
Kiểm soát truy cập và quyền chặt chẽ.
Kiểm toán bảo mật và quét lỗ hổng định kỳ.

Cần trợ giúp?

Đọc tài liệu phát triển.
Liên hệ hỗ trợ trực tuyến.

Có mã mẫu không?

Có mẫu và SDK cho Python, Node.js, Java, v.v. — xem Tài liệu ở đầu trang.

Câu hỏi thường gặp ​

1. Sử dụng mô hình và bảo mật ​

Fast-Token có lưu trữ nội dung yêu cầu API của người dùng không? ​

Vì sao sản phẩm chính thức Claude, GPT, Qwen khác kết quả API? ​

Vì sao không khuyến nghị dòng GPT-5 cho công cụ dịch? ​

Lý do ​

Vì sao hỏi «bạn là ai» đôi khi GPT-5 trả lời «tôi là GPT-4»? ​

Giải thích ​

Gọi Gemini-3-Pro hay mô hình tương tự hay timeout? ​

Vì sao chỉ gửi «xin chào» mà tốn nhiều token? ​

Giới hạn tần suất yêu cầu đồng thời API? ​

Vì sao cùng prompt mỗi lần kết quả khác nhau? ​

Vì sao câu trả lời Claude đôi khi dừng sớm? ​

Sinh văn bản dài hơn ​

2. Gọi API và dữ liệu ​

Có những API nào? ​

Dữ liệu nào được ghi khi dùng API? ​

Quyền riêng tư ​

3. Kiến thức mô hình và hiện tượng thường gặp ​

Ảo giác AI (AI Hallucination) là gì? ​

Nguyên nhân có thể ​

4. Sử dụng và xử lý sự cố ​

Theo dõi sử dụng API và chi phí? ​

Khi gọi thất bại hoặc lỗi? ​

Quản lý API Key? ​

Khuyến nghị bảo mật ​

5. Bắt đầu và thanh toán ​

Mô hình thanh toán trạm chuyển tiếp? ​

Hỗ trợ ngôn ngữ lập trình nào? ​

Di chuyển code hiện có? ​

Yêu cầu API thất bại? ​

Xem nhật ký gọi và mức sử dụng? ​

Bảo mật dữ liệu? ​

Cần trợ giúp? ​

Có mã mẫu không? ​