使用帮助

网关与上游可能对租户、API Key 或模型路由施加限流。具体阈值以控制台显示或支持团队告知为准。下文说明 HTTP 层面的可见行为与建议处理方式。

429 Too Many Requests

触发限流时通常返回 429。OpenAI 兼容 API 的错误体可能为：

{
  "error": {
    "message": "...",
    "type": "rate_limit_error",
    "code": "upstream_rate_limited"
  }
}

code 因场景而异，以响应为准。

客户端策略

指数退避：例如 1s → 2s → 4s，加随机抖动（jitter）。
上限重试次数：建议 3–5 次，避免放大流量。
勿紧密循环：429 时立即重试会加重封禁。
可重试请求：幂等的读操作或带业务幂等键的写操作；带副作用的 tool 调用需业务层去重。

与 403 的区别

状态码	含义
429	暂时性限流，退避后可重试
403	策略拒绝（余额、模型未授权、IP 等），通常需改配置

见错误响应。

模型级与 Key 级

限流可能同时作用于：

租户 / API Key 全局
单模型或单上游线路

用量与趋势在控制台查看。

容量规划

高峰前在非生产环境压测流式长连接数。
对批量任务使用队列 + 并发上限，而非无限并行打满 Key。

相关