网关与上游可能对租户、API Key 或模型路由施加限流。具体阈值以控制台显示或支持团队告知为准。下文说明 HTTP 层面的可见行为与建议处理方式。

429 Too Many Requests

触发限流时通常返回 429。OpenAI 兼容 API 的错误体可能为:

{
  "error": {
    "message": "...",
    "type": "rate_limit_error",
    "code": "upstream_rate_limited"
  }
}

code 因场景而异,以响应为准。

客户端策略

  1. 指数退避:例如 1s → 2s → 4s,加随机抖动(jitter)。
  2. 上限重试次数:建议 3–5 次,避免放大流量。
  3. 勿紧密循环:429 时立即重试会加重封禁。
  4. 可重试请求:幂等的读操作或带业务幂等键的写操作;带副作用的 tool 调用需业务层去重。

与 403 的区别

状态码含义
429暂时性限流,退避后可重试
403策略拒绝(余额、模型未授权、IP 等),通常需改配置

错误响应

模型级与 Key 级

限流可能同时作用于:

  • 租户 / API Key 全局
  • 单模型或单上游线路

用量与趋势在控制台查看。

容量规划

  • 高峰前在非生产环境压测流式长连接数。
  • 对批量任务使用队列 + 并发上限,而非无限并行打满 Key。

相关