网关与上游可能对租户、API Key 或模型路由施加限流。具体阈值以控制台显示或支持团队告知为准。下文说明 HTTP 层面的可见行为与建议处理方式。
429 Too Many Requests
触发限流时通常返回 429。OpenAI 兼容 API 的错误体可能为:
{
"error": {
"message": "...",
"type": "rate_limit_error",
"code": "upstream_rate_limited"
}
}
code 因场景而异,以响应为准。
客户端策略
- 指数退避:例如 1s → 2s → 4s,加随机抖动(jitter)。
- 上限重试次数:建议 3–5 次,避免放大流量。
- 勿紧密循环:429 时立即重试会加重封禁。
- 可重试请求:幂等的读操作或带业务幂等键的写操作;带副作用的 tool 调用需业务层去重。
与 403 的区别
| 状态码 | 含义 |
|---|---|
| 429 | 暂时性限流,退避后可重试 |
| 403 | 策略拒绝(余额、模型未授权、IP 等),通常需改配置 |
见 错误响应。
模型级与 Key 级
限流可能同时作用于:
- 租户 / API Key 全局
- 单模型或单上游线路
用量与趋势在控制台查看。
容量规划
- 高峰前在非生产环境压测流式长连接数。
- 对批量任务使用队列 + 并发上限,而非无限并行打满 Key。