限速与并发
限速用于保护服务稳定。当前用户侧接入时,最常见的表现是 API 返回 429 Too Many Requests。具体限额可能由平台、账号分组、模型或上游服务共同决定。
用户侧能做什么
在「API Keys」页面可以设置和限流相关的风险控制项:
| 配置 | 作用 |
|---|---|
| Quota | 限制单个 API Key 可消耗的额度 |
| Expiration Time | 限制 Key 的有效期 |
| Model Limits | 限制 Key 可调用的模型 |
| IP Whitelist | 限制固定出口 IP |
如果需要更高并发或更高请求量,请联系售后 QQ 群 259520398 确认账号权限和上游承载能力。
429 处理建议
客户端应对 429 做退避重试,而不是立即无限重试。
推荐策略:
- 降低并发请求数。
- 对失败请求做指数退避,例如 1 秒、2 秒、4 秒、8 秒。
- 流式请求也计入请求量,长输出任务需要预留并发。
- 批处理任务分批提交,避免瞬时打满限额。
- 在「使用日志」中查看失败时间、模型和错误信息。
示例:简单重试
import time
from openai import OpenAI
client = OpenAI(
api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
base_url="https://aigc.aochengcloud.com/v1",
)
for attempt in range(5):
try:
response = client.chat.completions.create(
model="claude-sonnet-4-6",
messages=[{"role": "user", "content": "你好"}],
)
print(response.choices[0].message.content)
break
except Exception:
if attempt == 4:
raise
time.sleep(2 ** attempt)
排查清单
| 现象 | 可能原因 | 处理 |
|---|---|---|
| 偶发 429 | 瞬时并发过高 | 降低并发,加入重试 |
| 持续 429 | 账号或模型限额较低 | 联系售后确认限额 |
| 高峰期变慢 | 上游拥塞 | 降低批量任务速度,稍后重试 |
| 某个 Key 更容易失败 | Key 的额度或模型限制不同 | 检查 API Key 配置 |