限速与并发

限速用于保护服务稳定。当前用户侧接入时，最常见的表现是 API 返回 429 Too Many Requests。具体限额可能由平台、账号分组、模型或上游服务共同决定。

用户侧能做什么

在「API Keys」页面可以设置和限流相关的风险控制项：

配置	作用
Quota	限制单个 API Key 可消耗的额度
Expiration Time	限制 Key 的有效期
Model Limits	限制 Key 可调用的模型
IP Whitelist	限制固定出口 IP

如果需要更高并发或更高请求量，请联系售后 QQ 群 259520398 确认账号权限和上游承载能力。

429 处理建议

客户端应对 429 做退避重试，而不是立即无限重试。

推荐策略：

降低并发请求数。
对失败请求做指数退避，例如 1 秒、2 秒、4 秒、8 秒。
流式请求也计入请求量，长输出任务需要预留并发。
批处理任务分批提交，避免瞬时打满限额。
在「使用日志」中查看失败时间、模型和错误信息。

示例：简单重试

import time
from openai import OpenAI

client = OpenAI(
    api_key="sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
    base_url="https://aigc.aochengcloud.com/v1",
)

for attempt in range(5):
    try:
        response = client.chat.completions.create(
            model="claude-sonnet-4-6",
            messages=[{"role": "user", "content": "你好"}],
        )
        print(response.choices[0].message.content)
        break
    except Exception:
        if attempt == 4:
            raise
        time.sleep(2 ** attempt)

排查清单

现象	可能原因	处理
偶发 429	瞬时并发过高	降低并发，加入重试
持续 429	账号或模型限额较低	联系售后确认限额
高峰期变慢	上游拥塞	降低批量任务速度，稍后重试
某个 Key 更容易失败	Key 的额度或模型限制不同	检查 API Key 配置

下一步

查看用量统计 →