速率限制
为保证资源的高效使用,引入速率限制(Rate Limits),以确保服务的可用性、稳定性。
资源详情
我们通过以下维度进行速率限制:
- RPM:每分钟发送的请求数限制
- TPM:每分钟输入 + 输出的 token 数限制
语音
| 接口名 | v1_audio_asr_tasks | v1_audio_speech_tasks | v1_audio_voices_clone |
|---|---|---|---|
| 模型 | u2-asr | u2-tts / u2-tts-clone | u2-tts-clone |
| 限制类型 | RPM | RPM | RPM |
| 限制数量 | 20 | 20 | 20 |
视觉
| 接口名 | v1_files_parser_tasks | v1_ocr_image_extract |
|---|---|---|
| 模型 | u1-ocr-parser | u1-ocr-extract |
| 限制类型 | RPM | RPM |
| 限制数量 | 20 | 20 |
相关说明
1、什么是速率限制
速率限制(Rate Limits)是 API 对用户在指定时间段内可访问服务器的次数/可消耗 token 数所作出的限制,常见指标为RPM与TPM。
2、为什么会有速率限制
- 防止 API 被滥用与误用,避免恶意超载导致服务中断
- 确保资源公平分配,避免单个用户占用过多资源影响其他用户
- 帮助所有用户保持一致、稳定的调用体验
3、如果触发速率限制会怎样?
当您在短时间内发出了过多请求或消耗了过多 token/字符时,API 将拒绝进一步请求,直到经过指定时间窗口。
4、如何更好的在限速策略下进行 API 的使用
我们建议尽量集中处理请求:若 RPM 已接近上限但 TPM 仍有余量,可通过批量合并任务来提升吞吐量,从而在相同 RPM 下处理更多 token。