速率限制

为保证资源的高效使用,引入速率限制(Rate Limits),以确保服务的可用性、稳定性。

资源详情

我们通过以下维度进行速率限制:

  • RPM:每分钟发送的请求数限制
  • TPM:每分钟输入 + 输出的 token 数限制

语音

接口名v1_audio_asr_tasksv1_audio_speech_tasksv1_audio_voices_clone
模型u2-asru2-tts / u2-tts-cloneu2-tts-clone
限制类型RPMRPMRPM
限制数量202020

视觉

接口名v1_files_parser_tasksv1_ocr_image_extract
模型u1-ocr-parseru1-ocr-extract
限制类型RPMRPM
限制数量2020

相关说明

1、什么是速率限制

速率限制(Rate Limits)是 API 对用户在指定时间段内可访问服务器的次数/可消耗 token 数所作出的限制,常见指标为RPMTPM

2、为什么会有速率限制

  • 防止 API 被滥用与误用,避免恶意超载导致服务中断
  • 确保资源公平分配,避免单个用户占用过多资源影响其他用户
  • 帮助所有用户保持一致、稳定的调用体验

3、如果触发速率限制会怎样?

当您在短时间内发出了过多请求或消耗了过多 token/字符时,API 将拒绝进一步请求,直到经过指定时间窗口。

4、如何更好的在限速策略下进行 API 的使用

我们建议尽量集中处理请求:若 RPM 已接近上限但 TPM 仍有余量,可通过批量合并任务来提升吞吐量,从而在相同 RPM 下处理更多 token。