快速克隆

上传待克隆音频生成自定义音色,可配置试听文本生成克隆音色的试听音频,支持降噪。

POST/v1/audio/voices/clone

授权

Authorizationstringheader必填
HTTP: Bearer Auth
  • Security Scheme Type: http
  • HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。

请求头

Content-Typeenum<string>默认值: application/json必填

请求体application/json

file_idint64必填

待克隆音频的 file_id,由文件上传接口获得。
支持上传的文件需遵从以下规范:
  • 上传的音频文件格式需为单声道 wav 格式;
  • 上传的音频文件的时长最少应不低于 5 秒,最长应不超过 2 分钟。推荐时长 5-15 秒。

voice_idstring必填

自定义音色 ID。要求只能包含小写字母、数字和连字符(-),不能以连字符开头或结尾,连字符不能连续出现,长度限制为 1-32 个字符。

clone_promptobject

克隆时如果提供提示音频和对应的文本,可以提升克隆效果。

clone_prompt.prompt_audioint64

提示音频 file_id(由文件上传接口获得,purpose="prompt_audio")

clone_prompt.prompt_textstring

提示音频对应的文本

textstring

使用克隆音色试听的文本,如果传入,接口会返回基于该文本合成的试听音频。最长不超过 5 万个字符。

modelenum<string>必填

模型编码可用选项:u2-tts-clone

响应体结构

input_sensitiveboolean

输入内容是否包含敏感词

input_sensitive_typeinteger

敏感词类型

demo_audiostring

试听音频内容(base64 编码,需配置试听文本 text 才会返回)

base_respobject

本次请求的状态码及其详情

base_resp.status_codeint64

状态码(0=正常;100001=参数错误;100101=鉴权失败;100501=触发 RPM 限流;100999=系统内部错误)

base_resp.status_msgstring

状态详情