快速克隆
上传待克隆音频生成自定义音色,可配置试听文本生成克隆音色的试听音频,支持降噪。
POST/v1/audio/voices/clone
授权
Authorizationstringheader必填
HTTP: Bearer Auth
- Security Scheme Type: http
- HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。
请求头
Content-Typeenum<string>默认值: application/json必填
请求体application/json
file_idint64必填
待克隆音频的 file_id,由文件上传接口获得。
支持上传的文件需遵从以下规范:
- 上传的音频文件格式需为单声道 wav 格式;
- 上传的音频文件的时长最少应不低于 5 秒,最长应不超过 2 分钟。推荐时长 5-15 秒。
voice_idstring必填
自定义音色 ID。要求只能包含小写字母、数字和连字符(-),不能以连字符开头或结尾,连字符不能连续出现,长度限制为 1-32 个字符。
clone_promptobject
克隆时如果提供提示音频和对应的文本,可以提升克隆效果。
clone_prompt.prompt_audioint64
提示音频 file_id(由文件上传接口获得,purpose="prompt_audio")
clone_prompt.prompt_textstring
提示音频对应的文本
textstring
使用克隆音色试听的文本,如果传入,接口会返回基于该文本合成的试听音频。最长不超过 5 万个字符。
modelenum<string>必填
模型编码可用选项:u2-tts-clone
响应体结构
input_sensitiveboolean
输入内容是否包含敏感词
input_sensitive_typeinteger
敏感词类型
demo_audiostring
试听音频内容(base64 编码,需配置试听文本 text 才会返回)
base_respobject
本次请求的状态码及其详情
base_resp.status_codeint64
状态码(0=正常;100001=参数错误;100101=鉴权失败;100501=触发 RPM 限流;100999=系统内部错误)
base_resp.status_msgstring
状态详情