声音克隆
上传克隆音频生成自定义音色,可配置试听文本生成克隆音色的试听音频,支持降噪。
POST/v1/audio/voices/clone
授权
Authorizationstringheader必填
HTTP: Bearer Auth
- Security Scheme Type: http
- HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。
请求头
Content-Typeenum<string>默认值: application/json必填
请求体application/json
file_idlong必填
克隆音频的 file_id,由文件上传接口获得。
支持上传的文件需遵从以下规范:
- 上传的音频文件格式需为单声道 wav 格式;
- 上传的音频文件的时长最少应不低于 5 秒,最长应不超过 2 分钟。推荐时长 5-15 秒。
voice_idstring必填
自定义音色 ID。长度范围为 8-64 个字符,首字符必须为英文字母,可包含字母、数字、连字符(-)和下划线(_),末位字符不能为连字符或下划线。voice_id 不可与已有 ID 重复。
clone_promptobject
克隆时如果提供风格音频和对应的文本,系统可提取该音频中的风格与情感特征,并结合克隆音频中的音色信息进行合成。其中,风格音频与克隆音频可来自不同发音人。
clone_prompt.prompt_audiointeger
风格音频 file_id 由文件上传接口获得.
clone_prompt.prompt_textstring
风格音频对应的文本
textstring
使用克隆音色试听的文本,如果传入,接口会返回基于该文本合成的试听音频。最长不超过 5 万个字符。
modelenum<string>必填
模型编码可用选项:u2-tts-clone
响应体结构
input_sensitiveboolean
输入内容是否包含敏感词
input_sensitive_typeinteger
敏感词类型
demo_audiostring
试听音频内容(base64 编码,需配置试听文本 text 才会返回)
base_respobject
本次请求的状态码及其详情
base_resp.status_codeinteger
状态码(0=正常;100001=参数错误;100101=鉴权失败;100501=触发 RPM 限流;100999=系统内部错误)
base_resp.status_msgstring
状态详情
