声音克隆

上传克隆音频生成自定义音色,可配置试听文本生成克隆音色的试听音频,支持降噪。

POST/v1/audio/voices/clone

授权

Authorizationstringheader必填
HTTP: Bearer Auth
  • Security Scheme Type: http
  • HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。

请求头

Content-Typeenum<string>默认值: application/json必填

请求体application/json

file_idlong必填

克隆音频的 file_id,由文件上传接口获得。
支持上传的文件需遵从以下规范:
  • 上传的音频文件格式需为单声道 wav 格式;
  • 上传的音频文件的时长最少应不低于 5 秒,最长应不超过 2 分钟。推荐时长 5-15 秒。

voice_idstring必填

自定义音色 ID。长度范围为 8-64 个字符,首字符必须为英文字母,可包含字母、数字、连字符(-)和下划线(_),末位字符不能为连字符或下划线。voice_id 不可与已有 ID 重复。

clone_promptobject

克隆时如果提供风格音频和对应的文本,系统可提取该音频中的风格与情感特征,并结合克隆音频中的音色信息进行合成。其中,风格音频与克隆音频可来自不同发音人。

clone_prompt.prompt_audiointeger

风格音频 file_id 由文件上传接口获得.

clone_prompt.prompt_textstring

风格音频对应的文本

textstring

使用克隆音色试听的文本,如果传入,接口会返回基于该文本合成的试听音频。最长不超过 5 万个字符。

modelenum<string>必填

模型编码可用选项:u2-tts-clone

响应体结构

input_sensitiveboolean

输入内容是否包含敏感词

input_sensitive_typeinteger

敏感词类型

demo_audiostring

试听音频内容(base64 编码,需配置试听文本 text 才会返回)

base_respobject

本次请求的状态码及其详情

base_resp.status_codeinteger

状态码(0=正常;100001=参数错误;100101=鉴权失败;100501=触发 RPM 限流;100999=系统内部错误)

base_resp.status_msgstring

状态详情