快速克隆 | 云知声 Token Hub大模型服务平台

开发指南 API参考

模型价格 Token Plan 模型发布

声音克隆

上传克隆音频生成自定义音色，可配置试听文本生成克隆音色的试听音频，支持降噪。

POST/v1/audio/voices/clone

授权

Authorizationstringheader必填

HTTP: Bearer Auth

Security Scheme Type: http
HTTP Authorization Scheme: Bearer API_key，用于验证账户信息，可在项目管理>API Key 中查看。

请求头

Content-Typeenum<string>默认值: application/json必填

请求体application/json

file_idlong必填

克隆音频的 file_id，由文件上传接口获得。

支持上传的文件需遵从以下规范：

上传的音频文件格式需为单声道 wav 格式；
上传的音频文件的时长最少应不低于 5 秒，最长应不超过 2 分钟。推荐时长 5-15 秒。

voice_idstring必填

自定义音色 ID。长度范围为 8-64 个字符，首字符必须为英文字母，可包含字母、数字、连字符（-）和下划线（_），末位字符不能为连字符或下划线。voice_id 不可与已有 ID 重复。

clone_promptobject

克隆时如果提供风格音频和对应的文本，系统可提取该音频中的风格与情感特征，并结合克隆音频中的音色信息进行合成。其中，风格音频与克隆音频可来自不同发音人。

clone_prompt.prompt_audiointeger

风格音频 file_id 由文件上传接口获得.

clone_prompt.prompt_textstring

风格音频对应的文本

textstring

使用克隆音色试听的文本，如果传入，接口会返回基于该文本合成的试听音频。最长不超过 5 万个字符。

modelenum<string>必填

模型编码可用选项：u2-tts-clone

响应体结构

input_sensitiveboolean

输入内容是否包含敏感词

input_sensitive_typeinteger

敏感词类型

demo_audiostring

试听音频内容（base64 编码，需配置试听文本 text 才会返回）

base_respobject

本次请求的状态码及其详情

base_resp.status_codeinteger

状态码（0=正常；100001=参数错误；100101=鉴权失败；100501=触发 RPM 限流；100999=系统内部错误）

base_resp.status_msgstring

状态详情

Voice Clone

curl --request POST \
  --url https://maas-api.hivoice.cn/v1/audio/voices/clone \
  --header 'Authorization: Bearer <api_key>' \
  --header 'Content-Type: application/json' \
  --data '{
    "file_id": 871009177767936,
    "voice_id": "my-voice-001",
    "clone_prompt": {
      "prompt_audio": 443323177767936,
      "prompt_text": "我国的传统风俗过年每年都要贴春联"
    },
    "text": "前方高能，请保护好你的双眼，防止被惊吓",
    "model": "u2-tts-clone"
  }'

200

{
  "input_sensitive": false,
  "input_sensitive_type": 0,
  "demo_audio": "",
  "base_resp": {
    "status_code": 0,
    "status_msg": "success"
  }
}