创建异步语音合成任务

创建异步长文本语音合成任务,支持直接传入文本或文本文件进行合成。

POST/v1/audio/speech/tasks

授权

Authorizationstringheader必填
HTTP: Bearer Auth
  • Security Scheme Type: http
  • HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。

请求头

Content-Typeenum<string>默认值:application/json必填

请求体的媒体类型,请设置为application/json以确保请求数据格式正确。

可用选项:application/json

请求体application/json

modelstring必填

模型编码,可选值:u2-tts, u2-tts-clone

textstring

待合成音频的文本,model为u2-tts时,最长 5 万字符,model为u2-tts-clone时,最长 2 万字符。与 text_file_id 二选一必填

text_file_idlong

待合成音频的文本文件 ID(txt),model为u2-tts时,最长 5 万字符,model为u2-tts-clone时,最长 2 万字符。与 text 二选一必填

voice_settingobject必填

音色基础设置

voice_setting.voice_idstring

系统/克隆音色 ID,可通过查询可用音色 API 获取

voice_setting.speedinteger

语速范围 [0, 100],默认 50

voice_setting.volumeinteger

音量范围 [0, 100],默认 50

voice_setting.pitchinteger

音高范围 [0, 100],默认 50

voice_setting.brightinteger

亮度范围 [50, 100],默认 50

voice_setting.emotionstring

发音情绪,可选值:happy, angry, depressed, whisper, loudly, neutral,分别对应 6 种情绪:高兴,愤怒,沮丧,低语,大声,中性。目前仅 cn_male_chenyu 发音人支持。

voice_setting.languagestring

发音语种,可选值:zh, ja, ko, th, vi, id。
目前仅 `cn_female_shasha` 音色支持以下五种语种:
  • `ja`(日语)
  • `ko`(韩语)
  • `th`(泰语)
  • `vi`(越南语)
  • `id`(印尼语)

voice_setting.dialectstring

发音方言,可选值:yueyu, sichuan。
目前仅 `cn_male_chenyu` 音色支持以下两种方言:
  • `yueyu`(粤语)
  • `sichuan`(四川话)

audio_settingobject

音频输出设置

audio_setting.audio_sample_rateinteger

采样率,枚举 [8000, 16000, 24000, 32000],默认 32000

audio_setting.formatstring

输出格式,枚举 [mp3, pcm],默认 mp3

audio_setting.channelinteger

声道数,枚举 [1]

pronunciation_dictobject

自定义发音规则

pronunciation_dict.tonestring[ ]

发音/注音替换规则,示例:["水泊梁山/水泊<py>po1</py>梁山"]

响应体结构

task_idstring

当前异步合成任务的唯一标识 ID

file_idlong

任务创建成功返回的音频文件 ID

usage_charactersinteger

消耗的字符数

base_respobject

base_resp.status_codeinteger

请求状态码,0 = 正常

base_resp.status_msgstring

状态描述,success 表示成功