创建异步语音合成任务
创建异步长文本语音合成任务,支持直接传入文本或文本文件进行合成。
POST/v1/audio/speech/tasks
授权
Authorizationstringheader必填
HTTP: Bearer Auth
- Security Scheme Type: http
- HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。
请求头
Content-Typeenum<string>默认值:application/json必填
请求体的媒体类型,请设置为application/json以确保请求数据格式正确。
可用选项:application/json
请求体application/json
modelstring必填
模型编码,可选值:u2-tts, u2-tts-clone
textstring
待合成音频的文本,model为u2-tts时,最长 5 万字符,model为u2-tts-clone时,最长 2 万字符。与 text_file_id 二选一必填
text_file_idlong
待合成音频的文本文件 ID(txt),model为u2-tts时,最长 5 万字符,model为u2-tts-clone时,最长 2 万字符。与 text 二选一必填
voice_settingobject必填
音色基础设置
voice_setting.voice_idstring
系统/克隆音色 ID,可通过查询可用音色 API 获取
voice_setting.speedinteger
语速范围 [0, 100],默认 50
voice_setting.volumeinteger
音量范围 [0, 100],默认 50
voice_setting.pitchinteger
音高范围 [0, 100],默认 50
voice_setting.brightinteger
亮度范围 [50, 100],默认 50
voice_setting.emotionstring
发音情绪,可选值:happy, angry, depressed, whisper, loudly, neutral,分别对应 6 种情绪:高兴,愤怒,沮丧,低语,大声,中性。目前仅 cn_male_chenyu 发音人支持。
voice_setting.languagestring
发音语种,可选值:zh, ja, ko, th, vi, id。
目前仅 `cn_female_shasha` 音色支持以下五种语种:
- `ja`(日语)
- `ko`(韩语)
- `th`(泰语)
- `vi`(越南语)
- `id`(印尼语)
voice_setting.dialectstring
发音方言,可选值:yueyu, sichuan。
目前仅 `cn_male_chenyu` 音色支持以下两种方言:
- `yueyu`(粤语)
- `sichuan`(四川话)
audio_settingobject
音频输出设置
audio_setting.audio_sample_rateinteger
采样率,枚举 [8000, 16000, 24000, 32000],默认 32000
audio_setting.formatstring
输出格式,枚举 [mp3, pcm],默认 mp3
audio_setting.channelinteger
声道数,枚举 [1]
pronunciation_dictobject
自定义发音规则
pronunciation_dict.tonestring[ ]
发音/注音替换规则,示例:["水泊梁山/水泊<py>po1</py>梁山"]
响应体结构
task_idstring
当前异步合成任务的唯一标识 ID
file_idlong
任务创建成功返回的音频文件 ID
usage_charactersinteger
消耗的字符数
base_respobject
base_resp.status_codeinteger
请求状态码,0 = 正常
base_resp.status_msgstring
状态描述,success 表示成功
