创建异步语音合成任务
创建异步长文本语音合成任务,支持直接传入文本或文本文件进行合成。
POST/v1/audio/speech/tasks
授权
Authorizationstringheader必填
HTTP: Bearer Auth
- Security Scheme Type: http
- HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。
请求头
Content-Typeenum<string>默认值:application/json必填
请求体的媒体类型,请设置为application/json以确保请求数据格式正确。
可用选项:application/json
请求体application/json
modelstring必填
模型编码,可选值:u2-tts, u2-tts-clone
textstring
待合成音频的文本,model为u2-tts时,最长 5 万字符,model为u2-tts-clone时,最长 2 万字符。与 text_file_id 二选一必填
text_file_idint64
待合成音频的文本文件 ID(txt),model为u2-tts时,最长 5 万字符,model为u2-tts-clone时,最长 2 万字符。与 text 二选一必填
voice_settingobject必填
音色基础设置
voice_setting.voice_idstring
系统/克隆音色 ID,可通过查询可用音色 API 获取
voice_setting.speedinteger
语速范围 [0.5, 2],默认 1.0
voice_setting.volinteger
音量范围 [0, 10],默认 1.0
voice_setting.pitchinteger
语调范围 [-12, 12],默认 0
voice_setting.emotionstring
发音情绪,可选值:happy, angry, old, robot, slow, depressed, whisper, fast, loundly,分别对应 8 种情绪:高兴,愤怒,苍老,机器特效,沉稳,沮丧,低语,流利,大声。目前仅 chenyu 发音人支持。
audio_settingobject
音频输出设置
audio_setting.audio_sample_rateinteger
采样率,枚举 [8000, 16000, 24000, 32000],默认 32000
audio_setting.formatstring
输出格式,枚举 [mp3, pcm],默认 mp3
audio_setting.channelinteger
声道数,枚举 [1]
pronunciation_dictobject
自定义发音规则
pronunciation_dict.tonestring[ ]
发音/注音替换规则,示例:["水泊梁山/水泊<py>po1</py>梁山"]
language_booststring
语种增强模式,默认 auto
响应体结构
task_idstring
当前异步合成任务的唯一标识 ID
file_idint64
任务创建成功返回的音频文件 ID
usage_charactersinteger
消耗的字符数
base_respobject
base_resp.status_codeint64
请求状态码,0 = 正常
base_resp.status_msgstring
状态描述,success 表示成功