创建异步语音合成任务

创建异步长文本语音合成任务,支持直接传入文本或文本文件进行合成。

POST/v1/audio/speech/tasks

授权

Authorizationstringheader必填
HTTP: Bearer Auth
  • Security Scheme Type: http
  • HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。

请求头

Content-Typeenum<string>默认值:application/json必填

请求体的媒体类型,请设置为application/json以确保请求数据格式正确。

可用选项:application/json

请求体application/json

modelstring必填

模型编码,可选值:u2-tts, u2-tts-clone

textstring

待合成音频的文本,model为u2-tts时,最长 5 万字符,model为u2-tts-clone时,最长 2 万字符。与 text_file_id 二选一必填

text_file_idint64

待合成音频的文本文件 ID(txt),model为u2-tts时,最长 5 万字符,model为u2-tts-clone时,最长 2 万字符。与 text 二选一必填

voice_settingobject必填

音色基础设置

voice_setting.voice_idstring

系统/克隆音色 ID,可通过查询可用音色 API 获取

voice_setting.speedinteger

语速范围 [0.5, 2],默认 1.0

voice_setting.volinteger

音量范围 [0, 10],默认 1.0

voice_setting.pitchinteger

语调范围 [-12, 12],默认 0

voice_setting.emotionstring

发音情绪,可选值:happy, angry, old, robot, slow, depressed, whisper, fast, loundly,分别对应 8 种情绪:高兴,愤怒,苍老,机器特效,沉稳,沮丧,低语,流利,大声。目前仅 chenyu 发音人支持。

audio_settingobject

音频输出设置

audio_setting.audio_sample_rateinteger

采样率,枚举 [8000, 16000, 24000, 32000],默认 32000

audio_setting.formatstring

输出格式,枚举 [mp3, pcm],默认 mp3

audio_setting.channelinteger

声道数,枚举 [1]

pronunciation_dictobject

自定义发音规则

pronunciation_dict.tonestring[ ]

发音/注音替换规则,示例:["水泊梁山/水泊<py>po1</py>梁山"]

language_booststring

语种增强模式,默认 auto

响应体结构

task_idstring

当前异步合成任务的唯一标识 ID

file_idint64

任务创建成功返回的音频文件 ID

usage_charactersinteger

消耗的字符数

base_respobject

base_resp.status_codeint64

请求状态码,0 = 正常

base_resp.status_msgstring

状态描述,success 表示成功