创建异步语音转写任务
创建语音转写任务,支持多种音频格式,支持输出时间戳及说话人信息。
POST/v1/audio/asr/tasks
授权
Authorizationstringheader必填
HTTP: Bearer Auth
- Security Scheme Type: http
- HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。
请求头
Content-Typeenum<string>默认值:application/json必填
请求体的媒体类型,请设置为application/json以确保请求数据格式正确。
可用选项:application/json
请求体application/json
file_id string 必填
音频文件 ID(通过文件上传接口获取)。
上传的异步语音识别文件需遵从以下规范:
- 格式:mp3、opus、wav、amr、m4a、ogg
- 时长:最少不低于 1 秒,最长不超过 5 小时
- 大小:不超过 1GB
modelenum<string>必填
模型编码可用选项:u2-asr
format string 必填
语音文件类型:mp3、opus、wav、amr、m4a、ogg。
sample_rate integer
音频采样率,默认 16000。
enable_itn boolean
是否启用阿拉伯数字转换(如将"一九九七年"转为"1997年"),默认 true。
channel integer
音频声道数,1(mono) / 2(stereo),默认为 1。
enable_speaker boolean
是否启用说话人分离,channel 为单声道时有效,默认 false。
speaker_num integer
说话人数量(仅当启用说话人分离时有效),默认自动识别人数。
word_info boolean
是否返回单词级别的时间戳,默认 false。
context string
上下文,用于指定模型的上下文信息,限制 500 字。
hotwords string[ ]
热词列表,热词个数<=200,每个热词<=5 字符。
响应体结构
task_idstring
转写任务 ID
base_respobject
本次请求的状态码及其详情
base_resp.status_codeint64
状态码(0=正常;100001=参数错误;100101=鉴权失败;100501=触发 RPM 限流;100999=系统内部错误)
base_resp.status_msgstring
状态详情