创建异步语音转写任务

创建语音转写任务,支持多种音频格式,支持输出时间戳及说话人信息。

POST/v1/audio/asr/tasks

授权

Authorizationstringheader必填
HTTP: Bearer Auth
  • Security Scheme Type: http
  • HTTP Authorization Scheme: Bearer API_key,用于验证账户信息,可在 项目管理>API Key 中查看。

请求头

Content-Typeenum<string>默认值:application/json必填

请求体的媒体类型,请设置为application/json以确保请求数据格式正确。

可用选项:application/json

请求体application/json

file_id string 必填

音频文件 ID(通过文件上传接口获取)。

上传的异步语音识别文件需遵从以下规范:

  • 格式:mp3、opus、wav、amr、m4a、ogg
  • 时长:最少不低于 1 秒,最长不超过 5 小时
  • 大小:不超过 1GB

modelenum<string>必填

模型编码可用选项:u2-asr

format string 必填

语音文件类型:mp3、opus、wav、amr、m4a、ogg。

sample_rate integer

音频采样率,默认 16000。

enable_itn boolean

是否启用阿拉伯数字转换(如将"一九九七年"转为"1997年"),默认 true。

channel integer

音频声道数,1(mono) / 2(stereo),默认为 1。

enable_speaker boolean

是否启用说话人分离,channel 为单声道时有效,默认 false。

speaker_num integer

说话人数量(仅当启用说话人分离时有效),默认自动识别人数。

word_info boolean

是否返回单词级别的时间戳,默认 false。

context string

上下文,用于指定模型的上下文信息,限制 500 字。

hotwords string[ ]

热词列表,热词个数<=200,每个热词<=5 字符。

响应体结构

task_idstring

转写任务 ID

base_respobject

本次请求的状态码及其详情

base_resp.status_codeint64

状态码(0=正常;100001=参数错误;100101=鉴权失败;100501=触发 RPM 限流;100999=系统内部错误)

base_resp.status_msgstring

状态详情