接口概览

云知声 Token Hub大模型服务平台 API 接口能力概览,包括语音、视觉和文件管理等多模态能力。

获取 API Key

通过 项目管理 > API Key,创建新的 API Key,获取 API Key

异步长音频语音转写

该 API 支持基于长音频的语音转写,单次最大支持音频时长 5小时,生成结果支持异步方式进行检索。

该接口支持以下功能:

  1. 支持 mp3、opus、wav、amr、m4a、ogg 等格式音频
  2. 支持通过声道或声纹特征进行说话人分离
  3. 识别结果中支持时间戳信息

提交语音转写任务,会生成 task_id,通过 task_id 调用检索任务状态接口获取状态及结果。

适用场景:会议转写、客服质检、字幕生成。

支持模型

以下为云知声提供的语音模型及其特性说明。

模型特性
u2-asr多场景语音识别能力全面领先,复杂噪音与方言场景下实现高精度识别,业内首次突破 90%

接口说明

整体包含 2 个 API:创建异步语音转写任务查询语音转写任务状态。使用步骤如下:

  1. 创建语音转写任务得到 task_id
  2. 基于 task_id 查询语音转写任务状态;
  3. 任务成功后,获取语音转写结果。

异步长文本语音合成

该 API 支持基于文本到语音的异步生成,单次文本生成传输最大支持 5 万字符,生成的完整音频结果支持异步的方式进行检索。

该接口支持以下功能:

  1. 系统音色、克隆音色自主选择;
  2. 支持语调、语速、音量、采样率、输出格式自主调整;
  3. 支持直接传入字符串与上传文本文件 file_id 两种方式进行待合成文本的输入;

提交长文本语音合成请求后,会生成 task_id,通过 task_id 进行合成任务状态检索及结果获取。

⚠️ 注意:返回的 url 的有效期为:自 url 返回开始的 9 个小时(即 32400 秒),超过有效期后 url 便会失效,生成的信息便会丢失,请注意下载信息的时间。

适用场景:整本书籍等长文本的语音合成。

支持模型

以下为云知声提供的语音模型及其特性说明。

模型特性
u2-tts语义理解与细腻情感表达双突破,高度拟人化,创意多元,赋予语音自然表达力
u2-tts-clone 一句话,秒级克隆,呈现高度还原的拟人化情感语音

接口说明

整体包含 2 个 API:创建异步语音合成任务查询语音合成任务状态。使用步骤如下:

  1. 创建语音合成任务得到 task_id(如果选择以 text_file_id 的形式传入待合成文本,需要前置使用 File(Upload) 接口进行文件上传);
  2. 基于 task_id 查询语音合成任务状态;
  3. 如果发现任务生成成功,那么可以使用本接口返回的 file_id 通过 File API 进行结果查看和下载。

快速声音克隆

本接口支持基于用户上传需要克隆的音频,以及示例音频,进行音色的克隆。

本接口适用场景:IP 声音克隆等需要快速克隆某一音色的相关场景。

支持模型

以下为云知声提供的语音模型及其特性说明。

模型特性
u2-tts-clone 一句话,秒级克隆,呈现高度还原的拟人化情感语音

接口说明

  1. 上传待克隆音频 调用 上传克隆音频 上传待克隆的音频文件并获取 file_id
  2. 上传示例音频 (可选) 若需要提供示例音频以增强克隆效果,需要再次调用 上传示例音频 上传示例音频文件并获得对应的 file_id
  3. 调用克隆接口 基于获取的 file_id 和自定义的 voice_id 作为输入参数,调用 快速克隆 克隆音色。

异步文档解析

该 API 支持对文档内容智能解析,异步检索解析状态及结果。

该接口支持以下功能:

  1. 支持 JPG、PNG、PDF 等格式文档;
  2. 支持对指定页码内容解析;

提交文档解析任务,会生成 task_id,通过 task_id 调用检索任务状态接口获取状态及结果。

适用场景:合同、财务报表、病历、卷宗、发票等文档内容解析。

支持模型

以下为云知声提供的 OCR 模型及其特性说明。

模型特性
u1-ocr-parser在理解文档版面的基础上,进一步挖掘深层语义,实现自动分类与业务信息抽取,完成了从“字符感知”到“文档认知”的质的飞跃

接口说明

整体包含 2 个 API:创建异步文档解析任务查询文档解析任务状态。使用步骤如下:

  1. 创建异步文档解析任务得到 task_id
  2. 基于 task_id 查询文档解析任务状态;
  3. 任务成功后,获取文档解析结果,包含 Markdown 内容及版面信息。

图片信息抽取

本接口支持对图片信息进行结构化抽取。

适用场景:合同、票据、表单的数据结构抽取。

支持模型

以下为云知声提供的 OCR 模型及其特性说明。

模型特性
u1-ocr-extract聚焦关键信息提取,从合同、票据、表单中自动识别金额、日期等字段,支持自定义配置,快速实现数据结构化。

接口说明

通过图片信息抽取接口,指定图片和提示词,按照提示词要求进行图片信息结构化抽取。

文件管理

本接口是作为文件管理接口,配合云知声 Token Hub大模型服务平台的其他接口使用。

接口说明

本接口是作为文件管理接口,配合其他接口使用。共包含 5 个接口:上传列出检索下载删除

文件支持格式

类型格式
文档`txt`、`pdf`、`jpg`、`png`
音频`mp3`、`m4a`、`wav` 、`opus` 、`ogg` 、`amr`