接口概览
云知声 Token Hub大模型服务平台 API 接口能力概览,包括语音、视觉和文件管理等多模态能力。
获取 API Key
通过 项目管理 > API Key,创建新的 API Key,获取 API Key
异步长音频语音转写
该 API 支持基于长音频的语音转写,单次最大支持音频时长 5小时,生成结果支持异步方式进行检索。
该接口支持以下功能:
- 支持 mp3、opus、wav、amr、m4a、ogg 等格式音频
- 支持通过声道或声纹特征进行说话人分离
- 识别结果中支持时间戳信息
提交语音转写任务,会生成 task_id,通过 task_id 调用检索任务状态接口获取状态及结果。
适用场景:会议转写、客服质检、字幕生成。
支持模型
以下为云知声提供的语音模型及其特性说明。
| 模型 | 特性 |
|---|---|
| u2-asr | 多场景语音识别能力全面领先,复杂噪音与方言场景下实现高精度识别,业内首次突破 90% |
接口说明
整体包含 2 个 API:创建异步语音转写任务、查询语音转写任务状态。使用步骤如下:
- 创建语音转写任务得到 task_id;
- 基于 task_id 查询语音转写任务状态;
- 任务成功后,获取语音转写结果。
异步长文本语音合成
该 API 支持基于文本到语音的异步生成,单次文本生成传输最大支持 5 万字符,生成的完整音频结果支持异步的方式进行检索。
该接口支持以下功能:
- 系统音色、克隆音色自主选择;
- 支持语调、语速、音量、采样率、输出格式自主调整;
- 支持直接传入字符串与上传文本文件 file_id 两种方式进行待合成文本的输入;
提交长文本语音合成请求后,会生成 task_id,通过 task_id 进行合成任务状态检索及结果获取。
适用场景:整本书籍等长文本的语音合成。
支持模型
以下为云知声提供的语音模型及其特性说明。
| 模型 | 特性 |
|---|---|
| u2-tts | 语义理解与细腻情感表达双突破,高度拟人化,创意多元,赋予语音自然表达力 |
| u2-tts-clone | 一句话,秒级克隆,呈现高度还原的拟人化情感语音 |
接口说明
整体包含 2 个 API:创建异步语音合成任务、查询语音合成任务状态。使用步骤如下:
- 创建语音合成任务得到 task_id(如果选择以 text_file_id 的形式传入待合成文本,需要前置使用 File(Upload) 接口进行文件上传);
- 基于 task_id 查询语音合成任务状态;
- 如果发现任务生成成功,那么可以使用本接口返回的 file_id 通过 File API 进行结果查看和下载。
快速声音克隆
本接口支持基于用户上传需要克隆的音频,以及示例音频,进行音色的克隆。
本接口适用场景:IP 声音克隆等需要快速克隆某一音色的相关场景。
支持模型
以下为云知声提供的语音模型及其特性说明。
| 模型 | 特性 |
|---|---|
| u2-tts-clone | 一句话,秒级克隆,呈现高度还原的拟人化情感语音 |
接口说明
异步文档解析
该 API 支持对文档内容智能解析,异步检索解析状态及结果。
该接口支持以下功能:
- 支持 JPG、PNG、PDF 等格式文档;
- 支持对指定页码内容解析;
提交文档解析任务,会生成 task_id,通过 task_id 调用检索任务状态接口获取状态及结果。
适用场景:合同、财务报表、病历、卷宗、发票等文档内容解析。
支持模型
以下为云知声提供的 OCR 模型及其特性说明。
| 模型 | 特性 |
|---|---|
| u1-ocr-parser | 在理解文档版面的基础上,进一步挖掘深层语义,实现自动分类与业务信息抽取,完成了从“字符感知”到“文档认知”的质的飞跃 |
接口说明
整体包含 2 个 API:创建异步文档解析任务、查询文档解析任务状态。使用步骤如下:
- 创建异步文档解析任务得到 task_id;
- 基于 task_id 查询文档解析任务状态;
- 任务成功后,获取文档解析结果,包含 Markdown 内容及版面信息。
图片信息抽取
本接口支持对图片信息进行结构化抽取。
适用场景:合同、票据、表单的数据结构抽取。
支持模型
以下为云知声提供的 OCR 模型及其特性说明。
| 模型 | 特性 |
|---|---|
| u1-ocr-extract | 聚焦关键信息提取,从合同、票据、表单中自动识别金额、日期等字段,支持自定义配置,快速实现数据结构化。 |
接口说明
通过图片信息抽取接口,指定图片和提示词,按照提示词要求进行图片信息结构化抽取。
文件管理
本接口是作为文件管理接口,配合云知声 Token Hub大模型服务平台的其他接口使用。
接口说明
本接口是作为文件管理接口,配合其他接口使用。共包含 5 个接口:上传、列出、检索、下载、删除。
文件支持格式
| 类型 | 格式 |
|---|---|
| 文档 | `txt`、`pdf`、`jpg`、`png` |
| 音频 | `mp3`、`m4a`、`wav` 、`opus` 、`ogg` 、`amr` |