接口概览

云知声 Token Hub大模型服务平台 API 接口能力概览，包括语音、视觉和文件管理等多模态能力。

获取 API Key

通过按量计费&资源包 > API Key 管理，创建新的 API Key，获取 API Key

文本生成

和指定模型对话，模型根据请求内容生成回答。

支持模型

模型ID	模型介绍
u2	兼具通用知识推理、智能体交互能力、代码操作及长文本处理等能力。
u2-med	懂医疗、懂医保、懂药学的专业大模型

接口说明

包含两类对话交互接口，分别适配不同模型与协议：

文本生成（OpenAI API兼容）

兼容 OpenAI Chat Completions 的文本生成接口

查看文档

文本生成（Anthropic API兼容）

兼容 Anthropic Messages API 的文本生成接口

查看文档

实时语音转写

本接口通过 WebSocket 接收音频流并实时转写为带标点的文本，适用于直播字幕、在线会议、语音聊天、智能助手等场景。

该接口支持以下功能：

支持普通话及粤语、四川话等多种方言的高精度语音识别；
具备应对复杂声学环境的能力，支持自动语种检测与智能非人声过滤；
支持热词定制，可提升特定词汇的识别准确率；
支持说话人分离，生成结构化识别结果。

支持模型

以下为云知声提供的语音模型及其特性说明。

模型ID	特性
u2-asr	多场景语音识别能力全面领先，复杂噪音与方言场景下实现高精度识别，业内首次突破 90%

异步长音频语音转写

该 API 支持基于长音频的语音转写，单次最大支持音频时长 5小时，生成结果支持异步方式进行检索。

该接口支持以下功能：

支持 mp3、opus、wav、amr、m4a、ogg 等格式音频
支持通过声道或声纹特征进行说话人分离
识别结果中支持时间戳信息

提交语音转写任务，会生成 task_id，通过 task_id 调用检索任务状态接口获取状态及结果。

适用场景：会议转写、客服质检、字幕生成。

支持模型

以下为云知声提供的语音模型及其特性说明。

模型ID	特性
u2-asr	多场景语音识别能力全面领先，复杂噪音与方言场景下实现高精度识别，业内首次突破 90%

接口说明

整体包含 2 个 API：创建异步语音转写任务、查询语音转写任务状态。使用步骤如下：

创建语音转写任务得到 task_id；
基于 task_id 查询语音转写任务状态；
任务成功后，获取语音转写结果。

异步长文本语音合成

该 API 支持基于文本到语音的异步生成，单次文本生成传输最大支持 5 万字符，生成的完整音频结果支持异步的方式进行检索。

该接口支持以下功能：

系统音色、克隆音色自主选择；
支持语调、语速、音量、采样率、输出格式自主调整；
支持直接传入字符串与上传文本文件 file_id 两种方式进行待合成文本的输入；

提交长文本语音合成请求后，会生成 task_id，通过 task_id 进行合成任务状态检索及结果获取。

⚠️ 注意：返回的 url 的有效期为：自 url 返回开始的 9 个小时（即 32400 秒），超过有效期后 url 便会失效，生成的信息便会丢失，请注意下载信息的时间。

适用场景：整本书籍等长文本的语音合成。

支持模型

以下为云知声提供的语音模型及其特性说明。

模型ID	特性
u2-tts	语义理解与细腻情感表达双突破，高度拟人化，创意多元，赋予语音自然表达力
u2-tts-clone	一句话，秒级克隆，呈现高度还原的拟人化情感语音

接口说明

整体包含 2 个 API：创建异步语音合成任务、查询语音合成任务状态。使用步骤如下：

创建语音合成任务得到 task_id（如果选择以 text_file_id 的形式传入待合成文本，需要前置使用 File(Upload) 接口进行文件上传）；
基于 task_id 查询语音合成任务状态；
如果发现任务生成成功，那么可以使用本接口返回的 file_id 通过 File API 进行结果查看和下载。

声音克隆

本接口支持基于用户上传需要克隆的音频，以及风格音频，进行音色的克隆。

本接口适用场景：IP 声音克隆等需要快速克隆某一音色的相关场景。

支持模型

以下为云知声提供的语音模型及其特性说明。

模型ID	特性
u2-tts-clone	一句话，秒级克隆，呈现高度还原的拟人化情感语音

接口说明

上传待克隆音频调用上传克隆音频上传待克隆的音频文件并获取 file_id。
上传风格音频 (可选) 若需要提供风格音频以增强克隆效果，需要再次调用上传风格音频上传风格音频文件并获得对应的 file_id。
调用克隆接口基于获取的 file_id 和自定义的 voice_id 作为输入参数，调用快速克隆克隆音色。

异步文档解析

该 API 支持对文档内容智能解析，异步检索解析状态及结果。

该接口支持以下功能：

支持 JPG、PNG、PDF 等格式文档；
支持对指定页码内容解析；

提交文档解析任务，会生成 task_id，通过 task_id 调用检索任务状态接口获取状态及结果。

适用场景：合同、财务报表、病历、卷宗、发票等文档内容解析。

支持模型

以下为云知声提供的 OCR 模型及其特性说明。

模型ID	特性
u1-ocr	集成文档分类、证照识别、版式还原、信息抽取四大能力，兼顾高效解析与精准识别，适配日常文稿与复杂版式文件，支持手写及多语种识别。

接口说明

整体包含 2 个 API：创建异步文档解析任务、查询文档解析任务状态。使用步骤如下：

创建异步文档解析任务得到 task_id；
基于 task_id 查询文档解析任务状态；
任务成功后，获取文档解析结果，包含 Markdown 内容及版面信息。

文档信息抽取与分类

本接口支持对图片信息进行结构化抽取。

适用场景：合同、票据、表单的数据结构抽取。

支持模型

以下为云知声提供的 OCR 模型及其特性说明。

模型ID	特性
u1-ocr	集成文档分类、证照识别、版式还原、信息抽取四大能力，兼顾高效解析与精准识别，适配日常文稿与复杂版式文件，支持手写及多语种识别。
u1-ocr-med	内置医疗专业知识，专注医疗文书智能分类与专业信息精准抽取，适配多医院文书格式差异。

接口说明

通过文档信息抽取与分类接口，指定图片和提示词，按照提示词要求进行图片信息结构化抽取。

文档信息抽取与分类

对图片信息进行结构化抽取

查看文档

文件管理

本接口是作为文件管理接口，配合云知声 Token Hub大模型服务平台的其他接口使用。

接口说明

本接口是作为文件管理接口，配合其他接口使用。共包含 5 个接口：上传、列出、检索、下载、删除。

文件支持格式

类型	格式
文档	`txt`、`pdf`、`jpg`、`png`
音频	`mp3`、`m4a`、`wav` 、`opus` 、`ogg` 、`amr`