通用通用于多行业、多场景的基础模型能力

文本Unisound U2

面向任务执行的原生智能体大模型，具备顶尖复杂推理、专业代码与长文本深度解析能力。

将音频文件快速精准转写为文本，实现多场景语音数字化。

文本转语音，生成自然流畅、多音色、多情感语音。

语音U2-TTS-Clone

集文本转语音与声音克隆功能于一体，秒级克隆、高保真还原。

具备文档智能分类、证照精准识别、版式原样还原、关键信息智能抽取四大核心解析能力。

医疗面向医疗场景的专业模型能力

面向医疗、医保、医药全场景的专业大模型，覆盖临床、审核、风控、健康管理等核心业务。

语音U2-ASR-Med敬请期待

医疗语音识别模型

语音U2-TTS-Med敬请期待

医疗语音合成模型

视觉U1-OCR-Med

专为医疗场景打造，集文书分类、版面解析、专业信息抽取于一体。

视觉U2-RadiMed敬请期待

医疗影像模型

AI Agent技能商店，一键安装、海量精选与自定义Skill上传平台。

原生 Agent 大模型智能助手，支持对话、专家 Agent 双模式，适配办公、金融等场景。

聚合多领域 AI 专家的桌面 AI Agent 龙虾智能工具。

欢迎使用云知声 Token Hub

一站式调试和管理云知声开放平台 API，快速验证语音识别、语音合成、文档解析等各项能力

调试文本生成API，支持多轮对话

一句话语音识别

短语音实时识别，单次最长 25 秒，边说边出字，适合短句与指令场景

实时语音转写

长时流式语音转写，支持多语种与方言实时输出

语音转写（异步）

调试语音识别 API，支持将长音频文件转写为文本

语音合成（异步）

文本转语音，支持异步生成长音频并下载

通过极少量的音频样本，快速克隆并生成高相似度的个性化音色

文档解析（异步）

调试文档解析 API，提取文档内容，支持多格式输出

文档信息抽取与分类

调试文档信息抽取与分类 API，识别并抽取图片内容

管理和查看所有可用音色，包括系统预置与自定义克隆音色

统一管理您的输入输出文件、音色克隆及风格音频

快速开始

在左侧菜单选择需要调试的功能模块

配置 API 参数并发起请求

查看返回结果，快速验证 API 能力