概览

云知声Token Hub大模型服务平台(maas.unisound.com)提供简单易用、灵活高效的大模型 API,让开发者能够以更低成本快速构建智能应用,释放 AI 创新潜力。

模型概览

云知声Token Hub大模型服务平台汇聚多类型大模型能力,提供语音识别语音合成视觉文字识别等模型服务。

语音模型

语音模型用于理解与生成语音信息。平台目前提供 ASR 语音识别、TTS 语音合成及 TTS-Clone 声音克隆能力,帮助开发者快速构建语音交互与个性化语音应用。

模型名称
简介
U2-ASR多场景语音识别能力全面领先,复杂噪音与方言场景下实现高精度识别,业内首次突破 90%
U2-TTS语义理解与细腻情感表达双突破,高度拟人化,创意多元,赋予语音自然表达力
U2-TTS-Clone一句话,秒级克隆,呈现高度还原的拟人化情感语音

视觉模型

视觉模型用于从图像中提取和理解信息。平台当前提供 OCR 文字识别能力,支持高效识别图片与文档中的文本内容,实现信息数字化与结构化处理。

模型名称
简介
U1-OCR-Parser在理解文档版面的基础上,进一步挖掘深层语义,实现自动分类与业务信息抽取,完成了从“字符感知”到“文档认知”的质的飞跃
U1-OCR-Extract聚焦关键信息提取,从合同、票据、表单中自动识别金额、日期等字段,支持自定义配置,快速实现数据结构化。