平台介绍

云知声Token Hub大模型服务平台（maas.unisound.com）提供简单易用、灵活高效的大模型 API，让开发者能够以更低成本快速构建智能应用，释放 AI 创新潜力。

模型概览

云知声 Token Hub 大模型服务平台汇聚多类型大模型能力，提供语音识别、语音合成、视觉文字识别、医疗医保文本理解与智能决策等模型服务，覆盖智能交互、多模态解析、医保监管、商保风控、理赔辅助等全场景应用。

涵盖通用与医疗行业专属两大类型，其中通用文本大模型为全能型语言模型，支持文案创作、写代码、办公写作等通用需求；医疗行业专属文本大模型聚焦医保审核、商保理赔、药品安全与临床研究等核心赛道，精通行业政策与业务规则，贴合医疗领域落地实操需求，全面覆盖文本类全场景智能化应用。

以知识密度和文字使用效率为核心，通过精简信息编码、优化推理效率，做到模型体量小、综合实力强，使用成本更低、落地更实用，通用场景与专业领域都能高效适配。

定位

旗舰基座模型

最大输出 Tokens

64K

输入模态

文本

输出模态

文本

语音模型用于理解与生成语音信息。平台目前提供 ASR 语音识别、TTS 语音合成及 TTS-Clone 声音克隆能力，帮助开发者快速构建语音交互与个性化语音应用。

U2-ASR 面向真实业务录音环境打造，在复杂噪音、方言口音、多语种混切等高难场景下依然保持稳定识别效果；同时支持长音频异步转写、一句话识别、实时语音转写与结构化结果输出，让转写结果可直接进入会议、字幕、质检、归档等业务流程。

输入模态

音频

输出模态

文本

最大可支持音频时长

5小时

视觉模型用于从图像中提取和理解信息。平台当前提供 OCR 文字识别能力，支持高效识别图片与文档中的文本内容，实现信息数字化与结构化处理。

U1-OCR 以文档分类、证照识别、版式还原、信息抽取为核心功能，彻底摒弃传统浅层字符识别模式，具备出色的文档结构解析与内容理解能力，全面兼容多语种文字、手写内容以及各类非标文件格式。

输入模态

输出模态

文本、Markdown文档、html

支持语言

中文、英文、日语、韩语、俄罗斯语、希腊语、阿拉伯语等50余种语言

上下文窗口

256K