平台介绍

云知声Token Hub大模型服务平台(maas.unisound.com)提供简单易用、灵活高效的大模型 API,让开发者能够以更低成本快速构建智能应用,释放 AI 创新潜力。

模型概览

云知声 Token Hub 大模型服务平台汇聚多类型大模型能力,提供语音识别、语音合成、视觉文字识别、医疗医保文本理解与智能决策等模型服务,覆盖智能交互、多模态解析、医保监管、商保风控、理赔辅助等全场景应用。

文本模型

涵盖通用与医疗行业专属两大类型,其中通用文本大模型为全能型语言模型,支持文案创作、写代码、办公写作等通用需求;医疗行业专属文本大模型聚焦医保审核、商保理赔核心赛道,精通行业政策与业务规则,贴合医疗金融领域落地实操需求,全面覆盖文本类全场景智能化应用。

以知识密度和文字使用效率为核心,通过精简信息编码、优化推理效率,做到模型体量小、综合实力强,使用成本更低、落地更实用,通用场景与专业领域都能高效适配。

定位

旗舰基座模型

最大输出 Tokens

64K

输入模态

文本

输出模态

文本

语音模型

语音模型用于理解与生成语音信息。平台目前提供 ASR 语音识别、TTS 语音合成及 TTS-Clone 声音克隆能力,帮助开发者快速构建语音交互与个性化语音应用。

U2-ASR 面向真实业务录音环境打造,在复杂噪音、方言口音、多语种混切等高难场景下依然保持稳定识别效果;同时支持长音频异步转写、一句话识别、实时语音转写与结构化结果输出,让转写结果可直接进入会议、字幕、质检、归档等业务流程。

输入模态

音频

输出模态

文本

最大可支持音频时长

5小时

视觉模型

视觉模型用于从图像中提取和理解信息。平台当前提供 OCR 文字识别能力,支持高效识别图片与文档中的文本内容,实现信息数字化与结构化处理。

U1-OCR 以文档分类、证照识别、版式还原、信息抽取为核心功能,彻底摒弃传统浅层字符识别模式,具备出色的文档结构解析与内容理解能力,全面兼容多语种文字、手写内容以及各类非标文件格式。

输入模态

  • 图片、文本、PDF、Office
  • 单图≤ 10MB

输出模态

文本、Markdown文档、html

支持语言

中文、英文、日语、韩语、俄罗斯语、希腊语、阿拉伯语等50余种语言

上下文窗口

256K