云知声 Token Hub - AI 大模型 MaaS 平台

通用通用于多行业、多场景的基础模型能力

文本Unisound U2

面向任务执行的原生智能体大模型，具备顶尖复杂推理、专业代码与长文本深度解析能力。

语音U2-ASR

将音频文件快速精准转写为文本，实现多场景语音数字化。

语音U2-TTS

文本转语音，生成自然流畅、多音色、多情感语音。

语音U2-TTS-Clone

集文本转语音与声音克隆功能于一体，秒级克隆、高保真还原。

视觉U1-OCR

具备文档智能分类、证照精准识别、版式原样还原、关键信息智能抽取四大核心解析能力。

医疗面向医疗场景的专业模型能力

文本U2-Med

面向医疗、医保、医药全场景的专业大模型，覆盖临床、审核、风控、健康管理等核心业务。

语音U2-ASR-Med敬请期待

医疗语音识别模型

语音U2-TTS-Med敬请期待

医疗语音合成模型

视觉U1-OCR-Med

专为医疗场景打造，集文书分类、版面解析、专业信息抽取于一体。

视觉U2-RadiMed敬请期待

医疗影像模型

U2 SkillHub

AI Agent技能商店，一键安装、海量精选与自定义Skill上传平台。

U2 Agent

原生 Agent 大模型智能助手，支持对话、专家 Agent 双模式，适配办公、金融等场景。

U2Claw

聚合多领域 AI 专家的桌面 AI Agent 龙虾智能工具。

语音›声音克隆

未检测到 API Key，请点击右上角「配置 API Key」按钮后再使用调试功能。

1提供克隆音频 (file_id)*

支持格式：单声道 WAV

大小限制： ≤ 20MB

时长要求：最少 5 秒，最长 2 分钟；推荐 5~15 秒

2配置音色 ID (voice_id)*

8-64 位，英文字母开头，支持字母/数字/-/_，末位不能为 - 或 _；voice_id 不可重复

3风格音频 (可选)

4试听配置 (可选)

任务信息

File ID-

Trace ID-

状态-

使用指南

建议上传的音频文件时长最少不低于 5 秒，最长不超过 2 分钟

克隆音频和风格音频建议使用清晰、无杂音的人声录音

克隆时如果提供风格音频和对应的文本，系统可提取该音频中的风格与情感特征，并结合克隆音频中的音色信息进行合成，风格音频与克隆音频可来自不同发音人。

语音合成可选择 u2-tts-clone 模型，使用对应 voice_id 即可调用克隆音色。

API 参考

CURL

curl -X POST "https://maas-api.unisound.com/v1/audio/voices/clone" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "file_id": ,
    "voice_id": "",
    "model": "u2-tts-clone",
    "clone_prompt": {
      "prompt_audio": ,
      "prompt_text": ""
    },
    "text": ""
  }'

请求体 JSON

{
    "file_id": ,
    "voice_id": "",
    "model": "u2-tts-clone",
    "clone_prompt": {
      "prompt_audio": ,
      "prompt_text": ""
    },
    "text": ""
  }