U2-ASR

不止听见声音，更能理解表达

从百种方言到多国语言，一句话识别 · 实时转写 · 长音频全支持

U2-ASR

U2-ASR 以全场景通用能力为基础，结合上下文理解与专属词汇优化，告别生硬逐字识别，升级为更自然的语义理解模式。覆盖上百种方言及多国语言，兼顾识别精准度与规整化文本输出，支持一句话识别与实时语音转写能力，适配即时交互与低延迟场景，个人、学习、办公、生活场景人人可用。

90%

复杂噪声环境识别准确率

99.2%

AISHELL-1测试集指标

98.4%

AISHELL-3测试集指标

98.4%

Libri Clean测试集指标

在工业级方言测试集上表现突出，整体识别效果全面超越主流ASR模型

U2-ASR其他模型

湘语体系

90.1

U2-ASR

86.2

FunASR 1.5

83.4

Qwen3- ASR-1.7B

80.4

Seed- ASR

客家话体系

83.4

U2-ASR

65.0

FunASR 1.5

42.6

Qwen3- ASR-1.7B

71.8

Seed- ASR

闽语体系

84.9

U2-ASR

68.2

FunASR 1.5

73.1

Qwen3- ASR-1.7B

71.5

Seed- ASR

赣语方言

88.3

U2-ASR

64.6

FunASR 1.5

64.0

Qwen3- ASR-1.7B

74.1

Seed- ASR

晋语体系

89.6

U2-ASR

73.1

FunASR 1.5

73.0

Qwen3- ASR-1.7B

77.4

Seed- ASR

吴语体系（苏州话）

82.2

U2-ASR

62.0

FunASR 1.5

53.0

Qwen3- ASR-1.7B

50.7

Seed- ASR

西南官话（武汉话）

92.1

U2-ASR

89.2

FunASR 1.5

85.8

Qwen3- ASR-1.7B

85.6

Seed- ASR

冀鲁官话

96.2

U2-ASR

93.0

FunASR 1.5

93.7

Qwen3- ASR-1.7B

93.0

Seed- ASR

西南官话（四川话）

94.7

U2-ASR

89.2

FunASR 1.5

90.2

Qwen3- ASR-1.7B

90.1

Seed- ASR

吴语体系（上海话）

89.0

U2-ASR

74.6

FunASR 1.5

72.5

Qwen3- ASR-1.7B

79.8

Seed- ASR

粤语体系

93.0

U2-ASR

90.2

FunASR 1.5

89.9

Qwen3- ASR-1.7B

87.7

Seed- ASR

核心能力

全域方言双语互通，听得懂各地口音

支持中文、英文及阿拉伯语、德语、西班牙语、法语、印尼语、日语、韩语、葡萄牙语、俄语、土耳其语、越南语、泰语、意大利语等 13 个国际语种，同时覆盖粤语、四川话、上海话、闽南话等上百种方言及地方口音，完整涵盖汉语七大方言体系。无论是单一方言表达、多语种混合沟通还是跨境业务场景，都能够准确识别并转成文字。

一句话快速识别，即时语音秒级转文字

低延迟高效响应，单句语音极速出文，适配语音指令、快速问答等各类即时交互场景，无需等待快速获取文本内容。

语境智能理解，不止听写更懂意思

摒弃机械逐字转写，依托对话语境与专业词库深度理解语义。无惧嘈杂环境、浓重口音、专业话术，精准还原说话本意。

全场景转写 + 结构化输出，长短音频一键搞定

支持实时流式转写与长音频批量处理，最高可处理 5 小时超长音频，边说边记、高效归档；兼具说话人分离、时间戳标注及智能标点断句能力，输出规范规整文本，直接使用无需二次编辑。

优势亮点

抗噪能力强

面向真实录音环境优化，在复杂背景音、嘈杂商场、会议现场等环境中仍保持较高识别稳定性。

方言与多语种覆盖广

除普通话外，模型兼容百余种方言，同时覆盖亚、欧、中东、拉美四大区域共 15 门外语，一站式满足国内跨地域、海外跨境语音转写需求；统一接入单一模型，无需分语种重复采购。

专业语义理解更强

可通过上下文与热词注入，对医疗、汽车、客服等专业领域术语进行增强识别。

人声分离精准转写

支持说话人分离、智能断句、标点预测、时间戳输出，让语音内容结构清晰、易于整理。

应用场景

办公文档输入

语音快速生成工作文档、邮件、方案草稿，大幅提升输入速度。

医疗病历录入

实时识别大量医学专业术语，支持医生口述病历录入，快速生成电子病历。

沟通与翻译

让不同口音、不同表达都能被精准还原，清晰记录。

会议音频转写

一键解析长线录音，自动生成规整文稿与结构化内容，高效减负。

能力

支持自动语种识别：未指定语种时仍可自动识别并完成转写，适配语种来源不确定的真实业务场景。

支持 15 个国际语种识别：覆盖亚洲、欧洲、中东、拉美主要业务区域，满足跨境业务多语种转写需求。

支持音频转文本，适用于会议、讲座、客服、业务录音等长音频场景。

支持说话人分离，可区分不同说话人段落。

支持智能断句与标点预测，提升文本可读性。

支持时间戳信息返回，可直接用于字幕、检索、音视频对齐。

支持上下文与热词增强，提升专有名词、行业术语识别率。

支持一句话快速识别，单句语音毫秒级响应，适配即时交互场景。

支持实时流式语音转写，边说边转，低延迟同步生成文本。

灵活计费，专属方案，私有化部署

U2-ASR

不止听见声音，更能理解表达

从百种方言到多国语言，一句话识别 · 实时转写 · 长音频全支持

Token Plan 即刻接入 API 立即体验

U2-ASR：不止听见声音，更能理解表达

90%

复杂噪声环境识别准确率

99.2%

AISHELL-1测试集指标

98.4%

AISHELL-3测试集指标

98.4%

Libri Clean测试集指标

在工业级方言测试集上表现突出，整体识别效果全面超越主流ASR模型

U2-ASR其他模型

湘语体系

90.1

U2-ASR

86.2

FunASR 1.5

83.4

Qwen3- ASR-1.7B

80.4

Seed- ASR