U2-ASR

不止听见声音,更能理解表达

方言全覆盖,支持行业术语识别、一句话识别与实时转写

U2-ASR

U2-ASR 以全场景通用能力为基础,结合上下文理解与专属词汇优化,告别生硬逐字识别,升级为更自然的语义理解模式。覆盖多方言、中英双语,兼顾识别精准度与规整化文本输出,支持一句话识别与实时语音转写能力,适配即时交互与低延迟场景,个人、学习、办公、生活场景人人可用。

90%

复杂噪声环境识别准确率

99.2%

AISHELL-1测试集指标

98.4%

AISHELL-3测试集指标

98.4%

Libri Clean测试集指标

在工业级方言测试集上表现突出,整体识别效果全面超越主流ASR模型

U2-ASR
其他模型

湘语体系

90.1
86.2
83.4
80.4
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

客家话体系

83.4
65
42.6
71.8
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

闽语体系

84.9
68.2
73.1
71.5
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

赣语方言

88.3
64.6
64
74.1
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

晋语体系

89.6
73.1
73
77.4
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

吴语体系(苏州话)

82.2
62
53
50.7
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

西南官话(武汉话)

92.1
89.2
85.8
85.6
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

冀鲁官话

96.2
93
93.7
93
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

西南官话(四川话)

94.7
89.2
90.2
90.1
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

吴语体系(上海话)

89
74.6
72.5
79.8
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

粤语体系

93
90.2
89.9
87.7
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

在AISHELL、FLBURS、LibriSpeech、WenetSpeech Meeting、KeSpeech 等中英文公开测试集上同样表现卓越。

U2-ASR
其他模型

WS-Meeting

95.8
95.2
94.1
93.7
U2-ASR
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Libri Clean

98.4
97.9
98.3
98.4
U2-ASR
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Libri Other

96.7
96.1
96.6
97.2
U2-ASR
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

WS-Net

95.9
95.3
94.3
95.3
U2-ASR 2.5
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Aishell-1

99.2
98.6
97.8
98.8
U2-ASR
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Aishell-2

97.9
97.5
97.5
97.2
U2-ASR 2.5
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Aishell-3

98.4
98
95.9
98.4
U2-ASR
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Fluers(zh)

96.8
96.8
97.6
97
U2-ASR 2.5
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

核心能力

全域方言双语互通,听得懂各地口音

中文与英文双语识别,同时能支持粤语、四川话、上海话、闽南话等上百种方言及地方口音,完整涵盖汉语七大方言体系。无论是单一方言表达还是多种语言混杂沟通的场景,都能够准确识别并转成文字。

一句话快速识别,即时语音秒级转文字

低延迟高效响应,单句语音极速出文,适配语音指令、快速问答等各类即时交互场景,无需等待快速获取文本内容。

语境智能理解,不止听写更懂意思

摒弃机械逐字转写,依托对话语境与专业词库深度理解语义。无惧嘈杂环境、浓重口音、专业话术,精准还原说话本意。

全场景转写 + 结构化输出,长短音频一键搞定

支持实时流式转写与长音频批量处理,最高可处理 5 小时超长音频,边说边记、高效归档;兼具说话人分离、时间戳标注及智能标点断句能力,输出规范规整文本,直接使用无需二次编辑。

优势亮点

抗噪能力强

面向真实录音环境优化,在复杂背景音、嘈杂商场、会议现场等环境中仍保持较高识别稳定性。

方言与多语种覆盖广

除普通话外,兼顾粤语等方言及国际语言转写需求,适合跨区域、跨语言业务场景。

专业语义理解更强

可通过上下文与热词注入,对医疗、汽车、客服等专业领域术语进行增强识别。

人声分离精准转写

支持说话人分离、智能断句、标点预测、时间戳输出,让语音内容结构清晰、易于整理。

应用场景

办公文档输入

语音快速生成工作文档、邮件、方案草稿,大幅提升输入速度。

医疗病历录入

实时识别大量医学专业术语,支持医生口述病历录入,快速生成电子病历。

沟通与翻译

让不同口音、不同表达都能被精准还原,清晰记录。

会议音频转写

一键解析长线录音,自动生成规整文稿与结构化内容,高效减负。

能力

支持音频转文本,适用于会议、讲座、客服、业务录音等长音频场景。

支持说话人分离,可区分不同说话人段落。

支持智能断句与标点预测,提升文本可读性。

支持时间戳信息返回,可直接用于字幕、检索、音视频对齐。

支持上下文与热词增强,提升专有名词、行业术语识别率。

支持一句话快速识别,单句语音毫秒级响应,适配即时交互场景。

支持实时流式语音转写,边说边转,低延迟同步生成文本。

灵活计费,专属方案,私有化部署

U2-ASR:不止听见声音,更能理解表达

U2-ASR 以全场景通用能力为基础,结合上下文理解与专属词汇优化,告别生硬逐字识别,升级为更自然的语义理解模式。覆盖多方言、中英双语,兼顾识别精准度与规整化文本输出,支持一句话识别与实时语音转写能力,适配即时交互与低延迟场景,个人、学习、办公、生活场景人人可用。

90%

复杂噪声环境识别准确率

99.2%

AISHELL-1测试集指标

98.4%

AISHELL-3测试集指标

98.4%

Libri Clean测试集指标

在工业级方言测试集上表现突出,整体识别效果全面超越主流ASR模型

U2-ASR
其他模型

湘语体系

90.1
86.2
83.4
80.4
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

客家话体系

83.4
65
42.6
71.8
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

闽语体系

84.9
68.2
73.1
71.5
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

赣语方言

88.3
64.6
64
74.1
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

晋语体系

89.6
73.1
73
77.4
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

吴语体系(苏州话)

82.2
62
53
50.7
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

西南官话(武汉话)

92.1
89.2
85.8
85.6
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

冀鲁官话

96.2
93
93.7
93
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

西南官话(四川话)

94.7
89.2
90.2
90.1
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

吴语体系(上海话)

89
74.6
72.5
79.8
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

粤语体系

93
90.2
89.9
87.7
U2-ASR
FunASR 1.5
Qwen3-ASR-1.7B
Seed-ASR

在AISHELL、FLBURS、LibriSpeech、WenetSpeech Meeting、KeSpeech 等中英文公开测试集上同样表现卓越。

U2-ASR
其他模型

WS-Meeting

95.8
95.2
94.1
93.7
U2-ASR
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Libri Clean

98.4
97.9
98.3
98.4
U2-ASR
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Libri Other

96.7
96.1
96.6
97.2
U2-ASR
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

WS-Net

95.9
95.3
94.3
95.3
U2-ASR 2.5
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Aishell-1

99.2
98.6
97.8
98.8
U2-ASR
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Aishell-2

97.9
97.5
97.5
97.2
U2-ASR 2.5
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Aishell-3

98.4
98
95.9
98.4
U2-ASR
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

Fluers(zh)

96.8
96.8
97.6
97
U2-ASR 2.5
Qwen3-ASR-1.7B
FunASR 1.5
Seed-ASR

核心能力

全域方言双语互通,听得懂各地口音

中文与英文双语识别,同时能支持粤语、四川话、上海话、闽南话等上百种方言及地方口音,完整涵盖汉语七大方言体系。无论是单一方言表达还是多种语言混杂沟通的场景,都能够准确识别并转成文字。

一句话快速识别,即时语音秒级转文字

低延迟高效响应,单句语音极速出文,适配语音指令、快速问答等各类即时交互场景,无需等待快速获取文本内容。

语境智能理解,不止听写更懂意思

摒弃机械逐字转写,依托对话语境与专业词库深度理解语义。无惧嘈杂环境、浓重口音、专业话术,精准还原说话本意。

全场景转写 + 结构化输出,长短音频一键搞定

支持实时流式转写与长音频批量处理,最高可处理 5 小时超长音频,边说边记、高效归档;兼具说话人分离、时间戳标注及智能标点断句能力,输出规范规整文本,直接使用无需二次编辑。

优势亮点

抗噪能力强

面向真实录音环境优化,在复杂背景音、嘈杂商场、会议现场等环境中仍保持较高识别稳定性。

方言与多语种覆盖广

除普通话外,兼顾粤语等方言及国际语言转写需求,适合跨区域、跨语言业务场景。

专业语义理解更强

可通过上下文与热词注入,对医疗、汽车、客服等专业领域术语进行增强识别。

人声分离精准转写

支持说话人分离、智能断句、标点预测、时间戳输出,让语音内容结构清晰、易于整理。

应用场景

办公文档输入

语音快速生成工作文档、邮件、方案草稿,大幅提升输入速度。

医疗病历录入

实时识别大量医学专业术语,支持医生口述病历录入,快速生成电子病历。

沟通与翻译

让不同口音、不同表达都能被精准还原,清晰记录。

会议音频转写

一键解析长线录音,自动生成规整文稿与结构化内容,高效减负。

能力

  • 支持音频转文本,适用于会议、讲座、客服、业务录音等长音频场景。
  • 支持说话人分离,可区分不同说话人段落。
  • 支持智能断句与标点预测,提升文本可读性。
  • 支持时间戳信息返回,可直接用于字幕、检索、音视频对齐。
  • 支持上下文与热词增强,提升专有名词、行业术语识别率。
  • 支持一句话快速识别,单句语音毫秒级响应,适配即时交互场景。
  • 支持实时流式语音转写,边说边转,低延迟同步生成文本。

立即开始

灵活计费,专属方案,私有化部署