U2-ASR
不止听见声音,更能理解表达
方言全覆盖,支持行业术语识别、一句话识别与实时转写
U2-ASR
U2-ASR 以全场景通用能力为基础,结合上下文理解与专属词汇优化,告别生硬逐字识别,升级为更自然的语义理解模式。覆盖多方言、中英双语,兼顾识别精准度与规整化文本输出,支持一句话识别与实时语音转写能力,适配即时交互与低延迟场景,个人、学习、办公、生活场景人人可用。
90%
复杂噪声环境识别准确率
99.2%
AISHELL-1测试集指标
98.4%
AISHELL-3测试集指标
98.4%
Libri Clean测试集指标
在工业级方言测试集上表现突出,整体识别效果全面超越主流ASR模型
客家话体系
闽语体系
赣语方言
晋语体系
吴语体系(苏州话)
西南官话(武汉话)
冀鲁官话
西南官话(四川话)
吴语体系(上海话)
粤语体系
在AISHELL、FLBURS、LibriSpeech、WenetSpeech Meeting、KeSpeech 等中英文公开测试集上同样表现卓越。
WS-Meeting
Libri Clean
Libri Other
WS-Net
Aishell-1
Aishell-2
Aishell-3
Fluers(zh)
核心能力
全域方言双语互通,听得懂各地口音
中文与英文双语识别,同时能支持粤语、四川话、上海话、闽南话等上百种方言及地方口音,完整涵盖汉语七大方言体系。无论是单一方言表达还是多种语言混杂沟通的场景,都能够准确识别并转成文字。
一句话快速识别,即时语音秒级转文字
低延迟高效响应,单句语音极速出文,适配语音指令、快速问答等各类即时交互场景,无需等待快速获取文本内容。
语境智能理解,不止听写更懂意思
摒弃机械逐字转写,依托对话语境与专业词库深度理解语义。无惧嘈杂环境、浓重口音、专业话术,精准还原说话本意。
全场景转写 + 结构化输出,长短音频一键搞定
支持实时流式转写与长音频批量处理,最高可处理 5 小时超长音频,边说边记、高效归档;兼具说话人分离、时间戳标注及智能标点断句能力,输出规范规整文本,直接使用无需二次编辑。
优势亮点
抗噪能力强
面向真实录音环境优化,在复杂背景音、嘈杂商场、会议现场等环境中仍保持较高识别稳定性。
方言与多语种覆盖广
除普通话外,兼顾粤语等方言及国际语言转写需求,适合跨区域、跨语言业务场景。
专业语义理解更强
可通过上下文与热词注入,对医疗、汽车、客服等专业领域术语进行增强识别。
人声分离精准转写
支持说话人分离、智能断句、标点预测、时间戳输出,让语音内容结构清晰、易于整理。
应用场景
办公文档输入
语音快速生成工作文档、邮件、方案草稿,大幅提升输入速度。
医疗病历录入
实时识别大量医学专业术语,支持医生口述病历录入,快速生成电子病历。
沟通与翻译
让不同口音、不同表达都能被精准还原,清晰记录。
会议音频转写
一键解析长线录音,自动生成规整文稿与结构化内容,高效减负。
能力
支持音频转文本,适用于会议、讲座、客服、业务录音等长音频场景。
支持说话人分离,可区分不同说话人段落。
支持智能断句与标点预测,提升文本可读性。
支持时间戳信息返回,可直接用于字幕、检索、音视频对齐。
支持上下文与热词增强,提升专有名词、行业术语识别率。
支持一句话快速识别,单句语音毫秒级响应,适配即时交互场景。
支持实时流式语音转写,边说边转,低延迟同步生成文本。
灵活计费,专属方案,私有化部署
U2-ASR
不止听见声音,更能理解表达
方言全覆盖,支持行业术语识别、一句话识别与实时转写
U2-ASR:不止听见声音,更能理解表达
U2-ASR 以全场景通用能力为基础,结合上下文理解与专属词汇优化,告别生硬逐字识别,升级为更自然的语义理解模式。覆盖多方言、中英双语,兼顾识别精准度与规整化文本输出,支持一句话识别与实时语音转写能力,适配即时交互与低延迟场景,个人、学习、办公、生活场景人人可用。
复杂噪声环境识别准确率
AISHELL-1测试集指标
AISHELL-3测试集指标
Libri Clean测试集指标
在工业级方言测试集上表现突出,整体识别效果全面超越主流ASR模型
湘语体系
客家话体系
闽语体系
赣语方言
晋语体系
吴语体系(苏州话)
西南官话(武汉话)
冀鲁官话
西南官话(四川话)
吴语体系(上海话)
粤语体系
在AISHELL、FLBURS、LibriSpeech、WenetSpeech Meeting、KeSpeech 等中英文公开测试集上同样表现卓越。
WS-Meeting
Libri Clean
Libri Other
WS-Net
Aishell-1
Aishell-2
Aishell-3
Fluers(zh)
核心能力
全域方言双语互通,听得懂各地口音
中文与英文双语识别,同时能支持粤语、四川话、上海话、闽南话等上百种方言及地方口音,完整涵盖汉语七大方言体系。无论是单一方言表达还是多种语言混杂沟通的场景,都能够准确识别并转成文字。
一句话快速识别,即时语音秒级转文字
低延迟高效响应,单句语音极速出文,适配语音指令、快速问答等各类即时交互场景,无需等待快速获取文本内容。
语境智能理解,不止听写更懂意思
摒弃机械逐字转写,依托对话语境与专业词库深度理解语义。无惧嘈杂环境、浓重口音、专业话术,精准还原说话本意。
全场景转写 + 结构化输出,长短音频一键搞定
支持实时流式转写与长音频批量处理,最高可处理 5 小时超长音频,边说边记、高效归档;兼具说话人分离、时间戳标注及智能标点断句能力,输出规范规整文本,直接使用无需二次编辑。
优势亮点
抗噪能力强
面向真实录音环境优化,在复杂背景音、嘈杂商场、会议现场等环境中仍保持较高识别稳定性。
方言与多语种覆盖广
除普通话外,兼顾粤语等方言及国际语言转写需求,适合跨区域、跨语言业务场景。
专业语义理解更强
可通过上下文与热词注入,对医疗、汽车、客服等专业领域术语进行增强识别。
人声分离精准转写
支持说话人分离、智能断句、标点预测、时间戳输出,让语音内容结构清晰、易于整理。
应用场景
办公文档输入
语音快速生成工作文档、邮件、方案草稿,大幅提升输入速度。
医疗病历录入
实时识别大量医学专业术语,支持医生口述病历录入,快速生成电子病历。
沟通与翻译
让不同口音、不同表达都能被精准还原,清晰记录。
会议音频转写
一键解析长线录音,自动生成规整文稿与结构化内容,高效减负。
能力
- 支持音频转文本,适用于会议、讲座、客服、业务录音等长音频场景。
- 支持说话人分离,可区分不同说话人段落。
- 支持智能断句与标点预测,提升文本可读性。
- 支持时间戳信息返回,可直接用于字幕、检索、音视频对齐。
- 支持上下文与热词增强,提升专有名词、行业术语识别率。
- 支持一句话快速识别,单句语音毫秒级响应,适配即时交互场景。
- 支持实时流式语音转写,边说边转,低延迟同步生成文本。





