U2-ASR

多场景语音识别精准赋能各行各业

复杂噪音与方言场景下实现高精度识别,业内首次突破90%

U2-ASR:多场景语音识别能力全面领先

复杂噪音与方言场景下实现高精度识别,业内首次突破90%

U2-ASR在公开测试集和自有全场景测试集中,均显现了领先的语音识别能力,在评测中实现了从通用到极端全面的领先水平,超过了国内主流的开源和闭源语音大模型,达到业界最高水平。特别是在高难度的复杂噪音与方言口音场景下,相比主流ASR模型性能提升了2.5%至3.6%,在复杂背景音环境下识别准确率更是在业内首次突破90%。

公开测试集

公开测试集

自有测试集

自有测试集

1案例展示1:高噪环境下精准识别——商场购物

真实的语音识别环境中,还经常会面临专业术语识别不清、逻辑混乱等挑战。作为此次升级中最大的亮点,即模型“能够听得懂专业话”,它可结合上下文和行业术语,听懂专业场景中的每一个术语与指令,识别精度提升 30%。“它不是在‘听字’,而是在‘理解事’”。

2案例展示2:上下文理解——汽车4S店试驾

例如在汽车4S店试驾场景中,当销售提及“方向盘”相关描述时,即使上下文未明确出现“半幅方向盘”,模型仍能通过逻辑推理准确识别。

3案例展示3:专业知识库——医疗对话录音转写

而在严肃的医疗场景,模型能显式注入“依帕司他”“二甲双胍”等术语进行定向增强,确保识别结果更精准。

4案例展示4:多方言语种混切——商务会议

同时,该系列模型总计支持30余种中文方言及14种国际语言的识别转写,无论是晦涩的粤语、闽南语、上海话,还是英、日、韩、法、德、泰等国际语言,均能实现精准转写。更进一步,模型还能融合讲义等视觉语义,构建“视听融合”闭环交互,进一步提升识别结果。

灵活计费,专属方案,全周期陪伴企业 AI 增长