U2-TTS

拟人化语音合成释放创意表达力

语义理解与细腻情感表达双突破,赋予语音高度自然表达力

U2-TTS:语义理解与细腻情感表达双突破

高度拟人化,创意多元,赋予语音自然表达力

U2-TTS以“高度拟人+创意多元”为核心,让语音合成兼具真实感与创造力,使科技更有温度。

该系列模型总计支持12种方言(粤语、四川话、上海话全拿下)+ 10种外语,清嗓、笑声、呼吸声都自然还原,能切换12种普通话风格,温柔、干练、亲切随你选。

12
方言覆盖(含粤语 / 四川话 / 上海话)
10
外语支持,表达更自然
≤ 90ms
低并发首包延迟,实时交互

案例展示:多语种、方言支持——文旅宣传

多语种 / 方言

基于大模型的语音合成通常采用流匹配(Flow Matching)将大语言模型预测的语音Token转换为梅尔谱,再通过神经声码器(Neural Vocoder)重建为最终语音。但该方案普遍存在延迟较高的问题。业界常通过流匹配分段处理来降低延迟,但效果有限,且容易牺牲音质。

为实现真正高质量、低延迟的流式语音生成,云知声创新性地设计了基于纯因果注意力机制的流匹配模块,并与神经声码器进行联合优化,构建出端到端的纯流式推理架构。该方案在不损失合成质量的前提下,显著降低系统延迟——在低并发场景下,首包延迟已压缩至90毫秒以内,达到业界领先的实时交互水平。

U2-TTS

灵活计费,专属方案,全周期陪伴企业 AI 增长