查看最新模型发布动态,覆盖文本、语音、视觉等模型信息,帮助开发者了解平台最新模型能力。
U2-ASR
语音
多场景语音识别能力全面领先,复杂噪音与方言场景下实现高精度识别,业内首次突破90%
查看详情
U2-TTS
语义理解与细腻情感表达双突破,高度拟人化,创意多元,赋予语音自然表达力
U2-TTS-Clone
一句话,秒级克隆,呈现高度还原的拟人化情感语音
U1-OCR-Parser
视觉
面向复杂文档的版面解析模型,精准识别表格、段落与层级结构,还原文档原始布局,支持 PDF、图片等多格式输入。
U1-OCR-Extract
聚焦关键信息提取,从合同、票据、表单中自动识别金额、日期等字段,支持自定义配置,快速实现数据结构化。