风君子博客4月1日消息,奇富科技推出新一代全自研智能语音模型——QI语精灵。据悉,这款模型不仅能用方言与人自然交流,还能在智能营销、贷后提醒、风险控制等金融业务场景中,提供高准确率的语音识别和转写服务,让金融服务沟通更添温度。

QI语精灵以Conformer结构为基础,设计了一个轻量高效的语音识别模型,大幅降低了模型的部署成本,并能轻松应对高并发的业务需求。其双重解码方案,即将语音识别和意图识别两大核心环节紧密结合,确保在各类复杂场景下都能达到行业领先水平的表现。具体而言,QI语精灵在复杂通话环境下的语音识别综合准确率超过93%,无论是标准的普通话还是方言口音都能精准捕捉并转写成文字。而意图识别同样表现出色,识别准确率超95%,能快速且准确地解析用户需求并作出响应。

值得一提的是,QI语精灵在贷后客户沟通服务中取得了显著的成绩。与前一代技术相比,其在语音转写准确性上实现了大幅提升,单字错误率降低了45%,同时,相关的下游意图识别技术指标也有超过30%的增长。此外,通过AB测试显示,QI语精灵在提升客户响应效率方面成效显著,特别是在账户余额调整提醒后,对于通常需要关注的账户状态更新,QI语精灵帮助实现0.79%和0.54%的效率提升。

QI语精灵在方言识别方面展现出显著的独创性与技术优势。传统的方言识别模型受限于地区先验条件,需预先知晓方言种类才能准确识别;然而,QI语精灵却打破了这一局限。它依托全自研的Qifusion结构,无需方言种类的先验条件,便能直接进行精准的识别和转译。这一创新不仅实现了对全国8种主流方言口音的全覆盖,更能在多任务学习框架下,通过精准融合帧级别的方言信息,使得QI语精灵在方言口音数据集上识别准确率高达90%以上,达到业界领先水平。

奇富科技在人工智能语音领域进行了持续研究与开发积累。《Eden-TTS:一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》、《基于多粒度Transformer的多模态情绪识别》和《基于SE模块和多尺度特征学习的语音情感识别》等多篇论文被ICASSP和 INTERSPEECH两大顶级语音领域的国际学术会议连续收录。