首页 › 软件 › 正文

人类声音语音合成

语音合成：模拟最像人类声音的系统

风君子软件 2024-01-18 20

近年来随着深度学习技术的不断发展，语音合成技术也取得了突破性进展，也成为了很多设备的标配。比如siri通过手机跟我们讲冷笑话，车载音箱实时播报汽车的行进路线等等无不用到语音合成。

并且，深度神经网络在语音合成模型与声码器中的应用，使得端到端语音合成系统得到飞速进展。序列到序列（seq2seq）模型框架简洁，无需帧级对齐，声学时长联合建模，避免级联误差，也无需复杂文本特征。Google在2017年提出了一种新的端到端的语音合成系统Tacotron，借助深度学习模型的强表达能力，表现出惊人的合成效果。

目前国内的语音合成技术趋于成熟，但是企业对语音合成候选人的要求也极高。语音技术相较于AI其他方向而言，具有典型的跨学科特点。除了声学、语音语言学、信号处理等，还要会编程语言，并且要对常见的深度学习模型有深入了解，以及对语音合成本身的Tacotron、WaveNet等系统异常熟悉。内容涉及的越广泛，大家学习周期也就越长，企业的人才缺口也会相应的增加。

并且语音合成算法工程师的薪资也极为可观，基本是30k/月起步。（是不是很心动！）

而国内高校并没有培养对应人才的学习机制，并且，真正想学习的同学，在网络上都很难搜索到系统地学习语音合成的相关资料，更别说还需要相关项目来动手实践了，终究是“巧妇难为无米之炊”。

深蓝学院特邀西北工业大学教授、博导谢磊团队讲授《语音合成：基础与前沿》课程，既讲解传统语音合成算法（帧级+信号声码器），而且讲解端到端语音合成进阶算法，最后带大家实现语音合成应用，如风格化语音合成、多说话人建模与说话人自适应技术。

◐

1.讲师团队介绍

语音合成：模拟最像人类声音的系统-编程知识网

左右滑动查看更多

◐

2. 实践项目

语音合成：模拟最像人类声音的系统-编程知识网

01

实现基于CRF的分词

学习如何使用CRF实现中文分词，了解CRF的数据格式、训练流程以及测试客观指标。通过该实践能够快速搭建一套分词系统。

02

World vocoder参数提取与合成

基于World vocoder实现参数的提取与合成，旨在了解传统语音声码器中各个参数，包括基频、频谱包络以及非周期信号。同时尝试使用这些特征还原语音，并且对比各种采样率下的不同还原效果。

03

基于LSTM/GRU的声学与时长模型

在此实践中，我们将基于Tensorflow实现递归神经网络LTSM/GRU的语音合成时长与声学模型。从而将设计好的文本特征经过时长和声学模型，合成语音。

04

实现基于Tacotron的声学模型

基于Tensorflow构建Tacotron模型，包括特征处理、模型训练和解码等。旨在了解Tacotron各个模块的细节，以及如何基于注意力机制构建序列到序列声学模型。

05

实现基于LSA的注意力机制

基于Tensorflow实现Location-sensitive attention (LSA)机制。旨在进一步了解注意力机制的基础原理以及使用方法，并尝试寻找更符合语音特点的注意力机制。

06

实现基于Mel特征的WaveRNN

基于Tensorflow实现基于Mel特征的WaveRNN神经声码器，从而将谱特征转换为真实语音波形。同时可以考虑对原始模型进行扩展或改进以提高训练速度。

◐

3. 课程亮点

语音合成：模拟最像人类声音的系统-编程知识网

1.本课程全面覆盖当前主流算法和模型，学习省时省力；

2.授课团队为国内知名的语音团队——西北工业大学谢磊团队；

3.理论与实践相结合。每章节课程后的都会配有相应的作业，助教1V1批改；

4.班主任带班。督促学习（告别拖延~）；

5.超优质的学习圈子。学习本课程的同学来自超牛的学校与企业。

◐

4. 课程收获

语音合成：模拟最像人类声音的系统-编程知识网

1.掌握传统语音合成系统中文本正则化、分词、注音、韵律预测等前端子模块的作用以及基于BLSTM+CRF的方法；

2.掌握传统语音合成系统中主流后端算法，包括基于HMM/NN的统计参数模型，以及基于单元拼接的方法；

3.领悟基于Attention的序列到序列算法的思想，掌握Tacotron模型的细节；

4.深入了解更适合语音任务的Attention机制及其应用；

5.熟悉基于WaveNet的神经网络声码器以及WaveRNN和LPCNet声码器的原理。

咨询更多

扫码添加深蓝学院-叶子

备注【130】，才会通过好友哦！

咨询课程可免费领取试听课哦~

44个基于SaaS的商业智能解决方案

我国医疗器械行业的发展现状以及未来趋势