统计参数语音合成中的后置滤波深度生成架构
资料介绍:
统计参数语音合成中的后置滤波深度生成架构(中文11000字,英文PDF)
摘要—基于隐马尔可夫模型(HMM)的统计参数语音合成听起来仍是“闷”的。导致语音质量下降的一个原因可能是精细频谱结构的损失。在本文中,我们提出使用一个由深度神经网络(DNN)训练生成的深度生成架构来作为后置滤波器。网络模拟自然语音频谱的条件概率,给出合成语音频谱的条件概率来补偿合成与自然语音之间的差距。所提出的概率后置滤波器通过双向联想记忆(BAM)来级联两个限制玻尔兹曼机(RBM)或深度信念网络(DBN)来进行生成训练。我们设计了两种类型的DNN后置滤波器:一种在梅尔倒频谱域中操作,另一种在较高维度的频域中操作。我们将这两种新型的数据驱动后置滤波器与目前在语音合成中使用的其他类型的后置过滤器进行比较:基于固定的梅尔倒频谱的后置滤波器,基于全局方差的参数生成和基于调制频谱的增强。使用男性和女性演讲者的合成语音进行主观评估证实了所提出的基于DNN的后置滤波器在频域中与常规方法相比,显着提高了合成语音的分段质量。
关键词—深度生成架构,隐马尔可夫模型(HMM),调制频谱,后置滤波器,分段质量,语音合成
[资料来源:Doc163.com]
[来源:http://www.doc163.com]