全部
期刊
文献
标题
作者
单位
摘要
关键词
栏目
基金
文献检索
包含全部检索词
包含精确检索词
包含至少一个检索词
作者
出版物
发表时间
-

一种利用CNN-BiGRU和多头注意力的语音分离技术

王振中 高勇

四川大学

针对基线单通道深度聚类语音分离算法分离准确率低的问题,提出了一种基于卷积神经网络级联双向门控循环网络(Convolutional Neural Network Cascades Bidirectional Gated Recurrent Network,CNN-BiGRU)和多头自注意力机制的深度聚类语音分离算法。该算法首先利用CNN-BiGRU挖掘语音的局部空间信息以及捕获语音信号中的时间特征,以实现时间建模;其次通过多头自注意力机制关注对语音分离更重要的全局特征,同时训练过程中使用一种局部线性可控的激活函数,即改进的双曲正切函数(Etanh);最后在分离阶段,利用高斯混合聚类算法(Gaussian Mixture Model,GMM)对混合语音信号进行分离。实验结果表明,相比于基线的深度聚类语音分离模型,所提算法在客观指标上有明显提高,主观听感上清晰度和可懂度较好。
【栏 目】 信息处理与传输
【分 类】 工程技术
【出 处】 《通信技术》2022年05期 第574-580页 (共7页)

相关文献

导出/参考文献
[1]王振中,高勇. 一种利用CNN-BiGRU和多头注意力的语音分离技术[J]. 通信技术 . 2022(05): 574-580.

PDF在线阅读

《一种利用CNN-BiGRU和多头注意力的语音分离技术》

价格:0.00

Copyright © 2021-2024 全科互知 | 赣ICP备2021006197号-4 | 新出网证(赣)字20417号
赣公网安备 36012102000372号 | 赣B2-20210313 | 技术支持:道然科技

sasa 互知学术
sasa 全科互知