1.一種基于vits的實(shí)時(shí)語音轉(zhuǎn)換方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于vits的實(shí)時(shí)語音轉(zhuǎn)換方法,其特征在于,預(yù)處理包括:
3.根據(jù)權(quán)利要求1所述的一種基于vits的實(shí)時(shí)語音轉(zhuǎn)換方法,其特征在于,所述先驗(yàn)編碼器包括:預(yù)訓(xùn)練的hubert模型與內(nèi)容編碼器;其中,所述預(yù)訓(xùn)練的hubert模型負(fù)責(zé)從源語音中提取語音內(nèi)容特征;所述內(nèi)容編碼器對(duì)語音內(nèi)容特征進(jìn)行維度轉(zhuǎn)換后映射至特征空間,再分割為語音特征先驗(yàn)分布的均值與方差,由此建模語音特征的先驗(yàn)分布。
4.根據(jù)權(quán)利要求1所述的一種基于vits的實(shí)時(shí)語音轉(zhuǎn)換方法,其特征在于,所述說話人編碼器使用預(yù)訓(xùn)練的說話人鑒別模型實(shí)現(xiàn),包括:lstm堆疊層及其后方依次連接的線性層、激活函數(shù)層與l2歸一化層;其中,lstm堆疊層從輸入的目標(biāo)語音的梅爾頻譜圖中提取出隨時(shí)間變換的動(dòng)態(tài)特征,經(jīng)過線性層處理獲得攜帶說話人身份信息的嵌入向量,經(jīng)過激活函數(shù)層引入非線性后,經(jīng)由l2歸一化層輸出說話人特征。
5.根據(jù)權(quán)利要求1或3所述的一種基于vits的實(shí)時(shí)語音轉(zhuǎn)換方法,其特征在于,所述后驗(yàn)編碼器與先驗(yàn)編碼器的結(jié)構(gòu)相同,先從線性譜中學(xué)習(xí)后驗(yàn)分布,再生成語音特征后驗(yàn)分布的均值與方差,由此建模語音特征的后驗(yàn)分布。
6.根據(jù)權(quán)利要求1所述的一種基于vits的實(shí)時(shí)語音轉(zhuǎn)換方法,其特征在于,所述神經(jīng)解碼器包括:前端的兩個(gè)卷積層與一個(gè)歸一化卷積層、lstm層、激活函數(shù)層、卷積模塊,以及末端的歸一化卷積層;
7.根據(jù)權(quán)利要求6所述的一種基于vits的實(shí)時(shí)語音轉(zhuǎn)換方法,其特征在于,所述卷積模塊中堆疊有若干組卷積塊,每一組卷積塊均包括依次設(shè)置的歸一化轉(zhuǎn)置卷積層、殘差層與激活函數(shù)層;
8.根據(jù)權(quán)利要求1所述的一種基于vits的實(shí)時(shí)語音轉(zhuǎn)換方法,其特征在于,生成器總損失還包括:生成器損失與生成器的特征匹配損失,
9.根據(jù)權(quán)利要求1或8所述的一種基于vits的實(shí)時(shí)語音轉(zhuǎn)換方法,其特征在于,重構(gòu)損失與kl損失表示為:
10.一種基于vits的實(shí)時(shí)語音轉(zhuǎn)換裝置,其特征在于,用于實(shí)現(xiàn)權(quán)利要求1~9任一項(xiàng)所述的方法,該裝置包括: