午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型及訓(xùn)練方法與流程

文檔序號:11097956閱讀:1397來源:國知局
基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型及訓(xùn)練方法與制造工藝

本發(fā)明涉及語音信號處理技術(shù)領(lǐng)域,尤其涉及基于LSTM(長短時記憶)循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型及訓(xùn)練方法。



背景技術(shù):

基頻是語音信號的基本參數(shù)之一,在語音信號處理中具體著重要的作用,可應(yīng)用于語音識別、語音壓縮編碼、語音分離以及語音合成等領(lǐng)域。

雖然,在這個領(lǐng)域已經(jīng)有很多的研究工作,其中自相關(guān)法和倒譜法是兩種比較成熟的方法。近年來,許多新方法也運(yùn)用到了基頻提取中,但這些方法大都是從純信號處理的角度對語音信號的基頻進(jìn)行提取,且其提取精度仍然沒有得到很好的解決。主要體現(xiàn)在以下幾點:1、現(xiàn)有的基頻提取方法從純信號處理的角度對語音信號的基頻進(jìn)行提取,這個提取過程是逐幀進(jìn)行的,因而對基頻前后幀之間的關(guān)聯(lián)性考慮不足,進(jìn)而導(dǎo)致最終提取的基頻存在較為嚴(yán)重的半倍頻現(xiàn)象。2、基頻提取算法的魯棒性又是一個較為棘手的問題,現(xiàn)有的基頻提取方法要么在純凈語音中精度較佳,要么在帶噪語音中表現(xiàn)較佳,而不能同時兼顧在純凈和帶噪語音中的性能要求。因此,為了提高基頻提取的精度和魯棒性,有必要加強(qiáng)對基頻建模及其魯棒性的研究,進(jìn)一步提高基頻提取的精度和魯棒性。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的是針對現(xiàn)有技術(shù)存在的上述問題,提出一種基 于長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取方法、模型及其訓(xùn)練方法,以提高基頻提取的精度和魯棒性。

本發(fā)明的基于長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型的訓(xùn)練方法包括下述步驟:從語音波形信號中抽取聲學(xué)特征;采用多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò),通過所述聲學(xué)特征,訓(xùn)練生成基于多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型。

進(jìn)一步地,所述聲學(xué)特征抽取包括下述步驟:將所述語音波形信號分割成多個語音幀;計算每個語音幀的短時對數(shù)功率譜;利用長時平均對數(shù)功率譜對所述短時對數(shù)功率譜進(jìn)行歸一化處理;通過梳狀濾波器對歸一化后的所述短時對數(shù)功率譜進(jìn)行諧波結(jié)構(gòu)增強(qiáng),以得到具有魯棒性的聲學(xué)特征。

進(jìn)一步地,歸一化的短時對數(shù)功率譜Xt'(q)為: 其中,Xt(q)表示短時對數(shù)功率譜,L(q)表示長時平均對數(shù)功率譜,為經(jīng)過21點平滑處理的長時平均對數(shù)功率譜。

進(jìn)一步地,所述梳狀濾波器為:

其中,q=logf,f為語音波形信號的頻帶,系數(shù)β通過∫h(q)dq=0確定,系數(shù)γ=1.8。

進(jìn)一步地,對所述梳狀濾波器h(q)處理后的特征進(jìn)行擴(kuò)幀處理,得到更具有魯棒性的聲學(xué)特征向量:

進(jìn)一步地,用于所述基頻提取模型的訓(xùn)練的語音信號的清濁和基頻值序列通過至少兩種基頻提取方法取平均值并人工標(biāo)注得到。

進(jìn)一步地,對所述語音信號的輕音幀進(jìn)行線性插值處理。

本發(fā)明的基于長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型為通過本發(fā)明的上述方法訓(xùn)練得到的基于雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型。

本發(fā)明的基于長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取方法,包括下述步驟:從語音信號中抽取聲學(xué)特征;基于所述聲學(xué)特征,通過本發(fā)明的基頻提取模型提取所述語音信號的基頻。

進(jìn)一步地,在所述基頻提取方法中,通過下述步驟抽取所述聲學(xué)特征:將所述語音信號分割成多個語音幀;計算每個語音幀的短時對數(shù)功率譜;對所述短時對數(shù)功率譜進(jìn)行歸一化處理;通過梳狀濾波器對歸一化后的所述短時對數(shù)功率譜進(jìn)行諧波結(jié)構(gòu)增強(qiáng),以得到具有魯棒性的聲學(xué)特征。

本發(fā)明中,在基頻提取的建模方法上,拋棄了傳統(tǒng)的純信號處理的方法,采用了基于統(tǒng)計學(xué)習(xí)的方法。具體地采用基于多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)來對基頻提取進(jìn)行建模,建立起從抽取的聲學(xué)特征參數(shù)到基頻序列和清濁序列之間的映射關(guān)系,從而將基頻提取和清濁判斷統(tǒng)一在同一框架當(dāng)中?;诙嗳蝿?wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型能夠很好的考慮上下文信息,實現(xiàn)了基頻提取的高精度和高魯棒性。

本發(fā)明能夠在語音分離、語音合成等領(lǐng)域起到很好的作用。

附圖說明

圖1是本發(fā)明實施例的一種基于雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取方法的方法流程圖;

圖2是本發(fā)明實施例的從語音波形信號中抽取具有魯棒性的聲學(xué)特征的方法流程圖;

圖3是本發(fā)明實施例的訓(xùn)練生成基于多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型的方法流程圖;

圖4是本發(fā)明實施例的利用該訓(xùn)練好的基頻提取模型對任意語音的基頻進(jìn)行自動提取的方法流程圖。

具體實施方式

下面參照附圖來描述本發(fā)明的優(yōu)選實施方式。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,這些實施方式僅僅用于解釋本發(fā)明的技術(shù)原理,并非旨在限制本發(fā)明的保護(hù)范圍。

圖1是本發(fā)明實施例的一種基于雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取方法的方法流程圖。如圖1所示,該方法采用基于多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)對語音基頻進(jìn)行建模和提取,包括基頻提取模型的訓(xùn)練和基頻提取兩個階段。

所述基頻提取模型的訓(xùn)練方法包括下述步驟:

步驟101:從用作訓(xùn)練樣本的語音波形信號中抽取聲學(xué)特征;

步驟102:采用多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò),通過所述聲學(xué)特征,訓(xùn)練生成基于多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型。

圖2示例性地示出了本發(fā)明實施例的從語音波形信號中抽取具有魯棒性的聲學(xué)特征的方法流程圖。如圖2所示,聲學(xué)特征的抽取包括下述步驟:將原始的語音信號以一定的幀移、幀長分割成若干語音幀,例如,幀移為5ms、幀長為25ms;求得每個語音幀的短時對數(shù)功率譜;利用長時平均對數(shù)功率譜歸一化所述短時對數(shù)功率譜;通過梳狀濾波器對歸一化后的短時對數(shù)功率譜進(jìn)行諧波結(jié)構(gòu)增強(qiáng),以得到更加具有魯棒性的聲學(xué)特征。

具體地,用Xt(f)表示第t幀語音信號在第f頻帶上的短時功率譜,那么其對應(yīng)的短時對數(shù)功率譜可以表示為Xt(q),這里q=logf。然后用長時平均對數(shù)功率譜對該短時對數(shù)功率譜進(jìn)行歸一化處理,得到歸一化的短時對數(shù)功率譜Xt'(q):這里,L(q)表示長時平均對數(shù)功率譜,表示經(jīng)過21點平滑處理的長時平均對數(shù)功率譜。由于Xt'(q)考慮了長時特性的影響,能夠?qū)φZ音信號中的噪聲信號起到很好的 抑制作用,因而具有一定的魯棒性。最后,歸一化后的短時對數(shù)功率譜Xt'(q)再通過一個梳狀濾波器h(q)進(jìn)行處理,以對其諧波結(jié)構(gòu)進(jìn)行增強(qiáng)。梳狀濾波器h(q)如下:

其中,系數(shù)β通過∫h(q)dq=0確定,而系數(shù)γ=1.8。經(jīng)過梳狀濾波器h(q)處理后的特征可以表示為進(jìn)一步地,還可以對梳狀濾波器h(q)處理后的特征進(jìn)行擴(kuò)幀處理,得到更具有魯棒性的聲學(xué)特征向量:

本發(fā)明實施例中,采用長時平均對數(shù)功率譜對原始語音信號中提取得到的短時對數(shù)功率譜進(jìn)行歸一化,并用梳狀濾波器對歸一化后的功率譜進(jìn)行諧波結(jié)構(gòu)增強(qiáng),進(jìn)而得到具有魯棒性的聲學(xué)特征。這樣的聲學(xué)特征一方面能夠很好地保留原始語音信號中的諧波結(jié)構(gòu)信息,又能夠?qū)υ肼暰哂幸欢ǖ聂敯粜?。此外,在具有魯棒性的聲學(xué)特征提取中,僅需要一些本領(lǐng)域技術(shù)人員熟知的簡單的數(shù)字信號處理的計算,而不需要傳統(tǒng)基于純信號處理的方法那樣復(fù)雜的數(shù)字信號處理知識,大大降低了系統(tǒng)實現(xiàn)的復(fù)雜度和人工參與程度。

圖3示例性地示出了本發(fā)明實施例的訓(xùn)練生成基于多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型的方法流程圖。在圖3所示的實施例中,首先進(jìn)行訓(xùn)練數(shù)據(jù)準(zhǔn)備,包括兩部分:一是輸入數(shù)據(jù)準(zhǔn)備,另外一個是輸出數(shù)據(jù)準(zhǔn)備。輸入數(shù)據(jù)是從訓(xùn)練數(shù)據(jù)的語音波形信號中抽取的聲學(xué)特征得到,而其對應(yīng)的輸出數(shù)據(jù),即語音信號的清濁和基頻值序列通過例如RAPT、YIN、SWIPE、SHR等多種基頻提取方法取平均值并人工標(biāo)注得到的。從而得到訓(xùn)練數(shù)據(jù)的清濁判斷序列和基頻序列。此外,還可對語音信號中輕音幀進(jìn)行線性插值處理,使得到的訓(xùn)練 數(shù)據(jù)更加適合于基于多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。在基頻提取模型建模方面,可將基頻提取分為兩個任務(wù),任務(wù)一是對基頻序列值進(jìn)行預(yù)測,任務(wù)二是對清濁序列進(jìn)行預(yù)測,并利用基于多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)將兩個任務(wù)統(tǒng)一在同一框架中。在訓(xùn)練過程中,任務(wù)一和二的權(quán)重也可通過優(yōu)化得到。

本發(fā)明中,在基頻提取的建模方法上,拋棄了傳統(tǒng)的純信號處理的方法,采用了基于統(tǒng)計學(xué)習(xí)的方法。具體地采用基于多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)來對基頻提取進(jìn)行建模,建立起從抽取的聲學(xué)特征參數(shù)到基頻序列和清濁序列之間的映射關(guān)系,從而將基頻提取和清濁判斷統(tǒng)一在同一框架當(dāng)中?;诙嗳蝿?wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的基頻提取模型能夠很好的考慮上下文信息,實現(xiàn)了基頻提取的高精度和高魯棒性。利用本發(fā)明,能夠大大提高基頻提取的精度和魯棒性,特別是很好地解決了基頻提取中的半倍頻現(xiàn)象,能夠在語音分離、語音合成等領(lǐng)域起到很好的作用。

圖4示例性地示出了本發(fā)明實施例利用訓(xùn)練好的本發(fā)明的基頻提取模型對任意語音信號的基頻進(jìn)行自動提取的方法流程圖。如圖4所示,對于任意輸入語音信號,首先從輸入的語音波形信號中抽取聲學(xué)特征,得到聲學(xué)特征向量。在此,優(yōu)選地通過圖2所示的方法步驟得到具有魯棒性的聲學(xué)特征。將原始的語音信號以一定的幀移、幀長分割成若干語音幀,例如,幀移為5ms、幀長為25ms;求得每個語音幀的短時對數(shù)功率譜;歸一化所述短時對數(shù)功率譜;通過一個梳狀濾波器對歸一化后的短時對數(shù)功率譜進(jìn)行諧波結(jié)構(gòu)增強(qiáng),以得到具有魯棒性的聲學(xué)特征。在此,也可如上所述地,利用長時平均對數(shù)功率譜對已經(jīng)得到的短時對數(shù)功率譜進(jìn)行歸一化處理,得到最終的具有魯棒性的聲學(xué)特征向量。

具體地,用Xt(f)表示第t幀語音信號在第f頻帶上的短時功率譜,那么其對應(yīng)的短時對數(shù)功率譜可以表示為Xt(q),這里q=logf。然 后用長時平均對數(shù)功率譜對該短時對數(shù)功率譜進(jìn)行歸一化處理,得到歸一化的短時對數(shù)功率譜X′t(q):這里,L(q)表示長時平均對數(shù)功率譜,表示經(jīng)過21點平滑處理的長時平均對數(shù)功率譜。由于X′t(q)考慮了長時特性的影響,能夠?qū)φZ音信號中的噪聲信號起到很好的抑制作用,因而具有一定的魯棒性。最后,歸一化后的短時對數(shù)功率譜X′t(q)再通過一個梳狀濾波器h(q)進(jìn)行處理,以對其諧波結(jié)構(gòu)進(jìn)行增強(qiáng)。梳狀濾波器h(q)如下:

其中,系數(shù)β通過∫h(q)dq=0確定,而系數(shù)γ=1.8。經(jīng)過梳狀濾波器h(q)處理后的特征可以表示為進(jìn)一步地,還可以對梳狀濾波器h(q)處理后的特征進(jìn)行擴(kuò)幀處理,得到更具有魯棒性的聲學(xué)特征向量:

然后,將該具有魯棒性的聲學(xué)特征向量作為已訓(xùn)練好的基于多任務(wù)學(xué)習(xí)的雙向長短時記憶神經(jīng)網(wǎng)絡(luò)基頻提取模型的輸入,得到對應(yīng)的語音信號的基頻序列和清濁判斷序列。然后通過清濁判斷序列將基頻序列中對應(yīng)的清音幀置零,以得到最終提取的基頻。因而該方法能夠?qū)θ我廨斎氲恼Z音信號進(jìn)行基頻的自動提取。

基于以上步驟,能夠輸出任意輸入語音信號所對應(yīng)的基頻值,該基頻值能夠在語音分離、語音合成等領(lǐng)域起到很好的作用。

通過上述實施例可以看出,本發(fā)明主要通過特征層面和模型層面對音素時長建模和預(yù)測進(jìn)行了改善。在特征層面,利用長時平均對數(shù)功率譜和梳狀濾波器對原始的短時對數(shù)功率譜進(jìn)行處理。在模型層面,采用基于多任務(wù)學(xué)習(xí)的雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)對基頻提取進(jìn)行序列建模。從而大大提高了基頻提取的精度和魯棒性,特別是很好地解決 了基提取中的半倍頻現(xiàn)象,能夠在語音分離、語音合成等領(lǐng)域起到很好的作用。

至此,已經(jīng)結(jié)合附圖所示的優(yōu)選實施方式描述了本發(fā)明的技術(shù)方案,但是,本領(lǐng)域技術(shù)人員容易理解的是,本發(fā)明的保護(hù)范圍顯然不局限于這些具體實施方式。在不偏離本發(fā)明的原理的前提下,本領(lǐng)域技術(shù)人員可以對相關(guān)技術(shù)特征做出等同的更改或替換,這些更改或替換之后的技術(shù)方案都將落入本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1