本發(fā)明涉及深度學(xué)習(xí)自然語言處理、信號(hào)處理領(lǐng)域,具體涉及一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法。
背景技術(shù):
0、技術(shù)背景
1、目標(biāo)聲音提取旨在從包含多個(gè)聲音事件的音頻中,提取出用戶需要的聲音事件對(duì)應(yīng)的音頻信號(hào),并抑制用戶不需要的聲音事件對(duì)應(yīng)的音頻信號(hào)。隨著信號(hào)處理技術(shù),特別是深度學(xué)習(xí)技術(shù)的發(fā)展,目標(biāo)聲音提取作為一個(gè)有監(jiān)督學(xué)習(xí)任務(wù)得到了廣泛的探究。一個(gè)實(shí)用的目標(biāo)聲音提取系統(tǒng)需要用戶輸入查詢來指導(dǎo)系統(tǒng)提取想要的音頻。根據(jù)系統(tǒng)需要用戶提供的查詢種類不同,現(xiàn)有的基于查詢的目標(biāo)聲音提取系統(tǒng)主要分為基于標(biāo)簽查詢和基于自然語言查詢兩類系統(tǒng)。
2、由于自然界中的聲音事件是復(fù)雜多變的,有限多個(gè)預(yù)定義的離散標(biāo)簽難以涵蓋眾多的聲音事件,從而限制了基于標(biāo)簽查詢的目標(biāo)聲音提取系統(tǒng)的應(yīng)用場(chǎng)景。與之相對(duì),自然語言查詢靈活多樣,可以應(yīng)對(duì)自然界中復(fù)雜的聲音事件,自然而然地成為了許多研究者著重探討的方向。然而,有監(jiān)督地訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng)面臨眾多挑戰(zhàn),其中一個(gè)最為突出的問題就是訓(xùn)練這樣的系統(tǒng)需要極為大量的高質(zhì)量音頻-文本數(shù)據(jù)對(duì),這些音頻-文本數(shù)據(jù)對(duì)需要通過人工標(biāo)注的方式進(jìn)行構(gòu)造,標(biāo)注成本極高。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述現(xiàn)有技術(shù)中存在問題,本發(fā)明提出了一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,可以在不需要人工標(biāo)注的音頻-文本數(shù)據(jù)對(duì)的情況下,有效地訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng)。
2、本發(fā)明采用的技術(shù)方案如下:
3、一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,該方法在模型訓(xùn)練時(shí),基于對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型,自動(dòng)構(gòu)造與目標(biāo)音頻匹配的文本特征向量,從而可以實(shí)現(xiàn)在不需要人工標(biāo)注的音頻-文本數(shù)據(jù)對(duì)的情況下,有效地訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng)。具體步驟包括:
4、步驟1:構(gòu)建離線文本特征緩存:準(zhǔn)備音頻描述文本庫,包含n條音頻描述文本,使用對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型的文本編碼器,分別對(duì)每一條文本提取一個(gè)d維的文本特征向量,從而構(gòu)建一個(gè)n×d維的離線文本特征緩存;
5、步驟2:自監(jiān)督地訓(xùn)練語言查詢目標(biāo)聲音提取系統(tǒng),包括:
6、步驟2.1:構(gòu)建訓(xùn)練音頻,所述訓(xùn)練音頻包含混合音頻和目標(biāo)音頻,具體為:準(zhǔn)備音頻數(shù)據(jù)庫,包含m段音頻,在每一步的訓(xùn)練過程中,任意從音頻數(shù)據(jù)庫中抽取出兩段不同的音頻,將其中的一段視為要提取的目標(biāo)音頻,另一段視為干擾音頻,兩段音頻加權(quán)相加后構(gòu)造信號(hào)干擾比為r的混合音頻。
7、步驟2.2:基于相似性匹配構(gòu)造與目標(biāo)音頻匹配的文本特征向量:使用對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型的音頻編碼器,對(duì)目標(biāo)音頻提取d維的音頻特征向量。將該音頻特征向量視為查詢向量,并將步驟1中構(gòu)建的文本特征緩存視為鍵、值向量。通過查詢向量與鍵向量之間的點(diǎn)積運(yùn)算得到相似度得分,并以相似度得分為權(quán)重,將得分最大的k個(gè)鍵向量對(duì)應(yīng)的值向量進(jìn)行加權(quán)和計(jì)算。加權(quán)和向量經(jīng)過l2歸一化后即可獲得與目標(biāo)音頻匹配的文本特征向量。
8、步驟2.3:訓(xùn)練目標(biāo)聲音提取模型:構(gòu)造深度神經(jīng)網(wǎng)絡(luò)模型,該模型以步驟2.1獲得的混合音頻作為模型輸入,以步驟2.2獲得的文本特征向量作為條件輸入,該模型以文本特征向量為條件,在混合音頻中提取出目標(biāo)音頻?;谔崛∫纛l與步驟2.1中的目標(biāo)音頻的相似度構(gòu)造損失函數(shù),使用梯度下降算法訓(xùn)練模型。
9、步驟3:語言查詢目標(biāo)聲音提取系統(tǒng)推理:用戶輸入任意包含多個(gè)聲音事件的音頻,并輸入待提取音頻事件的自然語言描述,使用對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型的文本編碼器,對(duì)輸入的自然語言進(jìn)行編碼,得到d維的文本特征向量。步驟2.3中訓(xùn)練好的提取模型即可在該特征向量的控制下,提取出輸入音頻中用戶想要提取的目標(biāo)聲音。
10、優(yōu)選的,所述步驟1中,音頻描述文本庫中的文本應(yīng)包含:audioset數(shù)據(jù)集的527個(gè)文本類型的類別標(biāo)簽,wavcaps數(shù)據(jù)集的所有文本標(biāo)注,由語言模型自動(dòng)生成的更多音頻文本描述,文本特征向量的維度d=512。
11、優(yōu)選的,所述步驟2.1中,混合音頻的信號(hào)干擾比r=0db。
12、優(yōu)選的,所述步驟2.2中,選取用于加權(quán)和構(gòu)造文本特征向量的值向量的個(gè)數(shù)k=1。
13、本發(fā)明的有益效果是:使用本發(fā)明提供的方法可以在不需要人工標(biāo)注的文本-音頻數(shù)據(jù)對(duì)的情況下,有效地訓(xùn)練一個(gè)語言查詢目標(biāo)聲音提取系統(tǒng),該系統(tǒng)的性能接近、甚至在部分場(chǎng)景下可以超過使用人工標(biāo)注的文本-音頻數(shù)據(jù)對(duì)有監(jiān)督地訓(xùn)練的系統(tǒng),從而大大節(jié)約了該類系統(tǒng)訓(xùn)練時(shí)所需的人工標(biāo)注成本。
1.一種基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,該方法在模型訓(xùn)練時(shí),基于對(duì)比學(xué)習(xí)音頻文本預(yù)訓(xùn)練模型,自動(dòng)構(gòu)造與目標(biāo)音頻匹配的文本特征向量,從而可以實(shí)現(xiàn)在不需要人工標(biāo)注的音頻-文本數(shù)據(jù)對(duì)的情況下,訓(xùn)練一個(gè)基于自然語言查詢的目標(biāo)聲音提取系統(tǒng),具體步驟包括:
2.根據(jù)權(quán)利要求1所述的基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,其特征在于:所述步驟1中,音頻描述文本庫中的文本應(yīng)包含:audioset數(shù)據(jù)集的527個(gè)文本類型的類別標(biāo)簽,wavcaps數(shù)據(jù)集的所有文本標(biāo)注。
3.根據(jù)權(quán)利要求1所述的基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,其特征在于:所述步驟2.1中,混合音頻的信號(hào)干擾比r=0db。
4.根據(jù)權(quán)利要求1所述的基于自監(jiān)督學(xué)習(xí)的語言查詢目標(biāo)聲音提取方法,其特征在于:所述步驟2.2中,選取用于加權(quán)和構(gòu)造文本特征向量的值向量的個(gè)數(shù)k=1。