本公開總體上涉及聲音事件定位和檢測(cè)(sound?event?localization,seld),更具體地,涉及用于估計(jì)聲音事件到達(dá)方向的聲音事件定位和檢測(cè)系統(tǒng)。
背景技術(shù):
1、現(xiàn)有的用于seld的系統(tǒng)通常通過在每個(gè)時(shí)刻估計(jì)針對(duì)所有類別的源位置來運(yùn)行。然而,seld仍然具有挑戰(zhàn)性,因?yàn)槁曉纯梢砸苿?dòng)、停止產(chǎn)生聲音、使其位置被室內(nèi)混響掩蓋、并且經(jīng)常與干擾聲音混合。此外,許多聲音事件很容易混淆,這進(jìn)一步使seld任務(wù)復(fù)雜化。
2、一般認(rèn)為,估計(jì)聲音的定位信息,特別是聲音的到達(dá)方向(doa),以及對(duì)聲音的起源處發(fā)生的事件類型進(jìn)行分類,是監(jiān)控和機(jī)器人應(yīng)用中使用的前端處理的重要類型。一些現(xiàn)有的seld系統(tǒng)遵循兩個(gè)主要階段的流水線(pipeline)。第一階段從麥克風(fēng)陣列提取接收的聲音的頻譜和空間特征。在第二階段,使用深度神經(jīng)網(wǎng)絡(luò)(dnn)學(xué)習(xí)從多通道輸入特征到以下兩個(gè)輸出目標(biāo)的映射:(1)指示在每個(gè)時(shí)刻每個(gè)類別的存在的類別概率矢量;(2)包含針對(duì)每個(gè)類別的位置信息的doa矢量。在這種情況下,dnn訓(xùn)練是具有挑戰(zhàn)性的,因?yàn)閮蓚€(gè)輸出分支的貢獻(xiàn)必須平衡。
3、包括基于活動(dòng)耦合笛卡爾到達(dá)方向(accdoa)表示的seld系統(tǒng)的一些現(xiàn)有的seld系統(tǒng)通常假設(shè)一個(gè)小的、固定的聲音事件類別集來進(jìn)行檢測(cè)和定位。在實(shí)踐中,如果存在12個(gè)類別,則這意味著dnn將在每個(gè)時(shí)刻輸出12個(gè)accdoa表示。對(duì)于大量的類別,這種方法可能變得不切實(shí)際,并且在某些情況下,可能不需要始終對(duì)所有類別進(jìn)行定位。
4、為此,訓(xùn)練類別特定的系統(tǒng)以僅定位來自單個(gè)類別的聲音事件,將允許專注于特定類別。然而,訓(xùn)練類別特定的模型可能很困難,因?yàn)榭赡軟]有足夠的可用于每個(gè)感興趣的類別的數(shù)據(jù)來正確訓(xùn)練各個(gè)和每個(gè)模型。
5、因此,需要一種克服上述缺陷的seld系統(tǒng)。
6、為此,需要一種克服上述挑戰(zhàn)的技術(shù)方案。更具體地,需要在存在定向干擾的情況下優(yōu)于傳統(tǒng)的聲音事件檢測(cè)和定位的這種seld系統(tǒng)。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供一種用于聲音事件定位的類別約束的seld系統(tǒng)。如前所述,現(xiàn)有的seld系統(tǒng)通常通過在每個(gè)時(shí)刻估計(jì)針對(duì)所有類別的源位置來運(yùn)行。然而,seld仍然具有挑戰(zhàn)性,因?yàn)槁曉纯梢砸苿?dòng)、停止產(chǎn)生聲音、使其位置被室內(nèi)混響掩蓋、并且經(jīng)常與干擾聲音混合。此外,許多聲音事件很容易混淆,這使seld任務(wù)更加復(fù)雜。
2、一些實(shí)施方式基于這樣一種認(rèn)識(shí),即,在本seld系統(tǒng)中,在每個(gè)時(shí)刻只有一個(gè)單accdoa矢量輸出,并且由該輸出表示的類別是基于描述需要定位的聲音事件類型的輸入來確定的?,F(xiàn)有的seld系統(tǒng),包括基于accdoa表示的系統(tǒng)的seld系統(tǒng),通常假設(shè)一個(gè)小的、固定的聲音事件類別集來進(jìn)行檢測(cè)和定位。例如,12個(gè)類別將在每個(gè)時(shí)刻輸出12個(gè)accdoa表示。
3、一些實(shí)施方式基于這樣一種認(rèn)識(shí),即,對(duì)于大量的類別,針對(duì)每個(gè)類別輸出一個(gè)accdoa表示可能變得不切實(shí)際,并且在某些情況下,可能不需要始終定位所有類別。為此,訓(xùn)練類別特定的系統(tǒng)以僅定位來自單個(gè)類別的聲音事件,將允許專注于特定類別。然而,訓(xùn)練類別特定的模型可能很困難,這是因?yàn)闉榱诉m當(dāng)?shù)赜?xùn)練各個(gè)和每個(gè)模型,對(duì)每個(gè)感興趣的類別具有極大的訓(xùn)練數(shù)據(jù)需求。
4、為此,本文提供的各種實(shí)施方式提供了一種方法和系統(tǒng)來定位來自單個(gè)目標(biāo)類別的聲音事件并基于所定位的聲音事件來識(shí)別目標(biāo)源。
5、一些實(shí)施方式基于下述認(rèn)識(shí),即,seld系統(tǒng)可被訓(xùn)練為類別特定的系統(tǒng),以定位來自單個(gè)類別的聲音事件并基于所定位的聲音事件來識(shí)別目標(biāo)聲音事件。seld系統(tǒng)進(jìn)一步用于估計(jì)目標(biāo)聲音事件的doa以及目標(biāo)聲音事件的起源與聲源之間的距離。為此,seld系統(tǒng)收集由聲學(xué)傳感器感測(cè)的聲學(xué)混合物的第一數(shù)字表示。所述聲學(xué)混合物與多個(gè)聲音事件相關(guān)聯(lián)。seld系統(tǒng)進(jìn)一步接收與所述目標(biāo)聲音事件相對(duì)應(yīng)的聲音的第二數(shù)字表示。所述第二數(shù)字表示用于從所述多個(gè)聲音事件中識(shí)別目標(biāo)聲音事件。所述第一數(shù)字表示和所述第二數(shù)字表示由神經(jīng)網(wǎng)絡(luò)處理。所述神經(jīng)網(wǎng)絡(luò)被訓(xùn)練為產(chǎn)生指示相對(duì)于所述聲學(xué)傳感器的位置的所述目標(biāo)聲音事件的起源的位置的定位信息。通過這種方式,所述神經(jīng)網(wǎng)絡(luò)識(shí)別出所述聲學(xué)混合物中的與其他聲音相干擾的目標(biāo)聲音事件。
6、一些實(shí)施方式基于這樣的認(rèn)識(shí),即,本公開的seld系統(tǒng)被配置為確定doa以及所述目標(biāo)聲音事件的起源與所述聲學(xué)傳感器之間的距離。通過用dnn處理所述第一數(shù)字表示和所述第二數(shù)字表示來確定所述doa和所述距離。dnn被訓(xùn)練為將所述多個(gè)聲音事件中的除所識(shí)別的目標(biāo)聲音事件以外的聲音事件視為定向干擾。所述seld系統(tǒng)進(jìn)一步輸出所識(shí)別的目標(biāo)聲音事件的doa和距離。
7、為此,所述第一數(shù)字表示對(duì)應(yīng)于所述聲學(xué)混合物的空間特征和頻譜特征的表示。所述第二數(shù)字表示包括指示所述目標(biāo)聲音事件的空間特性、頻譜特性或類別信息中的一個(gè)或組合的一個(gè)或更多個(gè)范例波形表示。此外,所述第二數(shù)字表示對(duì)應(yīng)于指示預(yù)定的聲音事件類型的集合中的目標(biāo)聲音事件的聲音事件類型的獨(dú)熱矢量。此外,所述第二數(shù)字表示包括指示所述目標(biāo)聲音事件的空間特性、頻譜特性或類別信息中的一個(gè)或組合的一個(gè)或更多個(gè)范例波形表示。
8、所述seld系統(tǒng)進(jìn)一步被配置為將指示多個(gè)類別中的目標(biāo)類別的獨(dú)熱矢量分配給所識(shí)別的目標(biāo)聲音事件。此外,所述seld系統(tǒng)利用類別約束的seld網(wǎng)絡(luò)來確定所識(shí)別的目標(biāo)聲音事件的doa和距離。所述類別約束的seld網(wǎng)絡(luò)包括定向到一個(gè)或更多個(gè)卷積塊的至少一個(gè)film塊。所述至少一個(gè)film塊和所述一個(gè)或更多個(gè)卷積塊被訓(xùn)練為識(shí)別所述目標(biāo)聲音事件并估計(jì)所識(shí)別的目標(biāo)聲音事件的doa和距源的距離。
9、因此,一個(gè)實(shí)施方式公開了一種由計(jì)算機(jī)實(shí)現(xiàn)的用于定位目標(biāo)聲音事件的方法。所述方法包括收集由所述聲學(xué)傳感器感測(cè)到的多個(gè)聲音事件的聲音的聲學(xué)混合物的第一數(shù)字表示。所述方法還包括接收與所述目標(biāo)聲音事件相對(duì)應(yīng)的聲音的第二數(shù)字表示。利用神經(jīng)網(wǎng)絡(luò)處理所述第一數(shù)字表示和所述第二數(shù)字表示,神經(jīng)網(wǎng)絡(luò)被訓(xùn)練為產(chǎn)生指示相對(duì)于聲學(xué)傳感器的位置的目標(biāo)聲音事件的起源的位置的定位信息。所述神經(jīng)網(wǎng)絡(luò)識(shí)別出所述聲學(xué)混合物中的與其他聲音相干擾的目標(biāo)聲音事件。然后輸出所述目標(biāo)聲音事件的起源的定位信息。所述定位信息包括所述目標(biāo)聲音事件從其起源指向所述聲學(xué)傳感器的doa以及所述目標(biāo)聲音事件的起源與聲音的聲學(xué)傳感器之間的距離。
10、本文公開的各種實(shí)施方式提供了一種seld系統(tǒng),即使在沒有足夠的訓(xùn)練數(shù)據(jù)時(shí),該seld系統(tǒng)也可以更準(zhǔn)確、更高效地并在更短的時(shí)間內(nèi)確定與所述目標(biāo)聲音事件相關(guān)聯(lián)的定位信息。
11、當(dāng)與附圖結(jié)合時(shí),從以下詳細(xì)描述中可以更容易地看出其他特征和優(yōu)點(diǎn)。
1.一種聲音事件定位與檢測(cè)seld系統(tǒng),所述seld系統(tǒng)用于一個(gè)或更多個(gè)目標(biāo)聲音事件的定位,所述seld系統(tǒng)包括:至少一個(gè)處理器;以及存儲(chǔ)器,在所述存儲(chǔ)器上存儲(chǔ)有指令,當(dāng)由所述至少一個(gè)處理器執(zhí)行時(shí),所述指令使所述seld系統(tǒng):
2.根據(jù)權(quán)利要求1所述的seld系統(tǒng),其中,所述神經(jīng)網(wǎng)絡(luò)通過將所述目標(biāo)聲音事件的所述第二數(shù)字表示與所述神經(jīng)網(wǎng)絡(luò)的處理所述聲學(xué)混合物的所述第一數(shù)字表示的至少一些層的至少一些中間輸出相結(jié)合來識(shí)別所述目標(biāo)聲音事件。
3.根據(jù)權(quán)利要求1所述的seld系統(tǒng),其中,所述定位信息包括所述目標(biāo)聲音事件從所述目標(biāo)聲音事件的起源指向所述聲學(xué)傳感器的到達(dá)方向以及所述目標(biāo)聲音事件的所述起源與所述聲學(xué)傳感器之間的距離中的一個(gè)或組合。
4.根據(jù)權(quán)利要求1所述的seld系統(tǒng),其中,所述第二數(shù)字表示識(shí)別多個(gè)目標(biāo)聲音事件,并且其中,所述神經(jīng)網(wǎng)絡(luò)是多頭神經(jīng)網(wǎng)絡(luò),所述多頭神經(jīng)網(wǎng)絡(luò)利用置換不變訓(xùn)練而被訓(xùn)練為將不同目標(biāo)聲音事件的不同定位信息輸出到所述多頭神經(jīng)網(wǎng)絡(luò)的不同頭部。
5.根據(jù)權(quán)利要求1所述的seld系統(tǒng),其中,所述神經(jīng)網(wǎng)絡(luò)通過將所述目標(biāo)聲音事件的所述第二數(shù)字表示的編碼與所述神經(jīng)網(wǎng)絡(luò)的處理所述聲學(xué)混合物的所述第一數(shù)字表示的至少一些層的至少一些中間輸出相結(jié)合來識(shí)別與所述聲學(xué)混合物中的其他聲音相干擾的所述目標(biāo)聲學(xué)事件。
6.根據(jù)權(quán)利要求1所述的seld系統(tǒng),其中,所述神經(jīng)網(wǎng)絡(luò)利用將所述第一數(shù)字表示置于所述第二數(shù)字表示的嵌入的上下文中的注意力來處理所述第一數(shù)字表示。
7.根據(jù)權(quán)利要求1所述的seld系統(tǒng),其中,所述處理器被配置為:
8.根據(jù)權(quán)利要求7所述的seld系統(tǒng),其中,所述神經(jīng)網(wǎng)絡(luò)包括用于確定所述定位信息的類別約束的seld網(wǎng)絡(luò),其中,所述類別約束的seld網(wǎng)絡(luò)包括定向到一個(gè)或更多個(gè)卷積塊的至少一個(gè)film塊,其中,所述至少一個(gè)film塊和所述一個(gè)或更多個(gè)卷積塊被訓(xùn)練為識(shí)別所述目標(biāo)聲音事件并估計(jì)所述定位信息。
9.根據(jù)權(quán)利要求8所述的seld系統(tǒng),其中,所述film塊中的每一個(gè)包括嵌入層、線性層、丟棄層、平鋪層和輸出層。
10.根據(jù)權(quán)利要求8所述的seld系統(tǒng),其中,所述一個(gè)或更多個(gè)卷積塊中的每一個(gè)包括二維卷積層、批歸一化層、整流線性激活函數(shù)relu、最大池化層和丟棄層。
11.根據(jù)權(quán)利要求8所述的seld系統(tǒng),其中,所述神經(jīng)網(wǎng)絡(luò)是卷積循環(huán)神經(jīng)網(wǎng)絡(luò)。
12.根據(jù)權(quán)利要求1所述的seld系統(tǒng),其中,所述第二數(shù)字表示包括指示預(yù)定的聲音事件類型的集合中的所述目標(biāo)聲音事件的聲音事件類型的獨(dú)熱矢量。
13.根據(jù)權(quán)利要求1所述的seld系統(tǒng),其中,所述第二數(shù)字表示包括指示所述目標(biāo)聲音事件的空間特性、頻譜特性或類別信息中的一個(gè)或組合的一個(gè)或更多個(gè)范例波形表示。
14.根據(jù)權(quán)利要求13所述的seld系統(tǒng),其中,所述神經(jīng)網(wǎng)絡(luò)將獨(dú)熱矢量轉(zhuǎn)換為嵌入矢量,并對(duì)所述嵌入矢量與所述聲學(xué)混合物的所述第一數(shù)字表示進(jìn)行聯(lián)合處理以產(chǎn)生所述定位信息。
15.根據(jù)權(quán)利要求14所述的seld系統(tǒng),其中,所述神經(jīng)網(wǎng)絡(luò)使用一個(gè)或多個(gè)特征不變線性調(diào)制film塊對(duì)所述嵌入矢量與所述聲學(xué)混合物的所述第一數(shù)字表示進(jìn)行聯(lián)合處理。
16.根據(jù)權(quán)利要求1所述的seld系統(tǒng),其中,所述第一數(shù)字表示包括所述聲學(xué)混合物的空間特征和頻譜特征的波形表示。
17.根據(jù)權(quán)利要求1所述的seld系統(tǒng),其中,所述聲學(xué)傳感器包括通過有線通信信道或無線通信信道在操作上連接到所述seld的以預(yù)定模式布置的多個(gè)麥克風(fēng)。
18.一種用于定位目標(biāo)聲音事件的方法,所述方法包括以下步驟:
19.根據(jù)權(quán)利要求18所述的方法,其中,所述神經(jīng)網(wǎng)絡(luò)通過將所述目標(biāo)聲音事件的所述第二數(shù)字表示與所述神經(jīng)網(wǎng)絡(luò)的處理所述聲學(xué)混合物的所述第一數(shù)字表示的至少一些層的至少一些中間輸出相結(jié)合來識(shí)別所述目標(biāo)聲音事件。
20.根據(jù)權(quán)利要求18所述的方法,其中,所述第二數(shù)字表示包括指示所述目標(biāo)聲音事件的空間特性、頻譜特性或類別信息中的一個(gè)或組合的一個(gè)或更多個(gè)范例波形表示。