本發(fā)明涉及音視頻處理,尤其涉及一種基于多通道的音視頻信號處理方法和裝置。
背景技術:
1、在多人音視頻通話、音視頻教學或者音視頻會議時,經(jīng)常遇到的一個場景是多人的線上互動,但是在有幾十路音頻同時開麥克風的情況下,聽到的聲音是非常雜亂的,而多樣的設備類型和不同的講話環(huán)境更是加劇了這種聲音的嘈雜。在實際應用場景中,在同一時刻往往只需要關注其中幾個人的講話內(nèi)容,而其他大部分用戶的信息可以忽略,或者多個通道的用戶是一種輪流上臺發(fā)言的狀態(tài)。
2、在多音頻同時存在的情況下,如何對多通道音頻信號進行選擇和增強,以便突出正在發(fā)言的目標音頻,弱化其他音頻的干擾,保證目標音頻的接收質(zhì)量,就成為本領域技術人員亟待解決的問題。
技術實現(xiàn)思路
1、本發(fā)明提供一種基于多通道的音視頻信號處理方法和裝置,通過對目標音頻通道的選擇及音頻增強,可以顯著提升用戶的聽覺感受,使用戶的線上交流更加簡潔順暢,節(jié)省用戶的交流成本。
2、本發(fā)明提供一種基于多通道的音視頻信號處理方法,所述方法包括:
3、計算所有輸入通道音頻信號的能量和語音活動性檢測信息;
4、根據(jù)音頻信號能量的計算結(jié)果和語音活動性檢測的計算結(jié)果,確定多個目標通道;
5、在所述目標通道滿足數(shù)量要求的情況下,所述目標通道進行音頻增強,對其余通道進行音頻衰減;
6、對所有輸入通道的音頻進行混音并輸出。
7、在一些實施例中,計算所有輸入通道的音頻信號能量,具體包括:
8、計算當前通道的單幀內(nèi)各音頻采樣點中的能量最大值;
9、計算當前通道的預設時長內(nèi)所有幀的能量最大值的平均值;
10、對能量最大值的平均值進行量化整形計算,以得到當前通道的音頻信號能量;
11、依次以每個輸入通道作為所述當前通道,以得到所有輸入通道的音頻信號能量。
12、在一些實施例中,計算所有輸入通道的語音活動性檢測信息,具體包括:
13、將當前通道的音頻信號重采樣到預設采樣頻率,并根據(jù)梅爾倒譜頻率劃分為多個頻帶,計算每個頻帶內(nèi)的能量信息;
14、利用高斯混合模型分別計算各子帶的語音和噪聲的高斯概率密度函數(shù);
15、計算語音和噪聲的對數(shù)似然比,并對所有子帶的對數(shù)似然比求和;
16、基于預先設定的閾值與所有子帶的對數(shù)似然比之和的大小關系,對當前通道的語音活動性檢測進行標定;
17、依次以每個輸入通道作為所述當前通道,以得到所有輸入通道的語音活動性檢測信息。
18、在一些實施例中,根據(jù)音頻信號能量的計算結(jié)果和語音活動性的計算結(jié)果,確定多個目標通道,具體包括:
19、根據(jù)語音活動性檢測的計算結(jié)果,選擇標定為有語音的通道作為備選通道;
20、根據(jù)所述音頻信號能量的計算結(jié)果,對所有備選通道按音頻信號能量大小進行排序,選擇音頻信號能量較大的預設數(shù)量的通道作為所述目標通道。
21、在一些實施例中,在所述目標通道滿足數(shù)量要求的情況下,所述目標通道進行音頻增強,對其余通道進行音頻衰減,具體包括:
22、在所述目標通道的數(shù)量大于或等于預設數(shù)量的情況下,對所有的所述目標通道進行音頻增強;
23、在所述目標通道的數(shù)量小于所述預設數(shù)量的情況下,在其余通道中選擇候補通道作為補充的目標通道,并對所有的目標通道進行音頻增強;
24、其中,所述候補通道的數(shù)量為所述目標通道與所述預設數(shù)量的差值。
25、在一些實施例中,在其余通道中選擇候補通道作為補充的目標通道,具體包括:
26、根據(jù)語音活動性檢測的計算結(jié)果,選擇標定為有語音的通道作為候補備選通道;
27、根據(jù)所述音頻信號能量的計算結(jié)果,對所有候補備選通道按音頻信號能量大小進行排序,選擇音頻信號能量較大的至少一個通道作為所述補充的目標通道;
28、在各候補備選通道的音頻信號能量值相同的情況下,選擇信噪比較高的通道作為補充的目標通道。
29、本發(fā)明還提供一種基于多通道的音視頻信號處理裝置,所述裝置包括:
30、參數(shù)計算單元,用于計算所有輸入通道的音頻信號能量和語音活動性檢測信息;
31、通道選擇單元,用于根據(jù)音頻信號能量的計算結(jié)果和語音活動性檢測的計算結(jié)果,確定多個目標通道;
32、音頻處理單元,用于在所述目標通道滿足數(shù)量要求的情況下,所述目標通道進行音頻增強,對其余通道進行音頻衰減;
33、結(jié)果輸出單元,用于對所有輸入通道的音頻進行混音并輸出。
34、本發(fā)明還提供一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上所述的方法。
35、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法。
36、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法。
37、本發(fā)明提供的基于多通道的音視頻信號處理方法和裝置,通過計算所有輸入通道的音頻信號能量和語音活動性檢測信息,根據(jù)音頻信號能量的計算結(jié)果和語音活動性檢測的計算結(jié)果,確定多個目標通道;在所述目標通道滿足數(shù)量要求的情況下,所述目標通道進行音頻增強,對其余通道進行音頻衰減,對所有輸入通道的音頻進行混音并輸出。該方法和裝置針對多人音視頻通話、音視頻教學或者音視頻會議時,多人同時開麥克風場景下聲音嘈雜的問題,通過合理的音頻通道選擇及音頻增強,使用戶更加容易獲取到自己需要的信息,提升了用戶的聽覺感受,使線上交流更加順暢,節(jié)約用戶的時間成本。
1.一種基于多通道的音視頻信號處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于多通道的音視頻信號處理方法,其特征在于,計算所有輸入通道的音頻信號能量,具體包括:
3.根據(jù)權(quán)利要求1所述的基于多通道的音視頻信號處理方法,其特征在于,計算所有輸入通道音頻信號的能量和語音活動性檢測信息,具體包括:
4.根據(jù)權(quán)利要求1所述的基于多通道的音視頻信號處理方法,其特征在于,根據(jù)音頻信號能量的計算結(jié)果和語音活動性檢測的計算結(jié)果,確定多個目標通道,具體包括:
5.根據(jù)權(quán)利要求4所述的基于多通道的音視頻信號處理方法,其特征在于,在所述目標通道滿足數(shù)量要求的情況下,所述目標通道進行音頻增強,對其余通道進行音頻衰減,具體包括:
6.根據(jù)權(quán)利要求5所述的基于多通道的音視頻信號處理方法,在其余通道中選擇候補通道作為補充的目標通道,具體包括:
7.一種基于多通道的音視頻信號處理裝置,其特征在于,所述裝置包括:
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1至6任一項所述的方法。
9.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述的方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述的方法。