本技術(shù)涉及用于空間音頻表示和渲染的裝置和方法,但不僅限于用于音頻解碼器的音頻表示的裝置和方法。
背景技術(shù):
1、沉浸式音頻編解碼器正被實現(xiàn),以支持范圍從低比特率操作到透明性的大量操作點。這種編解碼器的示例是沉浸式語音和音頻服務(wù)(ivas)編解碼器,其被設(shè)計為適合于在諸如3gpp?4g/5g網(wǎng)絡(luò)之類的通信網(wǎng)絡(luò)上使用,包括在諸如例如用于虛擬現(xiàn)實(vr)的沉浸式語音和音頻之類的沉浸式服務(wù)中使用。該音頻編解碼器被預(yù)期處理語音、音樂和通用音頻的編碼、解碼和渲染。此外它還被預(yù)期支持基于通道的音頻和基于場景的音頻輸入,包括關(guān)于聲場和聲源的空間信息。還預(yù)期該編解碼器以低延遲操作以使能會話服務(wù),以及在各種傳輸條件下支持高差錯魯棒性。
2、元數(shù)據(jù)輔助空間音頻(masa)是針對ivas提出的一種輸入格式。它使用音頻信號以及對應(yīng)的空間元數(shù)據(jù)。該空間元數(shù)據(jù)包括定義音頻信號的空間方面的參數(shù),并且其在頻帶中可以包含例如方向和直接對總能量比率(direct-to-total?energy?ratio)。masa流例如可以通過利用合適的捕獲設(shè)備的麥克風(fēng)捕獲空間音頻來獲得。例如,包括多個麥克風(fēng)的移動設(shè)備可以被配置為捕獲麥克風(fēng)信號,其中,可以基于所捕獲的麥克風(fēng)信號來估計空間元數(shù)據(jù)集合。masa流還可以通過合適的格式轉(zhuǎn)換從其他源(諸如特定的空間音頻麥克風(fēng)(諸如全景環(huán)繞聲(ambisonics))、工作室混音(例如,5.1音頻通道混音))或其他內(nèi)容獲得。
技術(shù)實現(xiàn)思路
1、根據(jù)第一方面,提供了一種裝置,其包括用于執(zhí)行以下操作的部件:獲得比特流,該比特流包括編碼空間元數(shù)據(jù)和編碼傳輸音頻信號;從該比特流的編碼傳輸音頻信號解碼傳輸音頻信號;從該比特流的編碼空間元數(shù)據(jù)解碼空間元數(shù)據(jù);生成編碼度量(encodingmetric);以及基于該編碼度量和空間元數(shù)據(jù),從該傳輸音頻信號生成空間音頻信號。
2、上述部件可以進(jìn)一步用于基于編碼度量,生成平滑控制,并且其中,用于基于該編碼量度和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號的部件可以用于基于該平滑控制和空間元數(shù)據(jù),從該傳輸音頻信號生成空間音頻信號。
3、用于基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號的部件可以進(jìn)一步用于基于編碼度量,至少修改來自該空間元數(shù)據(jù)的能量比率,其中,該空間音頻信號可以是基于經(jīng)修改的能量比率和空間元數(shù)據(jù)從該傳輸音頻信號生成的。
4、用于基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號的部件可以用于將定向聲音定位到由該空間元數(shù)據(jù)確定的方向,其中,該定向聲音的寬度基于該編碼度量。
5、用于基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號的部件可以用于:基于該編碼度量,從該傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣;基于該協(xié)方差矩陣,生成處理矩陣;以及基于該處理矩陣,對該傳輸音頻信號進(jìn)行去相關(guān)和/或混合以生成該空間音頻信號。
6、協(xié)方差矩陣可以包括以下中的至少一項:輸入?yún)f(xié)方差矩陣,其表示傳輸音頻信號;以及目標(biāo)協(xié)方差矩陣,其表示空間音頻信號。
7、用于從傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣的部件可以用于通過在時頻域中測量該傳輸音頻信號來生成輸入?yún)f(xié)方差矩陣。
8、用于從傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣的部件可以用于基于該空間元數(shù)據(jù)和傳輸音頻信號能量,生成目標(biāo)協(xié)方差矩陣。
9、上述部件可以進(jìn)一步用于對協(xié)方差矩陣應(yīng)用時間平均以生成平均協(xié)方差矩陣,該時間平均基于平滑控制,其中,基于該協(xié)方差矩陣生成處理矩陣可以用于從該平均協(xié)方差矩陣生成該處理矩陣。
10、用于從傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣的部件可以用于基于經(jīng)修改的能量比率,生成該協(xié)方差矩陣。
11、用于從傳輸音頻信號生成協(xié)方差矩陣的部件可以用于基于定向聲音到由空間元數(shù)據(jù)確定的方向的定位,生成該協(xié)方差矩陣,其中,該定向聲音的寬度基于編碼度量。
12、用于基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號的部件可以用于:基于該空間元數(shù)據(jù),獲得至少一個直接對總能量比率參數(shù);基于來自該空間元數(shù)據(jù)的至少一個直接對總能量比率參數(shù),將該傳輸音頻信號在頻帶中劃分成定向部分和非定向部分;使用幅度平移將該傳輸音頻信號的定向部分定位到多個揚聲器中的至少一個揚聲器;將該傳輸音頻信號的非定向部分分發(fā)到所有多個揚聲器并進(jìn)行去相關(guān);以及基于組合所定位的該傳輸音頻信號的定向部分和該傳輸音頻信號的非定向部分,生成組合音頻信號。
13、揚聲器可以是虛擬揚聲器,并且,上述部件可以進(jìn)一步用于通過將頭部相關(guān)傳遞函數(shù)應(yīng)用于組合音頻信號來生成雙耳空間音頻信號。
14、用于基于空間元數(shù)據(jù)獲得至少一個直接對總能量比率參數(shù)的部件可以用于從經(jīng)修改的能量比率獲得該至少一個直接對總能量比率。
15、用于使用幅度平移將傳輸音頻信號的定向部分定位到多個揚聲器中的至少一個揚聲器的部件可以用于基于平滑控制,使用該幅度平移將該傳輸音頻信號的定向部分定位到該多個揚聲器中的至少一個揚聲器。
16、用于將定向聲音定位到由空間元數(shù)據(jù)確定的方向的部件可以用于使用幅度平移將該定向聲音定位到多個揚聲器中的至少一個揚聲器,其中,該定位的寬度基于編碼度量。
17、用于生成編碼度量的部件可以用于基于空間元數(shù)據(jù)的表示質(zhì)量,生成該編碼度量。
18、用于生成編碼度量的部件可以用于從編碼空間元數(shù)據(jù)和空間元數(shù)據(jù)生成該編碼度量。
19、用于從編碼空間元數(shù)據(jù)和空間元數(shù)據(jù)生成編碼度量的部件可以用于:確定第一參數(shù),該第一參數(shù)指示旨在用于或者被分配用于針對幀對空間參數(shù)進(jìn)行編碼的比特數(shù)量;確定第二參數(shù),該第二參數(shù)指示在已針對該幀執(zhí)行空間參數(shù)的編碼之后使用的比特數(shù)量;以及將該編碼度量生成為第一參數(shù)與第二參數(shù)之間的比率。
20、空間參數(shù)可以是表示量化方向參數(shù)值的方向索引。
21、用于生成編碼度量的部件可以用于基于以下中的至少一項,生成該編碼度量:空間元數(shù)據(jù)的量化分辨率;以及該空間元數(shù)據(jù)的至少兩個量化分辨率之間的比率。
22、根據(jù)第二方面,提供了一種方法,其包括:獲得比特流,該比特流包括編碼空間元數(shù)據(jù)和編碼傳輸音頻信號;從該比特流的編碼傳輸音頻信號解碼傳輸音頻信號;從該比特流的編碼空間元數(shù)據(jù)解碼空間元數(shù)據(jù);生成編碼度量;以及基于該編碼度量和空間元數(shù)據(jù),從該傳輸音頻信號生成空間音頻信號。
23、該方法可以進(jìn)一步包括基于編碼度量,生成平滑控制,并且其中,基于該編碼量度和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號可以包括基于該平滑控制和空間元數(shù)據(jù),從該傳輸音頻信號生成空間音頻信號。
24、基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號可以包括基于編碼度量,至少修改來自該空間元數(shù)據(jù)的能量比率,其中,該空間音頻信號可以是基于經(jīng)修改的能量比率和空間元數(shù)據(jù)從該傳輸音頻信號生成的。
25、基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號可以包括將定向聲音定位到由該空間元數(shù)據(jù)確定的方向,其中,該定向聲音的寬度基于該編碼度量。
26、基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號可以包括:基于該編碼度量,從該傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣;基于該協(xié)方差矩陣,生成處理矩陣;以及基于該處理矩陣,對該傳輸音頻信號進(jìn)行去相關(guān)和/或混合以生成該空間音頻信號。
27、協(xié)方差矩陣可以包括以下中的至少一項:輸入?yún)f(xié)方差矩陣,其表示傳輸音頻信號;以及目標(biāo)協(xié)方差矩陣,其表示空間音頻信號。
28、從傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣可以包括通過在時頻域中測量該傳輸音頻信號來生成輸入?yún)f(xié)方差矩陣。
29、從傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣可以包括基于該空間元數(shù)據(jù)和傳輸音頻信號能量,生成目標(biāo)協(xié)方差矩陣。
30、該方法可以進(jìn)一步包括對協(xié)方差矩陣應(yīng)用時間平均以生成平均協(xié)方差矩陣,該時間平均基于平滑控制,其中,基于該協(xié)方差矩陣生成處理矩陣可以包括從該平均協(xié)方差矩陣生成該處理矩陣。
31、從傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣可以包括基于經(jīng)修改的能量比率,生成該協(xié)方差矩陣。
32、從傳輸音頻信號生成協(xié)方差矩陣可以包括基于定向聲音到由空間元數(shù)據(jù)確定的方向的定位,生成該協(xié)方差矩陣,其中,該定向聲音的寬度基于編碼度量。
33、基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號可以包括:基于該空間元數(shù)據(jù),獲得至少一個直接對總能量比率參數(shù);基于來自該空間元數(shù)據(jù)的至少一個直接對總能量比率參數(shù),將該傳輸音頻信號在頻帶中劃分成定向部分和非定向部分;使用幅度平移將該傳輸音頻信號的定向部分定位到多個揚聲器中的至少一個揚聲器;將該傳輸音頻信號的非定向部分分發(fā)到所有多個揚聲器并進(jìn)行去相關(guān);以及基于組合所定位的該傳輸音頻信號的定向部分和該傳輸音頻信號的非定向部分,生成組合音頻信號。
34、揚聲器可以是虛擬揚聲器,并且,該方法可以進(jìn)一步包括通過將頭部相關(guān)傳遞函數(shù)應(yīng)用于組合音頻信號來生成雙耳空間音頻信號。
35、基于空間元數(shù)據(jù)獲得至少一個直接對總能量比率參數(shù)可以包括從經(jīng)修改的能量比率獲得該至少一個直接對總能量比率。
36、使用幅度平移將傳輸音頻信號的定向部分定位到多個揚聲器中的至少一個揚聲器可以包括基于平滑控制,使用該幅度平移將該傳輸音頻信號的定向部分定位到該多個揚聲器中的至少一個揚聲器。
37、將定向聲音定位到由空間元數(shù)據(jù)確定的方向可以包括使用幅度平移將該定向聲音定位到多個揚聲器中的至少一個揚聲器,其中,該定位的寬度基于編碼度量。
38、生成編碼度量可以包括基于空間元數(shù)據(jù)的表示質(zhì)量,生成該編碼度量。
39、生成編碼度量可以包括從編碼空間元數(shù)據(jù)和空間元數(shù)據(jù)生成該編碼度量。
40、從編碼空間元數(shù)據(jù)和空間元數(shù)據(jù)生成編碼度量可以包括:確定第一參數(shù),該第一參數(shù)指示旨在用于或者被分配用于針對幀對空間參數(shù)進(jìn)行編碼的比特數(shù)量;確定第二參數(shù),該第二參數(shù)指示在已針對該幀執(zhí)行空間參數(shù)的編碼之后使用的比特數(shù)量;以及將該編碼度量生成為第一參數(shù)與第二參數(shù)之間的比率。
41、空間參數(shù)可以是表示量化方向參數(shù)值的方向索引。
42、生成編碼度量可以包括基于以下中的至少一項,生成該編碼度量:空間元數(shù)據(jù)的量化分辨率;以及該空間元數(shù)據(jù)的至少兩個量化分辨率之間的比率。
43、根據(jù)第三方面,提供了一種裝置,其包括至少一個處理器和包括計算機程序代碼的至少一個存儲器,該至少一個存儲器和計算機程序代碼被配置為與至少一個處理器一起使該裝置至少:獲得比特流,該比特流包括編碼空間元數(shù)據(jù)和編碼傳輸音頻信號;從該比特流的編碼傳輸音頻信號解碼傳輸音頻信號;從該比特流的編碼空間元數(shù)據(jù)解碼空間元數(shù)據(jù);生成編碼度量;以及基于該編碼度量和空間元數(shù)據(jù),從該傳輸音頻信號生成空間音頻信號。
44、可以進(jìn)一步使該裝置基于編碼度量,生成平滑控制,并且其中,被使得基于該編碼量度和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號的該裝置可以被使得基于該平滑控制和空間元數(shù)據(jù),從該傳輸音頻信號生成空間音頻信號。
45、被使得基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號的該裝置可以被使得基于編碼度量,至少修改來自該空間元數(shù)據(jù)的能量比率,其中,該空間音頻信號可以是基于經(jīng)修改的能量比率和空間元數(shù)據(jù)從該傳輸音頻信號生成的。
46、被使得基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號的該裝置可以被使得將定向聲音定位到由該空間元數(shù)據(jù)確定的方向,其中,該定向聲音的寬度基于該編碼度量。
47、被使得基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號的該裝置可以被使得:基于該編碼度量,從該傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣;基于該協(xié)方差矩陣,生成處理矩陣;以及基于該處理矩陣,對該傳輸音頻信號進(jìn)行去相關(guān)和/或混合以生成該空間音頻信號。
48、協(xié)方差矩陣可以包括以下中的至少一項:輸入?yún)f(xié)方差矩陣,其表示傳輸音頻信號;以及目標(biāo)協(xié)方差矩陣,其表示空間音頻信號。
49、被使得從傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣的該裝置可以被使得通過在時頻域中測量該傳輸音頻信號來生成輸入?yún)f(xié)方差矩陣。
50、被使得從傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣的該裝置可以被使得基于該空間元數(shù)據(jù)和傳輸音頻信號能量,生成目標(biāo)協(xié)方差矩陣。
51、可以使該裝置對協(xié)方差矩陣應(yīng)用時間平均以生成平均協(xié)方差矩陣,該時間平均基于平滑控制,其中,被使得基于該協(xié)方差矩陣生成處理矩陣的該裝置可以被使得從該平均協(xié)方差矩陣生成該處理矩陣。
52、被使得從傳輸音頻信號和空間元數(shù)據(jù)生成協(xié)方差矩陣的該裝置可以被使得基于經(jīng)修改的能量比率,生成該協(xié)方差矩陣。
53、被使得從傳輸音頻信號生成協(xié)方差矩陣的該裝置可以被使得基于定向聲音到由空間元數(shù)據(jù)確定的方向的定位,生成該協(xié)方差矩陣,其中,該定向聲音的寬度基于編碼度量。
54、被使得基于編碼度量和空間元數(shù)據(jù)從傳輸音頻信號生成空間音頻信號的該裝置可以被使得:基于該空間元數(shù)據(jù),獲得至少一個直接對總能量比率參數(shù);基于來自該空間元數(shù)據(jù)的至少一個直接對總能量比率參數(shù),將該傳輸音頻信號在頻帶中劃分成定向部分和非定向部分;使用幅度平移將該傳輸音頻信號的定向部分定位到多個揚聲器中的至少一個揚聲器;將該傳輸音頻信號的非定向部分分發(fā)到所有多個揚聲器并進(jìn)行去相關(guān);以及基于組合所定位的該傳輸音頻信號的定向部分和該傳輸音頻信號的非定向部分,生成組合音頻信號。
55、揚聲器可以是虛擬揚聲器,并且,可以進(jìn)一步使該裝置通過將頭部相關(guān)傳遞函數(shù)應(yīng)用于組合音頻信號來生成雙耳空間音頻信號。
56、被使得基于空間元數(shù)據(jù)獲得至少一個直接對總能量比率參數(shù)的該裝置可以被使得從經(jīng)修改的能量比率獲得該至少一個直接對總能量比率。
57、被使得使用幅度平移將傳輸音頻信號的定向部分定位到多個揚聲器中的至少一個揚聲器的該裝置可以被使得基于平滑控制,使用該幅度平移將該傳輸音頻信號的定向部分定位到該多個揚聲器中的至少一個揚聲器。
58、被使得將定向聲音定位到由空間元數(shù)據(jù)確定的方向的該裝置可以被使得使用幅度平移將該定向聲音定位到多個揚聲器中的至少一個揚聲器,其中,該定位的寬度基于編碼度量。
59、被使得生成編碼度量的該裝置可以被使得基于空間元數(shù)據(jù)的表示質(zhì)量,生成該編碼度量。
60、被使得生成編碼度量的該裝置可以被使得從編碼空間元數(shù)據(jù)和空間元數(shù)據(jù)生成該編碼度量。
61、被使得從編碼空間元數(shù)據(jù)和空間元數(shù)據(jù)生成編碼度量的該裝置可以被使得:確定第一參數(shù),該第一參數(shù)指示旨在用于或者被分配用于針對幀對空間參數(shù)進(jìn)行編碼的比特數(shù)量;確定第二參數(shù),該第二參數(shù)指示在已針對該幀執(zhí)行空間參數(shù)的編碼之后使用的比特數(shù)量;以及將該編碼度量生成為第一參數(shù)與第二參數(shù)之間的比率。
62、空間參數(shù)可以是表示量化方向參數(shù)值的方向索引。
63、被使得生成編碼度量的該裝置可以被使得基于以下中的至少一項,生成該編碼度量:空間元數(shù)據(jù)的量化分辨率;以及該空間元數(shù)據(jù)的至少兩個量化分辨率之間的比率。
64、根據(jù)第四方面,提供了一種裝置,其包括:獲得電路,被配置為獲得比特流,該比特流包括編碼空間元數(shù)據(jù)和編碼傳輸音頻信號;解碼電路,被配置為從該比特流的編碼傳輸音頻信號解碼傳輸音頻信號;解碼電路,被配置為從該比特流的編碼空間元數(shù)據(jù)解碼空間元數(shù)據(jù);生成電路,被配置為生成編碼度量;以及生成電路,被配置為基于該編碼度量和空間元數(shù)據(jù),從該傳輸音頻信號生成空間音頻信號。
65、根據(jù)第五方面,提供了一種包括指令的計算機程序[或者包括程序指令的計算機可讀介質(zhì)],這些指令/程序指令用于使裝置至少執(zhí)行以下操作:獲得比特流,該比特流包括編碼空間元數(shù)據(jù)和編碼傳輸音頻信號;從該比特流的編碼傳輸音頻信號解碼傳輸音頻信號;從該比特流的編碼空間元數(shù)據(jù)解碼空間元數(shù)據(jù);生成編碼度量;以及基于該編碼度量和空間元數(shù)據(jù),從該傳輸音頻信號生成空間音頻信號。
66、根據(jù)第六方面,提供了一種包括程序指令的非瞬態(tài)計算機可讀介質(zhì),這些程序指令用于使裝置至少執(zhí)行以下操作:獲得比特流,該比特流包括編碼空間元數(shù)據(jù)和編碼傳輸音頻信號;從該比特流的編碼傳輸音頻信號解碼傳輸音頻信號;從該比特流的編碼空間元數(shù)據(jù)解碼空間元數(shù)據(jù);生成編碼度量;以及基于該編碼度量和空間元數(shù)據(jù),從該傳輸音頻信號生成空間音頻信號。
67、根據(jù)第七方面,提供了一種裝置,其包括:用于獲得比特流的部件,其中,該比特流包括編碼空間元數(shù)據(jù)和編碼傳輸音頻信號;用于從該比特流的編碼傳輸音頻信號解碼傳輸音頻信號的部件;用于從該比特流的編碼空間元數(shù)據(jù)解碼空間元數(shù)據(jù)的部件;用于生成編碼度量的部件;以及用于基于該編碼度量和空間元數(shù)據(jù),從該傳輸音頻信號生成空間音頻信號的部件。
68、根據(jù)第八方面,提供了一種包括程序指令的計算機可讀介質(zhì),這些程序指令用于使裝置至少執(zhí)行以下操作:獲得比特流,該比特流包括編碼空間元數(shù)據(jù)和編碼傳輸音頻信號;從該比特流的編碼傳輸音頻信號解碼傳輸音頻信號;從該比特流的編碼空間元數(shù)據(jù)解碼空間元數(shù)據(jù);生成編碼度量;以及基于該編碼度量和空間元數(shù)據(jù),從該傳輸音頻信號生成空間音頻信號。
69、一種裝置,包括用于執(zhí)行如上所述的方法的動作的部件。
70、一種裝置,被配置為執(zhí)行如上所述的方法的動作。
71、一種計算機程序,包括用于使計算機執(zhí)行如上所述的方法的程序指令。
72、一種被存儲在介質(zhì)上的計算機程序產(chǎn)品可以使裝置執(zhí)行本文所述的方法。
73、一種電子設(shè)備可以包括如本文所述的裝置。
74、一種芯片組可以包括如本文所述的裝置。
75、本技術(shù)的實施例旨在解決與現(xiàn)有技術(shù)相關(guān)聯(lián)的問題。