專利名稱:采用感知模型的語音增強(qiáng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號處理。更具體地,它涉及噪聲環(huán)境中的語音增強(qiáng)和凈化(clarification)。 以引用方式包含的內(nèi)容這里以引用方式分別包含以下公開出版物的全部內(nèi)容。 [1
S. F. Boll, "Suppression of acoustic noise in speech using spectralsubtraction,"7>"/w. y4co組,5^eee/ ' 尸"oce幼'"g, vol. 27,.pp. 113-120, Apr, 1979.[2] B. Widrow and S. D. Stearns, ^Wa/ /ive 5Ygwfl/尸n cej5/wg. EnglewoodCliffs, NJ: Prentice Hall, 1985. [3〗 Y. Ephraim and D. Malah, "Speech enhancement using a minimummean square error short time spectral amplitude estimator," 7>o/w.」cowW" Speech. 57g"a//Vocew!"g, vol. 32, pp. 1109-1121, Dec. 1984. [4] Y, Ephraim and D. Malah, "Speech enhancement using'a minimummean square error Log-spectral amplitude estimator," 7Vw"51.力cowj/" 5"peec/j, SVg"fl//Vocw'"g, vol. 33, pp. 443-445, Dec. 1985. [5] P. J. Wolfe and S. J. Godsill, "Efficient alternatives' to Ephraim and.Malah suppression rule for audio signal enhancement,"五L^S/P/oMma/ oat /i/7_p//ed 5Vgna/ /Voce咖'"g, vol, 2003, Issue 10, Pages 1043-1051,2003.[6] R, Martin, "Spectral subtraction based on minimum statistics," £"OTCO, 1994, pp. U 82-1185.[7〗E. Terhardt, "Calculating Virtual Pitch," //e"〃'"g ^ejearA, pp.55-182, 1,979. 1SO/IEC JTC1 /SC29/WG11, //t/o應(yīng)ft'o" fec/mo/ogy — CoW"g o/
moW"g/n'c似r&s assocz'flfed a"^//od/g"a/加rage meWa ct《wjo /o
a6oi" 7.5M歸-Pa/^: A我IS 11172-3, 1992 [9] J. Johnston, "Transform coding of audio signals using perceptual noise
criteria," /£££V. Se/e".加o Co麵"n., vol, 6, pp. 314-323, Feb.
1988. S. Gustafsson, P. Jax, P Vary,, "A novel psychoacoustically motivated audio enhancement algorithm preserving background noise characteristics," iVoceW"gs o//mmia"'oW Co _/^*e ce ow/4cowWcs, 5^eec/i, <3"d iS7g"a/ZVocew:"g, 1998. ICASSP '98. Yi Hu, and P. C. Loizou, "Incorporating a psychoacoustic model in frequency domain speech enhancement,"57g"a/尸rocewz."g 丄e/ter, pp. 270 — 273, vol. H, no. 2, Feb. 2004. (23)
可使用其它心理聲學(xué)模型獲得掩蔽閾值附a。其它的可能性包含 (參考文獻(xiàn)[8)中描述的心理聲學(xué)模型I和模型II以及在(參考文獻(xiàn)9)中說明的心理聲學(xué)模型。
抑制增益的計(jì)算(圖3, 50)
各子帶的抑制增益^的值(/t-i, ...,m確定最終信號中的噪聲
降低和語音畸變的程度。為了得到最優(yōu)的抑制增益,代價(jià)函數(shù)被定義 如下
= A卩og,o 4 一 logl0 M ]2 + max
語音畸變
' -1 、 ,2
(24)
可感知噪聲
如下劃線的括號表示的那樣,該代價(jià)函數(shù)具有兩個(gè)要素。標(biāo)有"語 音畸變"的項(xiàng)是施加抑制增益&前后的語音分量幅度的log之間的差
13值。標(biāo)有"可感知噪聲"的項(xiàng)是掩蔽閾值的log和施加抑制增益^之 后的估計(jì)的噪聲分量幅度的log之間的差值。注意,如果在施加抑制 增益之后噪聲分量的log低于掩蔽閾值,那么"可感知噪聲,,項(xiàng)消失。 代價(jià)函數(shù)可被進(jìn)一步表達(dá)為
語音畸變
1og,。g^ -會log,o,"(),O
(25)
可感知噪聲
式(25)中的語音畸變項(xiàng)與可感知噪聲項(xiàng)的相對重要性由加權(quán)因
子A確定,這里,
0 S A < 00 (26)
最優(yōu)抑制增益使由式(25)表示的代價(jià)函數(shù)最小化。 g^argminC* (27)
G關(guān)于A的導(dǎo)數(shù)祐:設(shè)為等于零,并且二階導(dǎo)數(shù)被驗(yàn)證為正,從而
產(chǎn)生以下規(guī)則
^M22,吣A
(28)
否則
式(28)可被解釋如下假定Q是尿-O的情況下即與不考慮語音畸 變的情況對應(yīng)的使代價(jià)函數(shù)Q最小化的抑制增益
(29)
1 否則
很顯然,由于《x^S^,因此施加&之后的子帶信號中的噪聲 的功率將不大于掩蔽閾值。因此,它將被掩蔽并變得聽不見。換句話
說,如果語音畸變不被考慮,即通過A-0使式(25)中的"語音畸 變"項(xiàng)為零,那么,G^是將未掩蔽的噪聲分量抑制到可聽度的閾值或 以下所需要的最優(yōu)抑制增益。
但是,如果考慮語音畸變,那么(^可能不再是最優(yōu)的,并且會導(dǎo)
致畸變。為了避免這一點(diǎn),通過指數(shù)因子;u附)進(jìn)一步修改最終的抑
〔w
〔〃制增益&,其中,加權(quán)因子A使語音畸變的程度相對于可感知噪聲的
程度平衡(見式25)。加權(quán)因子尿可由語音增強(qiáng)器的設(shè)計(jì)人員選擇。 它也可以是取決于信號的。因此,加權(quán)因子A限定式(25)中的語音 畸變項(xiàng)與噪聲抑制項(xiàng)之間的相對重要性,該相對重要性又驅(qū)動對于式 (29)的"非語音"抑制增益的修改程度。換句話說,A的值越大, 則"語音畸變"越多地主導(dǎo)對抑制增益&的確定。
因此,尿在確定增強(qiáng)的信號的所得到的質(zhì)量中起重要作用。 一般 而言,較大的A的值導(dǎo)致較小的畸變語音但較大的殘留噪聲。相反, 較小的A的值消除較多的噪聲但以在語音分量中具有較多的畸變?yōu)榇?價(jià)。在實(shí)際中,可根據(jù)需要調(diào)整爲(wèi)的值。
一旦獲知^,就可獲得增強(qiáng)的子帶信號("對于R(附)施加&以 產(chǎn)生增強(qiáng)的子帶信號g(m); A:-l,…,幻52:
子帶信號g(w)然后可用于產(chǎn)生增強(qiáng)的語音信號?(")(使用合成濾波器 組,從《(m)產(chǎn)生增強(qiáng)的語音信號只");*=1,…,IT) 54。時(shí)間索引m
然后前進(jìn)l ( "m—m+l" 56)并且重復(fù)圖3的過程。
實(shí)現(xiàn)
可以在硬件或軟件或兩者的組合(例如,可編程的邏輯陣列)中 實(shí)現(xiàn)本發(fā)明。除非另外規(guī)定,否則,作為本發(fā)明的一部分包含的過程 不固有地與任何特定計(jì)算機(jī)或其它裝置相關(guān)。特別地,可以與根據(jù)這 里的教導(dǎo)而編寫的程序一起使用各種通用機(jī)器,或者,構(gòu)建更專用的 裝置(例如,集成電路)以執(zhí)行所需要的方法步驟會更加方便。因此, 可以以在一個(gè)或更多個(gè)可編程計(jì)算機(jī)系統(tǒng)上執(zhí)行的一個(gè)或更多個(gè)計(jì)算 機(jī)程序?qū)崿F(xiàn)本發(fā)明,這些可編程計(jì)算機(jī)系統(tǒng)各包含至少一個(gè)處理器、 至少一個(gè)數(shù)據(jù)存儲系統(tǒng)(包含易失性和非易失性存儲器和/或存儲元 件)、至少一個(gè)輸入設(shè)備或端口以及至少一個(gè)輸出設(shè)備或端口。對于 輸入數(shù)據(jù)施加程序代碼以執(zhí)行這里描述的功能并產(chǎn)生輸出信息。以已 知的方式對于一個(gè)或更多個(gè)輸出設(shè)備施加輸出信息。
1可以以任何希望的計(jì)算機(jī)語言(包含機(jī)器、匯編或高級程序、邏 輯或面向?qū)ο蟮木幊陶Z言)實(shí)現(xiàn)各個(gè)這種程序,以與計(jì)算機(jī)系統(tǒng)通信。 在任何情況下,該語言可以是經(jīng)過編譯或解釋的語言。
各個(gè)這種計(jì)算機(jī)程序優(yōu)選被存儲或下載到可被通用或?qū)S每删幊?計(jì)算機(jī)讀取的存儲介質(zhì)或設(shè)備(例如,固態(tài)存儲器或介質(zhì)或磁介質(zhì)或 光學(xué)介質(zhì))上,用于在存儲介質(zhì)或設(shè)備被計(jì)算系統(tǒng)讀取時(shí)配置和操作
該計(jì)算機(jī)以執(zhí)行這里描述的過程。還可考慮將本發(fā)明的系統(tǒng)實(shí)現(xiàn)為配 有計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲介質(zhì),這里,這樣配置的存儲介質(zhì)使
計(jì)算機(jī)系統(tǒng)以特定和預(yù)定的方式操作以執(zhí)行這里描述的功能。
已描述了本發(fā)明的多個(gè)實(shí)施例。盡管如此,應(yīng)當(dāng)理解,可以不背 離本發(fā)明的精神和范圍而進(jìn)行各種變型。例如,這里描述的步驟中的 一些可以是與次序無關(guān)的,因此可以以與這里描述的次序不同的次序 被執(zhí)行。
16DFT DSP
MSE
MMSE-STSA
MMSE-LAS
SNR
SPL
T/F
附錄A 縮略詞和術(shù)語的詞匯表 離散傅立葉變換 數(shù)字信號處理 均方誤差
最小MSE短時(shí)譜幅度
最小MSE Log謙幅度
信噪比
聲壓級
時(shí)間/頻率y(w), /i = 0、 1
》) ,)
物)
艱附) A(附)
似w) 鄉(xiāng), 碌)
ix(A:)
緣)
《
〃
附a
附錄B 符號的列表 oo數(shù)字化的時(shí)間信號 增強(qiáng)的語音信號 子帶信號A 增強(qiáng)的子帶信號A 子帶A的語音分量 子帶A的噪聲分量 子帶/t的抑制增益 帶噪語音幅度 帶噪語音相位 語音分量幅度 估計(jì)的語音分量幅度 語音分量相位 噪聲分量幅度 估計(jì)的噪聲分量幅度 噪聲分量相位 增益函數(shù)
語音分量方差
估計(jì)的語音分量方差
噪聲分量方差
估計(jì)的噪聲分量方差
先驗(yàn)的語音分量與噪聲的比
后驗(yàn)的語音分量與噪聲的比
先驗(yàn)的噪聲分量與噪聲的比
后驗(yàn)的噪聲分量與噪聲的比
預(yù)選擇的常數(shù)
掩蔽閾值
18子帶A的SPL信號
功率歸一化項(xiàng)
非歸一化掩蔽閾值的矩陣
子帶)的中心頻率,單位是Hz
柳線性頻率到Bark頻率映射函數(shù)
W,力子帶/'到子帶,'的擴(kuò)展函數(shù)
Bark中的被掩蔽信號_掩蔽信號分離
TO子帶/t的非歸一化掩蔽函數(shù)
子帶A的歸一化掩蔽函數(shù)
柳子帶A的全局掩蔽閾值
,)子帶A的SPL中的絕對聽力閾值
代價(jià)函數(shù)
代價(jià)函數(shù)的可調(diào)整參數(shù)
權(quán)利要求
1.一種用于增強(qiáng)由語音分量和噪聲分量構(gòu)成的音頻信號的語音分量的方法,包括將所述音頻信號從時(shí)域變換為頻域中的多個(gè)子帶,處理所述音頻信號的子帶,所述處理包含響應(yīng)控制而自適應(yīng)地降低所述子帶中的一些子帶的增益,其中,至少部分地從所述子帶中的所述一些子帶中的音頻信號的噪聲分量的幅度的估計(jì)得出所述控制,和將處理后的音頻信號從頻域變換成時(shí)域以提供語音分量被增強(qiáng)的音頻信號。
2. 根據(jù)權(quán)利要求l的方法,其中,還至少部分地從通過對心理聲 學(xué)掩蔽模型應(yīng)用所述音頻信號的語音分量的幅度的估計(jì)得到的所述子 帶中的所述一些子帶中的每一個(gè)子帶中的掩蔽閾值得出所述控制。
3. 根據(jù)權(quán)利要求2的方法,其中,當(dāng)子帶中的噪聲分量的幅度的 所述估計(jì)高于所述子帶中的所述掩蔽閾值時(shí),所述控制使得降低所述 子帶的增益。
4. 根據(jù)權(quán)利要求3的方法,其中,所述控制使得降低子帶的增益, 使得施加增益改變之后的噪聲分量的幅度的估計(jì)等于或低于所述子帶 中的掩蔽閾值。
5. 根據(jù)權(quán)利要求3或4的方法,其中,響應(yīng)使語音畸變的程度與 可感知噪聲的程度平衡的加權(quán)因子,減小增益降低的量。
6. 根據(jù)權(quán)利要求5的方法,其中,所述加權(quán)因子是可選擇的設(shè)計(jì) 參數(shù)。
7. 根據(jù)權(quán)利要求1 6中的任一項(xiàng)的方法,其中,音頻信號的語音 分量的幅度的估計(jì)已被應(yīng)用于將語音分量的能量分布于相鄰頻率子帶 的擴(kuò)展函數(shù)。
8. —種適于執(zhí)行權(quán)利要求1~7中的任一項(xiàng)的方法的裝置。
9. 一種存儲在計(jì)算機(jī)可讀介質(zhì)上、用于使計(jì)算機(jī)執(zhí)行權(quán)利要求 1 7中的任一項(xiàng)的方法的計(jì)算機(jī)程序。
全文摘要
公開了一種基于心理聲學(xué)模型的語音增強(qiáng),所述語音增強(qiáng)能夠保留語音的保真度同時(shí)充分地抑制包含被稱為“音樂噪聲”的對人工產(chǎn)物的處理的噪聲。
文檔編號G01L21/02GK101636648SQ200880008865
公開日2010年1月27日 申請日期2008年3月14日 優(yōu)先權(quán)日2007年3月19日
發(fā)明者俞容山 申請人:杜比實(shí)驗(yàn)室特許公司