午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法

文檔序號:2826371閱讀:449來源:國知局
一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法
【專利摘要】一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,涉及聲音場景的分類識別技術(shù),為了解決在聲音環(huán)境識別中由于聲音環(huán)境結(jié)構(gòu)復(fù)雜、易混淆、聲學(xué)特征不確定和維度高所造成的提取有效特征、建立統(tǒng)計模型困難,導(dǎo)致識別性能差的問題。本發(fā)明提出了噪聲最小統(tǒng)計量特征的提取、建模以及識別方法:在特征提取與建模階段,分別對聲音信號的能量譜進行頻域平滑和時域平滑并追蹤其最小統(tǒng)計量,將最小統(tǒng)計量轉(zhuǎn)換到對數(shù)域進行標準化和降維處理,從而提取出聲音環(huán)境的噪聲最小統(tǒng)計量特征,并采用高斯混合模型對噪聲最小統(tǒng)計量建模;在識別階段,對輸入聲音進行特征提取,計算所提取出的最小統(tǒng)計量特征在每個模型下的似然值,并依據(jù)此似然值進行類別決策。
【專利說明】一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及聲音場景的分類識別技術(shù),屬于智能信息處理領(lǐng)域,具體是一種基于聲音環(huán)境的背景噪聲特點來對不同的聲音環(huán)境進行建模與識別的方法。
【背景技術(shù)】
[0002]隨著計算技術(shù)、通訊技術(shù)及網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,各種各樣的智能化設(shè)備不斷涌現(xiàn),研究智能人機交互在現(xiàn)實生活中變得越來越重要。聲音是人們能夠獲取的最重要的信息之一,開展聲音感知技術(shù)的研究無疑可以幫助用戶有效地利用聲音信息并提供相關(guān)服務(wù)。因此,近年來聲音感知技術(shù)的研究受到學(xué)術(shù)界的廣泛重視。聲音感知的目標是使計算機能夠感知人類聽覺系統(tǒng)所能夠關(guān)注和理解的那些聲音,其研究對象是非語音的聲音。與人類的語音相似,非語音的聲音也能傳遞有用信息。在特定環(huán)境中人的活動通常伴隨產(chǎn)生種類豐富的聲音事件,這些聲學(xué)事件可能由人們的身體直接產(chǎn)生也可能由人們所操縱的器物產(chǎn)生,即這些聲音事件在一定程度上反映了人們的活動情況以及周圍的環(huán)境狀況。因此,研究特定環(huán)境下的聲音事件有助于掌握人們的行為活動和環(huán)境狀態(tài),以提供相關(guān)的智能服務(wù)或安全預(yù)警,從而使聲音信息能夠更有效地為智能信息系統(tǒng)提供決策輔助或直接用于智能決策。
[0003]然而,我們所處的聲音環(huán)境具有極其豐富的聲音事件,試圖為每種聲學(xué)事件建模并識別是不現(xiàn)實的,也是計算上不可行的。因此,獲取聲音環(huán)境的先驗知識對聲音事件的檢測與識別就顯得格外重要了。每種聲音環(huán)境下都含有較為特定的一些聲音事件,如辦公室的聲音環(huán)境下較為可能出的聲音事件是鍵盤聲、腳步聲、椅子聲、人的說話聲、掌聲等,而不太可能出現(xiàn)汽車鳴笛聲、動物叫聲、歡呼聲等??梢姡曇舡h(huán)境的先驗知識有助于縮小聲學(xué)事件的數(shù)量、提高檢測精度、減少計算代價。此外,為實現(xiàn)對與日俱增的數(shù)字音頻數(shù)據(jù)的智能檢索,也需要對數(shù)字音頻文件按照其聲音環(huán)境識別的結(jié)果進行有效地自動分割。
[0004]聲音環(huán)境識別就是僅依賴特定環(huán)境中的聲音信息對環(huán)境進行識別的一種技術(shù)。例如:依賴采集到的聲音信號來識別當(dāng)前環(huán)境是街道、辦公室、高速公路還是餐館等。聲音環(huán)境識別存在著如下困難:1)聲音環(huán)境存在著較強的結(jié)構(gòu)復(fù)雜性,多種聲音相互交織混疊在一起;2)聲音環(huán)境存在著較強的混淆性,相同的聲音可以出現(xiàn)在不同的聲音環(huán)境中;3)聲音環(huán)境中的聲音存在著較大的不確定性,很難確定某個聲音環(huán)境就必然出現(xiàn)某種聲音或何時出時,難于描述其穩(wěn)定的聲學(xué)性質(zhì);4)聲學(xué)特征通常具有較高的維度,使得難于利用這些特征進行建模。這些困難使得聲音環(huán)境難于進行特征提取與建模,并直接導(dǎo)致其識別精度較差。顯然,缺少能夠標識聲音環(huán)境的魯棒特征是導(dǎo)致這一問題的主要原因。因此,如果所提取的聲學(xué)特征能夠克服聲音環(huán)境的結(jié)構(gòu)復(fù)雜、易混淆、聲學(xué)特征不確定和維度高等問題的影響,則有助于是提高聲音環(huán)境的識別性能。
[0005]本發(fā)明針對聲音的環(huán)境識別問題,提出了一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,可以實現(xiàn)對復(fù)雜聲音環(huán)境的魯棒識別。
【發(fā)明內(nèi)容】

[0006]要解決的技術(shù)問題
[0007]本發(fā)明為了解決在聲音環(huán)境識別中由于聲音環(huán)境結(jié)構(gòu)復(fù)雜、易混淆、聲學(xué)特征不確定和維度高所造成的提取有效特征、建立統(tǒng)計模型困難、特征魯棒性差,從而導(dǎo)致識別性能差的問題。
[0008]本發(fā)明為解決上述技術(shù)問題采取的技術(shù)方案是:
[0009]一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,它由以下步驟實現(xiàn):
[0010]步驟一、將采集的聲音信號進行短時傅里葉變換得到信號的能量譜,而后對能量譜系數(shù)分別進行頻域平滑和時域平滑,對平滑后的結(jié)果進行最小統(tǒng)計量追蹤,提取出最小統(tǒng)計量并將其映射到對數(shù)域后進行標準化;
[0011]步驟二、將在訓(xùn)練數(shù)據(jù)上使用步驟一所得到的標準化后的最小統(tǒng)計量進行特征值分解,提取前K個重要基向量Uk ;將標準化后的最小統(tǒng)計量投影到K個重要基向量Uk上得到降維后的特征,完成特征提取過程;將重要基向量Uk進行存儲以用于聲音環(huán)境識別步驟四中;
[0012]步驟三、依據(jù)步驟二中所得到的訓(xùn)練數(shù)據(jù)降維后的最小統(tǒng)計量特征,采用高斯混合模型分別對每類環(huán)境聲音進行建模,得到高斯混合模型(GMM)并將其進行存儲以用于聲音環(huán)境識別步驟四中;
[0013]步驟四、利用步驟一對所采集的聲音信號提取標準化后的最小噪聲統(tǒng)計量特征,利用步驟二所得到的重要基向量Uk對其進行降維,完成對采集聲音信號的特征提??;再利用步驟三所得到的高斯混合模型(GMM)進行聲音環(huán)境識別。
[0014]步驟一中提取聲音信號最小統(tǒng)計量的方法為:
[0015]步驟一(I)、對采集的聲音信號進行短時傅里葉變換:
[0016]
【權(quán)利要求】
1.一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于它由以下步驟實現(xiàn): 步驟一、將采集的聲音信號進行短時傅里葉變換得到信號的能量譜,而后對能量譜系數(shù)分別進行頻域平滑和時域平滑,對平滑后的結(jié)果進行最小統(tǒng)計量追蹤,提取出最小統(tǒng)計量并將其映射到對數(shù)域后進行標準化; 步驟二、將在訓(xùn)練數(shù)據(jù)上使用步驟一所得到的標準化后的最小統(tǒng)計量進行特征值分解,提取前K個重要基向量Uk ;將標準化后的最小統(tǒng)計量投影到K個重要基向量Uk上得到降維后的特征,完成特征提取過程;將重要基向量Uk進行存儲以用于聲音環(huán)境識別步驟四中; 步驟三、依據(jù)步驟二中所得到的訓(xùn)練數(shù)據(jù)降維后的最小統(tǒng)計量特征,采用高斯混合模型分別對每類環(huán)境聲音進行建模,得到高斯混合模型(GMM)并將其進行存儲以用于聲音環(huán)境識別步驟四中; 步驟四、利用步驟一對所采集的聲音信號提取標準化后的最小噪聲統(tǒng)計量特征,利用步驟二所得到的重要基向量Uk對其進行降維,完成對采集聲音信號的特征提??;再利用步驟三所得到的高斯混合模型(GMM)進行聲音環(huán)境識別。
2.根據(jù)權(quán)利要求1所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟一中提取聲音信號最小統(tǒng)計量的方法為: 步驟一(I)、對采集的聲音信號進行短時傅里葉變換:
3.根據(jù)權(quán)利要求1所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟一中最小統(tǒng)計量在對數(shù)域的標準化方法為:將每幀信號的最小統(tǒng)計量視為列向量:
4.根據(jù)權(quán)利要求1、2或3所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟二中提取前K個重要基向量的方法為: 將標準化后最小統(tǒng)計量數(shù)據(jù)組織成矩陣的形式:X=[Xl,…,xJT,此矩陣的自相關(guān)矩陣為:C=XTX ;對自相關(guān)矩陣C進行特征值分解:
C=U A Ut 其中:U為基向量矩陣,Λ為一對角陣,SP A=diag(A1,…,λΜ),其中Ai為第i個特征值且滿足A1SO;提取前K個基向量作為Uk,并將標準化的最小統(tǒng)計量投向此子空間,以獲得降維特征:
5.根據(jù)權(quán)利要求1、2或3所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟三中為每類環(huán)境聲音的建模方法為: 將每類訓(xùn)練數(shù)據(jù)降維后的最小統(tǒng)計量特征分別采用高斯混合模型進行建模:
6.根據(jù)權(quán)利要求4所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟三中為每類環(huán)境聲音的建模方法為: 將每類訓(xùn)練數(shù)據(jù)降維后的最小統(tǒng)計量特征分別采用高斯混合模型進行建模:
7.根據(jù)權(quán)利要求1、2、3或6所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟四的具體實現(xiàn)過程為: 步驟四(I)、對輸入聲音信號進行適時傅里葉變換、時頻平滑提取在對數(shù)域上標準化后的最小統(tǒng)計量; 步驟四(2)、將最小統(tǒng)計量投影到已存儲的基向量上Uk,獲得降維后的特征; 步驟四(3)、將所得到的特征輸入到每類的高斯混合模型中,并計算其似然值; 步驟四(4)、依據(jù)每個模型的輸出似然值,選取具有最大似然值的類別作為最終識別結(jié)果ο
8.根據(jù)權(quán)利要求4所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟四的具體實現(xiàn)過程為: 步驟四(I)、對輸入聲音信號進行適時傅里葉變換、時頻平滑提取在對數(shù)域上標準化后的最小統(tǒng)計量; 步驟四(2)、將最小統(tǒng)計量投影到已存儲的基向量上Uk,獲得降維后的特征; 步驟四(3)、將所得到的特征輸入到每類的高斯混合模型中,并計算其似然值; 步驟四(4)、依據(jù)每個模型的輸出似然值,選取具有最大似然值的類別作為最終識別結(jié)果O
9.根據(jù)權(quán)利要求5所述的一種基于背景噪聲最小統(tǒng)計量特征的聲音環(huán)境識別方法,其特征在于,步驟四的具體實現(xiàn)過程為: 步驟四(I)、對輸入聲音信號進行適時傅里葉變換、時頻平滑提取在對數(shù)域上標準化后的最小統(tǒng)計量; 步驟四(2)、將最小統(tǒng)計量投影到已存儲的基向量上Uk,獲得降維后的特征; 步驟四(3)、將所得到的特 征輸入到每類的高斯混合模型中,并計算其似然值; 步驟四(4)、依據(jù)每個模型的輸出似然值,選取具有最大似然值的類別作為最終識別結(jié)果O
【文檔編號】G10L15/06GK103544953SQ201310507384
【公開日】2014年1月29日 申請日期:2013年10月24日 優(yōu)先權(quán)日:2013年10月24日
【發(fā)明者】鄧世文 申請人:哈爾濱師范大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1