午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法

文檔序號(hào):39729508發(fā)布日期:2024-10-22 13:34閱讀:7來(lái)源:國(guó)知局
一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法

本發(fā)明涉及語(yǔ)音情感識(shí)別技術(shù),特別是涉及一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法。


背景技術(shù):

1、語(yǔ)音情感識(shí)別(ser)技術(shù)是旨在分析語(yǔ)音信號(hào)特征,自動(dòng)識(shí)別出說(shuō)話者當(dāng)前情緒狀態(tài)的。這項(xiàng)技術(shù)在人機(jī)交互領(lǐng)域至關(guān)重要,可以在虛擬助手、網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)、健康檢測(cè)系統(tǒng)等各類場(chǎng)景中提供情緒感知,使交互系統(tǒng)能夠更好地理解用戶的情緒狀態(tài),提供更為精準(zhǔn)的個(gè)性化情感反饋,以此優(yōu)化用戶體驗(yàn)。

2、情感信息體現(xiàn)在多語(yǔ)音特征中,如音高、頻率、強(qiáng)度等。如何科學(xué)地從原始語(yǔ)音信號(hào)中提取這些信息來(lái)表征情感是一項(xiàng)重要挑戰(zhàn)。傳統(tǒng)方法大多依賴于繁瑣的手動(dòng)特征提取,并采用人為定義的分類模型進(jìn)行特征選擇,然后將這些特征與機(jī)器學(xué)習(xí)算法結(jié)合,如支持向量機(jī)、馬爾可夫模型、貝葉斯網(wǎng)絡(luò)等,進(jìn)行情感狀態(tài)的學(xué)習(xí)和預(yù)測(cè)。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于端到端的深度神經(jīng)網(wǎng)絡(luò)模型成為語(yǔ)音情感識(shí)別的主流方法。這些模型能夠自動(dòng)地從大量數(shù)據(jù)中學(xué)習(xí)到更加抽象和復(fù)雜的特征,從而提高了情感識(shí)別的準(zhǔn)確性和泛化能力。例如:li,?mengbo等人設(shè)計(jì)了一種具有多尺度核的卷積神經(jīng)網(wǎng)絡(luò)(cnn),能夠有效捕捉并融合不同尺度下的語(yǔ)音情感特征,從而提升了識(shí)別性能。jitendra等人。提出使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-lstm),通過(guò)提取時(shí)間上下文信息并保存關(guān)鍵特征,增強(qiáng)模型對(duì)情緒狀態(tài)的建模能力。maji等人運(yùn)用雙通道自注意力機(jī)制聚合卷積膠囊(conv-cap)和雙向門控循環(huán)單元(bi-gru)的特征,以獲得更豐富的情緒信息和提升信息多樣性;prabhakar等人提出基于多通道卷積神經(jīng)網(wǎng)絡(luò)(cnn)和長(zhǎng)短記憶網(wǎng)絡(luò)(blstm)的架構(gòu),通過(guò)融合幅度和相位的頻譜特性來(lái)增強(qiáng)性能。但是這些方法存在以下缺點(diǎn):首先,現(xiàn)有方法沒有根據(jù)人類聲學(xué)特性進(jìn)行頻段劃分以抽取特征,從而忽略了不同情緒在頻段上的獨(dú)特表現(xiàn)。其次,鑒于各類情感狀態(tài)在表征復(fù)雜度和不同數(shù)據(jù)集分布上存在差異,需要在基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)上設(shè)計(jì)自適應(yīng)的可變特征提方法。最后,語(yǔ)音情感狀態(tài)表達(dá)是動(dòng)態(tài)且連續(xù)變化的,所以需要模型同時(shí)關(guān)注較長(zhǎng)時(shí)間跨度的語(yǔ)義信息和局部特定的聲學(xué)特性。

3、需要說(shuō)明的是,在上述背景技術(shù)部分公開的信息僅用于對(duì)本申請(qǐng)的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的主要目的在于解決上述背景技術(shù)中存在的問(wèn)題,提供一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法。

2、為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:

3、在本發(fā)明第一方面,一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法,包括以下步驟:

4、s1.?對(duì)輸入信號(hào)進(jìn)行預(yù)處理,對(duì)信號(hào)進(jìn)行分幀;

5、s2.?對(duì)每幀信號(hào)執(zhí)行快速傅里葉變換(fft),獲得頻譜特征;

6、s3.?應(yīng)用梅爾尺度的三角濾波器組對(duì)頻譜進(jìn)行處理,模擬人類聽覺系統(tǒng)的非線性頻率特性;

7、s4.?通過(guò)離散余弦變換對(duì)濾波后的頻譜進(jìn)行處理,提取每幀的多個(gè)梅爾頻譜系數(shù),捕捉信號(hào)的關(guān)鍵頻率信息;

8、s5.?根據(jù)語(yǔ)音信號(hào)的共振峰(f1,?f2,?f3)將信號(hào)劃分為不同的頻段,為每個(gè)頻段定制特征提取策略;

9、s6.?對(duì)每個(gè)頻段應(yīng)用自適應(yīng)深度殘差塊adrb,進(jìn)行并行的多維特征提取和整合;

10、s7.?使用深度控制器nsdr動(dòng)態(tài)預(yù)測(cè)每個(gè)頻段的最佳網(wǎng)絡(luò)深度,根據(jù)輸入信號(hào)的復(fù)雜度自適應(yīng)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu);

11、s8.?在自適應(yīng)深度殘差塊adrb中,由深度控制器動(dòng)態(tài)控制卷積層數(shù),通過(guò)多層蒸餾通道和殘差通道實(shí)現(xiàn)多級(jí)特征提取,利用殘差連接進(jìn)行特征融合;

12、s9.?應(yīng)用混合區(qū)域注意力機(jī)制hrfa,結(jié)合全局和局部注意力機(jī)制,強(qiáng)化不同頻段特征之間的長(zhǎng)距和短距依賴關(guān)系,其中全局注意力機(jī)制通過(guò)多頭注意力架構(gòu)捕獲全頻域上下文信息,局部注意力機(jī)制側(cè)重于每個(gè)頻率周圍的相鄰區(qū)域,進(jìn)行細(xì)粒度分析;

13、s10.?通過(guò)時(shí)間驅(qū)動(dòng)模塊強(qiáng)化時(shí)間序列上不同頻率特征的相關(guān)連續(xù)性,處理時(shí)間正序和逆序,捕捉長(zhǎng)時(shí)間依賴關(guān)系;

14、s11.?將經(jīng)過(guò)多頻段處理、混合區(qū)域注意力機(jī)制增強(qiáng)和時(shí)間驅(qū)動(dòng)模塊提取的特征進(jìn)行融合;

15、s12.?利用融合后的特征進(jìn)行情感狀態(tài)的分類和識(shí)別。

16、在本發(fā)明第二方面,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法。

17、在本發(fā)明第三方面,一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法。

18、本發(fā)明具有如下有益效果:

19、為了克服傳統(tǒng)的語(yǔ)音情感識(shí)別中的問(wèn)題,本發(fā)明提出一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法,構(gòu)建自適應(yīng)多頻段混合感知網(wǎng)絡(luò)(adaptive?multi-band?hybrid-awarenetwork),結(jié)合多頻段處理和混合感知機(jī)制,自適應(yīng)地提取豐富的情感特征,以實(shí)現(xiàn)更精確的情感狀態(tài)檢測(cè),有效克服了現(xiàn)有語(yǔ)音情感識(shí)別方法的局限性。本發(fā)明中,根據(jù)人類聲學(xué)特征,f1、f2、f3共振峰頻段,將語(yǔ)音信號(hào)劃分為多個(gè)頻段,并針對(duì)性地提取各頻段特征,捕捉不同情緒狀態(tài)在頻譜上的差異;使用可變的深度殘差網(wǎng)絡(luò)結(jié)構(gòu),可以根據(jù)輸入音頻的特性動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),以適應(yīng)不同情感狀態(tài)在建模復(fù)雜度上的差異;利用注意力機(jī)制將全局語(yǔ)義信息和局部聲學(xué)特征聚合,實(shí)現(xiàn)情感的全面表征??偟膩?lái)說(shuō),本發(fā)明基于amh-net的方法,提供了一個(gè)能夠根據(jù)人類聲學(xué)特征動(dòng)態(tài)調(diào)整的開創(chuàng)性框架和機(jī)制,能夠全面捕捉情感特征,從而顯著提高了情感狀態(tài)識(shí)別的精度和效率。

20、在六個(gè)不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本發(fā)明在短時(shí)語(yǔ)音上的表現(xiàn)尤為出色,優(yōu)于現(xiàn)有的先進(jìn)方法??傮w而言,本發(fā)明為準(zhǔn)確高效的語(yǔ)音情感識(shí)別提供了一種動(dòng)態(tài)、全面的解決方案。

21、本發(fā)明實(shí)施例中的其他有益效果將在下文中進(jìn)一步述及。



技術(shù)特征:

1.一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法,其特征在于,包括以下步驟:

2.如權(quán)利要求1所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法,其特征在于,在步驟s1中,輸入信號(hào)預(yù)處理,將輸入的語(yǔ)音信號(hào)調(diào)整至統(tǒng)一的采樣率;對(duì)信號(hào)進(jìn)行分幀處理,并對(duì)每一幀應(yīng)用hamming窗函數(shù),設(shè)置幀長(zhǎng)和幀間重疊,以保持信號(hào)連貫性并減少頻譜泄露。

3.如權(quán)利要求1所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法,其特征在于,在步驟s4中,提取每幀的前39個(gè)梅爾頻譜系數(shù)。

4.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法,其特征在于,在步驟s5中,基于語(yǔ)音信號(hào)的共振峰f1、f2和f3,將梅爾頻率倒譜系數(shù)特征mfcc劃分為至少三個(gè)頻段,每個(gè)頻段對(duì)應(yīng)不同的情感特性;

5.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法,其特征在于,在步驟s7中,所述深度控制器對(duì)每個(gè)頻段內(nèi)基于梅爾頻譜系數(shù)的頻率分量進(jìn)行深度信息映射和自適應(yīng)調(diào)節(jié);

6.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法,其特征在于,在步驟s8中,所述自適應(yīng)深度殘差塊包含多層蒸餾通道和殘差通道,由所述深度控制器動(dòng)態(tài)控制卷積層數(shù),以實(shí)現(xiàn)對(duì)梅爾頻譜特征的多級(jí)特征提取和信息融合;

7.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法,其特征在于,在步驟s9中,應(yīng)用混合區(qū)域注意力機(jī)制hrfa對(duì)多頻段處理結(jié)果進(jìn)行處理,該機(jī)制結(jié)合全局和局部注意力機(jī)制,以增強(qiáng)不同頻段特征之間的依賴關(guān)系,并提升模型對(duì)音頻數(shù)據(jù)的感知和處理能力;

8.如權(quán)利要求1至3任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法,其特征在于,在步驟s10中,使用時(shí)間驅(qū)動(dòng)頻率信息提取模塊強(qiáng)化不同頻率特征在時(shí)間序列上的相關(guān)連續(xù)性,以增強(qiáng)模型對(duì)復(fù)雜語(yǔ)義信息的表征能力;

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法。

10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的自適應(yīng)多頻段語(yǔ)音混合情感感知方法。


技術(shù)總結(jié)
一種自適應(yīng)多頻段語(yǔ)音混合情感感知方法,輸入語(yǔ)音信號(hào)經(jīng)過(guò)預(yù)處理分幀,利用快速傅里葉變換獲取頻譜特征,信號(hào)通過(guò)梅爾尺度的三角濾波器組處理,模擬人類聽覺系統(tǒng)的非線性頻率特性,并通過(guò)離散余弦變換提取關(guān)鍵頻率信息的梅爾頻譜系數(shù)。根據(jù)語(yǔ)音共振峰F1、F2、F3進(jìn)行頻段劃分,定制化特征提取策略。自適應(yīng)深度殘差塊并行處理各頻段特征,深度控制器動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)深度以適應(yīng)信號(hào)復(fù)雜度。ADRB中,多層蒸餾和殘差通道實(shí)現(xiàn)多級(jí)特征提取,殘差連接優(yōu)化特征融合?;旌蠀^(qū)域注意力機(jī)制結(jié)合全局和局部注意力,強(qiáng)化頻段間依賴關(guān)系。時(shí)間驅(qū)動(dòng)模塊加強(qiáng)時(shí)序連續(xù)性,最終特征融合用于情感分類和識(shí)別。該方法全面捕捉情感特征,顯著提升情感狀態(tài)識(shí)別的精度和效率。

技術(shù)研發(fā)人員:張永兵,李恒銳,劉紹輝,陳曉培,董春山
受保護(hù)的技術(shù)使用者:哈爾濱工業(yè)大學(xué)(深圳)(哈爾濱工業(yè)大學(xué)深圳科技創(chuàng)新研究院)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1