本發(fā)明涉及語音情感識(shí)別技術(shù),特別是涉及一種基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法。
背景技術(shù):
1、在人工智能快速發(fā)展的背景下,語音情感識(shí)別(speech?emotion?recognition,ser)已經(jīng)成為一項(xiàng)重要研究方向。尤其在人機(jī)交互中,先進(jìn)的情感識(shí)別技術(shù)不僅能提高系統(tǒng)的智能化,還能改善用戶體驗(yàn)。此外,語音情感識(shí)別在心理健康分析、客戶服務(wù)等多個(gè)應(yīng)用場(chǎng)景均展現(xiàn)出巨大潛力。
2、語音情感的傳遞與理解是一個(gè)非線性動(dòng)態(tài)多層面交互的復(fù)雜過程,語音情感的細(xì)微差異無法單靠語音或文本進(jìn)行全面展示。在交流過程中,人類通過多維信息來準(zhǔn)確地傳達(dá)自己的感情狀態(tài),例如語音中的語調(diào)、語速和文本中的詞匯選擇、句式結(jié)構(gòu)。當(dāng)前,語音情感識(shí)別研究逐步轉(zhuǎn)向多模態(tài)模型,通過集成語音、文本等多種感知模態(tài),多層次、多角度捕捉人類語音情感的多維屬性,克服單模態(tài)語音情感識(shí)別技術(shù)受限于片面信息源,容易收到外部因素干擾和個(gè)體表達(dá)方式差異的影響。
3、跨模態(tài)?transformer?在音頻和文本的多模態(tài)信息融合中展現(xiàn)了強(qiáng)大的潛力。通過自注意力機(jī)制,跨模態(tài)?transformer?能夠有效地捕捉和建模音頻和文本之間的復(fù)雜關(guān)系和相互依賴性。例如,audiobert和speechbert等模型在音頻和文本融合任務(wù)中取得了顯著進(jìn)展。這些模型利用?transformer?的自注意力機(jī)制,分別處理音頻和文本數(shù)據(jù),并通過交叉注意力層將兩種模態(tài)的信息融合在一起,從而生成聯(lián)合表征。這些聯(lián)合表征能夠使模型更好地理解和處理多模態(tài)數(shù)據(jù),提高在語音識(shí)別、語音翻譯和情感分析等任務(wù)中的性能。此外,li?et?al.提出的?vl-bert?模型通過在大規(guī)模多模態(tài)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,使語言和音頻等多種模態(tài)的表征對(duì)齊,進(jìn)一步提升了多模態(tài)任務(wù)的表現(xiàn)。
4、掩碼自編碼器(mae)在文本和音頻領(lǐng)域的自監(jiān)督學(xué)習(xí)中發(fā)揮了重要作用。其核心思想是掩蓋部分輸入數(shù)據(jù),并訓(xùn)練模型重建這些缺失部分,從而學(xué)習(xí)到有效的表征。在文本領(lǐng)域,bert掩蓋部分輸入詞匯,并訓(xùn)練模型預(yù)測(cè)這些掩碼詞匯,從而獲得魯棒的語言表征,顯著提升了各種自然語言處理任務(wù)的性能,如問答、文本分類和命名實(shí)體識(shí)別等。在音頻領(lǐng)域,掩碼自編碼器也被用來處理語音數(shù)據(jù)。例如,tera模型通過掩蓋音頻幀并訓(xùn)練模型重建這些幀,學(xué)習(xí)到豐富的音頻表征,該方法在語音識(shí)別等任務(wù)中表現(xiàn)優(yōu)異。掩碼自編碼器不僅在單模態(tài)下表現(xiàn)出色,還可以與其他技術(shù)結(jié)合使用,能夠進(jìn)一步增強(qiáng)表示學(xué)習(xí)的質(zhì)量。利用了掩碼自編碼器的重建能力和對(duì)比學(xué)習(xí)的判別能力,從而在下游任務(wù)中實(shí)現(xiàn)更優(yōu)的性能。
5、目前,多模態(tài)語音情感識(shí)別面臨的主要挑戰(zhàn)在于不同模態(tài)(語音和文本)的時(shí)間序列特性和表現(xiàn)方式存在差異,導(dǎo)致數(shù)據(jù)融合高度復(fù)雜。因此需要設(shè)計(jì)和優(yōu)化數(shù)據(jù)融合策略,使這些異質(zhì)信息流有機(jī)結(jié)合,協(xié)同發(fā)揮作用,確保系統(tǒng)在語音情感分析方面的精確性與靈敏度。現(xiàn)有研究?jī)?nèi)容如:mustaqeem?khan等人設(shè)計(jì)出一種新穎的多模態(tài)語音情感識(shí)別模型,利用多頭交叉注意力機(jī)制完成語音和文本編碼器的特征融合,實(shí)現(xiàn)不同層和分支之間的跨模態(tài)交互,提升了整體模型的泛化能力。guan-nan?dong等人提出了一個(gè)用于多模態(tài)言語情感識(shí)別的時(shí)態(tài)關(guān)系推理網(wǎng)絡(luò)trin,在多模態(tài)融合過程中,該網(wǎng)絡(luò)結(jié)合每個(gè)模態(tài)時(shí)態(tài)推理生成的時(shí)序結(jié)構(gòu)全局信息,完成了跨模態(tài)特征的時(shí)序?qū)R,并采用自適應(yīng)機(jī)制選擇模態(tài)之間的隱式互補(bǔ)信息,以增強(qiáng)子空間之間的依賴關(guān)系,實(shí)現(xiàn)更為細(xì)致的模態(tài)融合。zheng?lian[6]等人設(shè)計(jì)了一種基于半監(jiān)督的多模態(tài)語音情感分析網(wǎng)絡(luò)smin。在半監(jiān)督學(xué)習(xí)的框架下,模型通過模態(tài)內(nèi)交互和跨模態(tài)交互模塊,提取單一模態(tài)內(nèi)的關(guān)鍵信息,并完成不同模態(tài)間的信息處理和整合。
6、然而,當(dāng)前方法存在以下問題:在語音和文本進(jìn)行多模態(tài)融合時(shí),通常使用兩類特征提取器來提取特征,并在特征交互或混合前進(jìn)行特征對(duì)齊,保持不同模態(tài)的特征維度一致。然而,由于文本和語音模態(tài)的特征維度和信息密度存在差異,語音特征具有較高的時(shí)間分辨率和豐富的聲學(xué)信息,文本特征則具有更高的語義密度。在對(duì)齊過程中,以上操作可能導(dǎo)致高信息密度模態(tài)的信息損失。
7、需要說明的是,在上述背景技術(shù)部分公開的信息僅用于對(duì)本技術(shù)的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的在于解決上述背景技術(shù)中存在的問題,提供一種基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法。
2、為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、一種基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法,包括以下步驟:
4、s1.?數(shù)據(jù)獲?。韩@取音頻數(shù)據(jù)和文本數(shù)據(jù)作為輸入;
5、s2.?文本特征提?。菏褂梦谋揪幋a模型將文本數(shù)據(jù)轉(zhuǎn)換為詞向量,并通過自注意力機(jī)制映射文本的詞匯級(jí)特征,提取文本的語義結(jié)構(gòu)特征;
6、s3.?音頻特征提?。菏褂靡纛l上下文特征提取模型從原始音頻波形中提取音頻上下文特征,并將音頻信號(hào)轉(zhuǎn)換為梅爾頻譜圖,使用音頻時(shí)間依賴特征提取模型提取時(shí)間依賴特征;
7、s4.?跨模態(tài)特征對(duì)齊與融合:結(jié)合音頻特征和文本特征,通過音頻引導(dǎo)式文本編碼器實(shí)現(xiàn)跨模態(tài)特征融合,并通過自掩碼機(jī)制對(duì)遷移信息進(jìn)行部分遮擋,以捕獲模態(tài)間的互補(bǔ)信息;
8、s5.?多模態(tài)特征融合處理:使用多頭注意力機(jī)制綜合處理融合后的多模態(tài)特征,并通過線性映射層將綜合處理后的特征轉(zhuǎn)換為情感類別的概率分布;
9、s6.?情感分類結(jié)果生成:根據(jù)概率分布計(jì)算確定最終的情感分類結(jié)果,并輸出該結(jié)果。
10、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法。
11、一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)的多模態(tài)情感識(shí)別方法。
12、本發(fā)明具有如下有益效果:
13、本發(fā)明提出了一種創(chuàng)新的多模態(tài)情感識(shí)別方法,該方法基于所設(shè)計(jì)的模態(tài)自適應(yīng)掩碼融合網(wǎng)絡(luò)mamf-net,有效解決了傳統(tǒng)多模態(tài)融合中存在的信息丟失和跨模態(tài)對(duì)齊問題。mamf-net通過音頻引導(dǎo)式文本編碼器,利用語音信號(hào)的時(shí)間分辨率和上下文信息,增強(qiáng)了文本的語義表示,確保了不同模態(tài)特征在維度和信息密度上更加精準(zhǔn)的對(duì)齊。此外,模型采用自掩碼機(jī)制的遮擋策略,針對(duì)跨模態(tài)知識(shí)遷移過程中可能出現(xiàn)的信息同質(zhì)性問題,通過部分遮擋遷移信息,促進(jìn)了模態(tài)間的互補(bǔ)信息捕獲,從而提升了融合效果和系統(tǒng)穩(wěn)定性。本發(fā)明的mamf-net在情感識(shí)別任務(wù)中的顯著性能提升得益于其對(duì)模態(tài)間信息的高效整合能力。實(shí)驗(yàn)結(jié)果在cmu-mosi、cmu-mosei和ch-sims等數(shù)據(jù)集上均表明mamf-net優(yōu)于現(xiàn)有方法,驗(yàn)證了其在多模態(tài)情感分析中的高效整合能力和廣泛應(yīng)用潛力,為情感識(shí)別任務(wù)提供了一種準(zhǔn)確和魯棒的解決方案。
14、本發(fā)明實(shí)施例中的其他有益效果將在下文中進(jìn)一步述及。