本公開(kāi)涉及數(shù)據(jù)處理,尤其涉及一種語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備。
背景技術(shù):
1、語(yǔ)音唇讀是一種根據(jù)輸入的說(shuō)話(huà)人臉視頻序列來(lái)重建說(shuō)話(huà)語(yǔ)音的技術(shù),是一種視頻到語(yǔ)音的映射,其重建的語(yǔ)音應(yīng)該包含視頻的說(shuō)話(huà)內(nèi)容信息和說(shuō)話(huà)人語(yǔ)音相關(guān)信息。在語(yǔ)音唇讀任務(wù)中,研究者一開(kāi)始選擇文字作為視頻到語(yǔ)音的中間表示;后來(lái)隨著研究的深入,大多數(shù)研究者選擇用聲學(xué)特征(如:聲譜圖、梅爾譜圖圖、lpc線(xiàn)性預(yù)測(cè)編碼等)作為視頻到語(yǔ)音的中間特征表示。
2、傳統(tǒng)的前饋網(wǎng)絡(luò)利用cnn,rnn等將訓(xùn)練集壓縮成隱向量進(jìn)行存儲(chǔ);導(dǎo)致網(wǎng)絡(luò)在編碼的過(guò)程中損失了很多有用的信息,并不能更好的獲取與聲學(xué)特征相關(guān)的隱向量?,F(xiàn)有的模型大多針對(duì)單個(gè)說(shuō)話(huà)人進(jìn)行語(yǔ)音重建,即模型與說(shuō)話(huà)人相關(guān)、模型依賴(lài)于說(shuō)話(huà)人。如何實(shí)現(xiàn)多說(shuō)話(huà)人條件下的語(yǔ)音唇讀效果成為亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)提供了一種語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備。其主要目的在于實(shí)現(xiàn)多說(shuō)話(huà)人條件下的語(yǔ)音唇讀識(shí)別,提升語(yǔ)音純度識(shí)別模型的泛化能力。
2、根據(jù)本公開(kāi)的第一方面,提供了一種語(yǔ)音唇讀識(shí)別模型的訓(xùn)練方法,包括:
3、將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取,得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征;
4、將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽(tīng)特征;
5、根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征及預(yù)設(shè)損失函數(shù),確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。
6、可選的,所述跨模態(tài)對(duì)抗記憶模塊包括鍵記憶與值記憶,所述方法還包括:
7、將所述訓(xùn)練用視頻特征作為所述鍵記憶的訓(xùn)練用先驗(yàn)視頻特征進(jìn)行更新,其中,所述鍵記憶基于所述訓(xùn)練用先驗(yàn)視頻特征在所述值記憶中進(jìn)行尋址;
8、將所述訓(xùn)練用語(yǔ)音特征作為所述值記憶的訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行更新,其中,所述訓(xùn)練用先驗(yàn)視頻特征與所述訓(xùn)練用先驗(yàn)語(yǔ)音特征一一對(duì)應(yīng)存儲(chǔ)。
9、可選的,所述將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取,得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征,包括:
10、從所述訓(xùn)練用語(yǔ)音視頻中,提取視頻幀數(shù)據(jù);
11、對(duì)所述視頻幀數(shù)據(jù)進(jìn)行特征提取,得到所述訓(xùn)練用視頻特征;
12、從所述訓(xùn)練用語(yǔ)音視頻中提取語(yǔ)音數(shù)據(jù),并根據(jù)語(yǔ)音數(shù)據(jù)所述生成第一梅爾譜圖;
13、對(duì)所述第一梅爾譜圖進(jìn)行特征提取,得到所述訓(xùn)練用語(yǔ)音特征。
14、可選的,所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器;
15、所述將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽(tīng)特征,包括:
16、將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類(lèi)器進(jìn)行跨模態(tài)處理;
17、對(duì)跨模態(tài)處理后的所述訓(xùn)練用視頻特征與訓(xùn)練用先驗(yàn)視頻特征進(jìn)行相似度計(jì)算,得到第一相似度權(quán)重;
18、對(duì)跨模態(tài)處理后的所述訓(xùn)練用語(yǔ)音特征與訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行相似度計(jì)算,得到第二相似度權(quán)重;
19、將所述第一相似度權(quán)重及所述訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理,得到所述訓(xùn)練用多模態(tài)視聽(tīng)特征。
20、可選的,所述將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類(lèi)器進(jìn)行跨模態(tài)處理,包括:
21、將所述訓(xùn)練用語(yǔ)音特征映射至訓(xùn)練用映射網(wǎng)絡(luò),得到第一特征向量;
22、將所述訓(xùn)練用視頻特征映射至所述訓(xùn)練用映射網(wǎng)絡(luò),得到第二特征向量;
23、基于所述模態(tài)分類(lèi)器,對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理。
24、可選的,所述方法還包括:
25、計(jì)算所述第一特征向量及所述第二特征向量之間的第一特征距離;
26、在對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理后,計(jì)算分類(lèi)損失;
27、基于所述第一特征距離及所述分類(lèi)損失,確定所述模態(tài)分類(lèi)器是否訓(xùn)練完成。
28、可選的,所述根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征及預(yù)設(shè)損失函數(shù),確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成,包括:
29、對(duì)所述訓(xùn)練用先驗(yàn)語(yǔ)音特征及所述第二相似度權(quán)重進(jìn)行加權(quán)求和處理,得到偽語(yǔ)音特征;
30、計(jì)算所述偽語(yǔ)音特征與所述訓(xùn)練用語(yǔ)音特征之間的第二特征距離;
31、計(jì)算所述第一相似度權(quán)重及所述第二相似度權(quán)重之間的k-l散度;
32、根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征,生成第二梅爾譜圖;
33、基于所述第一梅爾譜圖及所述第二梅爾譜圖,計(jì)算第一損失函數(shù);
34、計(jì)算所述預(yù)設(shè)損失函數(shù),其中,所述預(yù)設(shè)損失函數(shù)為所述第一損失函數(shù)、所述第一特征距離、所述第二特征距離、所述k-l散度的和減去所述分類(lèi)損失;
35、根據(jù)所述預(yù)設(shè)損失函數(shù)的計(jì)算結(jié)果,確定所述語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。
36、可選的,所述基于所述第一梅爾譜圖及所述第二梅爾譜圖,計(jì)算第一損失函數(shù),包括:
37、基于所述第一梅爾譜圖、第一預(yù)測(cè)梅爾譜圖、所述第二梅爾譜圖,計(jì)算第二損失函數(shù);
38、基于所述第一梅爾譜圖、第二預(yù)測(cè)梅爾譜圖、第三梅爾譜圖,計(jì)算第三損失函數(shù);
39、將所述第二損失函數(shù)及所述第三損失函數(shù)相加,得到所述第一損失函數(shù)。
40、可選的,所述方法還包括:
41、在將訓(xùn)練用語(yǔ)音視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述訓(xùn)練用語(yǔ)音視頻中的人像進(jìn)行裁剪對(duì)齊處理。
42、根據(jù)本公開(kāi)的第二方面,提供了一種語(yǔ)音唇讀識(shí)別的方法,所述方法包括:
43、將待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取,得到視頻特征;
44、將所述視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成多模態(tài)視聽(tīng)特征;
45、利用語(yǔ)音解碼器對(duì)所述多模態(tài)視聽(tīng)特征進(jìn)行特征重建,生成第四梅爾譜圖;
46、基于聲碼器,對(duì)所述第四梅爾譜圖進(jìn)行轉(zhuǎn)換處理得到語(yǔ)音唇讀識(shí)別的語(yǔ)音。
47、可選的,所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器、鍵記憶與值記憶;
48、所述將所述視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成多模態(tài)視聽(tīng)特征,包括:
49、計(jì)算所述視頻特征與所述鍵記憶中儲(chǔ)存的先驗(yàn)視頻特征之間的尋址相似度;
50、基于所述尋址相似度,查找所述值記憶中對(duì)應(yīng)的先驗(yàn)語(yǔ)音特征;
51、將所述視頻特征與所述先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理,得到所述多模態(tài)視聽(tīng)特征。
52、可選的,所述方法還包括:
53、在將所述待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述待識(shí)別視頻中的人像進(jìn)行裁剪對(duì)齊處理。
54、根據(jù)本公開(kāi)的第三方面,提供了一種語(yǔ)音唇讀識(shí)別模型的訓(xùn)練裝置,包括:
55、第一訓(xùn)練單元,用于將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取,得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征;
56、第二訓(xùn)練單元,用于將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽(tīng)特征;
57、第一確定單元,用于根據(jù)所述訓(xùn)練用第一梅爾譜圖、所述訓(xùn)練用第二梅爾譜圖及預(yù)設(shè)損失函數(shù),確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。
58、可選的,所述裝置還包括:
59、第一更新單元,用于將所述訓(xùn)練用視頻特征作為所述鍵記憶的訓(xùn)練用先驗(yàn)視頻特征進(jìn)行更新,其中,所述鍵記憶基于所述訓(xùn)練用先驗(yàn)視頻特征在所述值記憶中進(jìn)行尋址;所述跨模態(tài)對(duì)抗記憶模塊包括鍵記憶與值記憶;
60、第二更新單元,用于將所述訓(xùn)練用語(yǔ)音特征作為所述值記憶的訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行更新,其中,所述訓(xùn)練用先驗(yàn)視頻特征與所述訓(xùn)練用先驗(yàn)語(yǔ)音特征一一對(duì)應(yīng)存儲(chǔ)。
61、可選的,所述第一訓(xùn)練單元包括:
62、第一提取模塊,用于從所述訓(xùn)練用語(yǔ)音視頻中,提取視頻幀數(shù)據(jù);
63、第二提取模塊,用于對(duì)所述視頻幀數(shù)據(jù)進(jìn)行特征提取,得到所述訓(xùn)練用視頻特征;
64、第三提取模塊,用于從所述訓(xùn)練用語(yǔ)音視頻中提取語(yǔ)音數(shù)據(jù),并根據(jù)語(yǔ)音數(shù)據(jù)所述生成第一梅爾譜圖;
65、第四提取模塊,用于對(duì)所述第一梅爾譜圖進(jìn)行特征提取,得到所述訓(xùn)練用語(yǔ)音特征。
66、可選的,所述第二訓(xùn)練單元包括:
67、跨模態(tài)處理模塊,用于將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類(lèi)器進(jìn)行跨模態(tài)處理;所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器;
68、第一計(jì)算模塊,用于對(duì)跨模態(tài)處理后的所述訓(xùn)練用視頻特征與訓(xùn)練用先驗(yàn)視頻特征進(jìn)行相似度計(jì)算,得到第一相似度權(quán)重;
69、第二計(jì)算模塊,用于對(duì)跨模態(tài)處理后的所述訓(xùn)練用語(yǔ)音特征與訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行相似度計(jì)算,得到第二相似度權(quán)重;
70、第三計(jì)算模塊,用于將所述第一相似度權(quán)重及所述訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理,得到所述訓(xùn)練用多模態(tài)視聽(tīng)特征。
71、可選的,所述跨模態(tài)處理模塊還用于:
72、將所述訓(xùn)練用語(yǔ)音特征映射至訓(xùn)練用映射網(wǎng)絡(luò),得到第一特征向量;
73、將所述訓(xùn)練用視頻特征映射至所述訓(xùn)練用映射網(wǎng)絡(luò),得到第二特征向量;
74、基于所述模態(tài)分類(lèi)器,對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理。
75、可選的,所述裝置還包括:
76、第一計(jì)算單元,用于計(jì)算所述第一特征向量及所述第二特征向量之間的第一特征距離;
77、第二計(jì)算單元,用于在對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理后,計(jì)算分類(lèi)損失;
78、第二確定單元,用于基于所述第一特征距離及所述分類(lèi)損失,確定所述模態(tài)分類(lèi)器是否訓(xùn)練完成。
79、可選的,所述第一確定單元包括:
80、第四計(jì)算模塊,用于對(duì)所述訓(xùn)練用先驗(yàn)語(yǔ)音特征及所述第二相似度權(quán)重進(jìn)行加權(quán)求和處理,得到偽語(yǔ)音特征;
81、第五計(jì)算模塊,用于計(jì)算所述偽語(yǔ)音特征與所述訓(xùn)練用語(yǔ)音特征之間的第二特征距離;
82、第六計(jì)算模塊,用于計(jì)算所述第一相似度權(quán)重及所述第二相似度權(quán)重之間的k-l散度;
83、生成模塊,用于根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征,生成第二梅爾譜圖;
84、第七計(jì)算模塊,用于基于所述第一梅爾譜圖及所述第二梅爾譜圖,計(jì)算第一損失函數(shù);
85、第八計(jì)算模塊,用于計(jì)算所述預(yù)設(shè)損失函數(shù),其中,所述預(yù)設(shè)損失函數(shù)為所述第一損失函數(shù)、所述第一特征距離、所述第二特征距離、所述k-l散度的和減去所述分類(lèi)損失;
86、確定模塊,用于根據(jù)所述預(yù)設(shè)損失函數(shù)的計(jì)算結(jié)果,確定所述語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。
87、可選的,所述第七計(jì)算模塊還用于:
88、基于所述第一梅爾譜圖、第一預(yù)測(cè)梅爾譜圖、所述第二梅爾譜圖,計(jì)算第二損失函數(shù);
89、基于所述第一梅爾譜圖、第二預(yù)測(cè)梅爾譜圖、第三梅爾譜圖,計(jì)算第三損失函數(shù);
90、將所述第二損失函數(shù)及所述第三損失函數(shù)相加,得到所述第一損失函數(shù)。
91、可選的,所述裝置還包括:
92、第一裁剪單元,用于在將訓(xùn)練用語(yǔ)音視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述訓(xùn)練用語(yǔ)音視頻中的人像進(jìn)行裁剪對(duì)齊處理。
93、根據(jù)本公開(kāi)的第四方面,提供了一種語(yǔ)音唇讀識(shí)別的裝置,所述裝置包括:
94、提取單元,用于將待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取,得到視頻特征;
95、第一生成單元,用于將所述視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成多模態(tài)視聽(tīng)特征;
96、第二生成單元,用于利用語(yǔ)音解碼器對(duì)所述多模態(tài)視聽(tīng)特征進(jìn)行特征重建,生成第四梅爾譜圖;
97、轉(zhuǎn)換單元,用于基于聲碼器,對(duì)所述第四梅爾譜圖進(jìn)行轉(zhuǎn)換處理得到語(yǔ)音唇讀識(shí)別的語(yǔ)音。
98、可選的,所述第一生成單元包括:
99、第九計(jì)算模塊,用于計(jì)算所述視頻特征與所述鍵記憶中儲(chǔ)存的先驗(yàn)視頻特征之間的尋址相似度;所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器、鍵記憶與值記憶;
100、查找模塊,用于基于所述尋址相似度,查找所述值記憶中對(duì)應(yīng)的先驗(yàn)語(yǔ)音特征;
101、第十計(jì)算模塊,用于將所述視頻特征與所述先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理,得到所述多模態(tài)視聽(tīng)特征。
102、可選的,所述裝置還包括:
103、第二裁剪單元,用于在將所述待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述待識(shí)別視頻中的人像進(jìn)行裁剪對(duì)齊處理。
104、根據(jù)本公開(kāi)的第五方面,提供了一種電子設(shè)備,包括:
105、至少一個(gè)處理器;以及
106、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
107、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行前述第一方面和/或第二方面所述的方法。
108、根據(jù)本公開(kāi)的第六方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行前述第一方面和/或第二方面所述的方法。
109、根據(jù)本公開(kāi)的第七方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述第一方面和/或第二方面所述的方法。
110、本公開(kāi)提供了一種語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備,將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取,得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征;將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽(tīng)特征;根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征及預(yù)設(shè)損失函數(shù),確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。與相關(guān)技術(shù)相比,本公開(kāi)通過(guò)將提取到的訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,進(jìn)行跨模態(tài)處理;能夠?qū)⒂?xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征更好的融合,獲取到更多的關(guān)于語(yǔ)音特征與視頻特征之間的關(guān)聯(lián)關(guān)系信息,進(jìn)而能夠提高模型的泛化識(shí)別能力。
111、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本技術(shù)的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過(guò)以下的說(shuō)明書(shū)而變得容易理解。