午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備與流程

文檔序號(hào):39726051發(fā)布日期:2024-10-22 13:25閱讀:7來(lái)源:國(guó)知局
語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備與流程

本公開(kāi)涉及數(shù)據(jù)處理,尤其涉及一種語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備。


背景技術(shù):

1、語(yǔ)音唇讀是一種根據(jù)輸入的說(shuō)話(huà)人臉視頻序列來(lái)重建說(shuō)話(huà)語(yǔ)音的技術(shù),是一種視頻到語(yǔ)音的映射,其重建的語(yǔ)音應(yīng)該包含視頻的說(shuō)話(huà)內(nèi)容信息和說(shuō)話(huà)人語(yǔ)音相關(guān)信息。在語(yǔ)音唇讀任務(wù)中,研究者一開(kāi)始選擇文字作為視頻到語(yǔ)音的中間表示;后來(lái)隨著研究的深入,大多數(shù)研究者選擇用聲學(xué)特征(如:聲譜圖、梅爾譜圖圖、lpc線(xiàn)性預(yù)測(cè)編碼等)作為視頻到語(yǔ)音的中間特征表示。

2、傳統(tǒng)的前饋網(wǎng)絡(luò)利用cnn,rnn等將訓(xùn)練集壓縮成隱向量進(jìn)行存儲(chǔ);導(dǎo)致網(wǎng)絡(luò)在編碼的過(guò)程中損失了很多有用的信息,并不能更好的獲取與聲學(xué)特征相關(guān)的隱向量?,F(xiàn)有的模型大多針對(duì)單個(gè)說(shuō)話(huà)人進(jìn)行語(yǔ)音重建,即模型與說(shuō)話(huà)人相關(guān)、模型依賴(lài)于說(shuō)話(huà)人。如何實(shí)現(xiàn)多說(shuō)話(huà)人條件下的語(yǔ)音唇讀效果成為亟待解決的問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)提供了一種語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備。其主要目的在于實(shí)現(xiàn)多說(shuō)話(huà)人條件下的語(yǔ)音唇讀識(shí)別,提升語(yǔ)音純度識(shí)別模型的泛化能力。

2、根據(jù)本公開(kāi)的第一方面,提供了一種語(yǔ)音唇讀識(shí)別模型的訓(xùn)練方法,包括:

3、將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取,得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征;

4、將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽(tīng)特征;

5、根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征及預(yù)設(shè)損失函數(shù),確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。

6、可選的,所述跨模態(tài)對(duì)抗記憶模塊包括鍵記憶與值記憶,所述方法還包括:

7、將所述訓(xùn)練用視頻特征作為所述鍵記憶的訓(xùn)練用先驗(yàn)視頻特征進(jìn)行更新,其中,所述鍵記憶基于所述訓(xùn)練用先驗(yàn)視頻特征在所述值記憶中進(jìn)行尋址;

8、將所述訓(xùn)練用語(yǔ)音特征作為所述值記憶的訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行更新,其中,所述訓(xùn)練用先驗(yàn)視頻特征與所述訓(xùn)練用先驗(yàn)語(yǔ)音特征一一對(duì)應(yīng)存儲(chǔ)。

9、可選的,所述將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取,得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征,包括:

10、從所述訓(xùn)練用語(yǔ)音視頻中,提取視頻幀數(shù)據(jù);

11、對(duì)所述視頻幀數(shù)據(jù)進(jìn)行特征提取,得到所述訓(xùn)練用視頻特征;

12、從所述訓(xùn)練用語(yǔ)音視頻中提取語(yǔ)音數(shù)據(jù),并根據(jù)語(yǔ)音數(shù)據(jù)所述生成第一梅爾譜圖;

13、對(duì)所述第一梅爾譜圖進(jìn)行特征提取,得到所述訓(xùn)練用語(yǔ)音特征。

14、可選的,所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器;

15、所述將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽(tīng)特征,包括:

16、將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類(lèi)器進(jìn)行跨模態(tài)處理;

17、對(duì)跨模態(tài)處理后的所述訓(xùn)練用視頻特征與訓(xùn)練用先驗(yàn)視頻特征進(jìn)行相似度計(jì)算,得到第一相似度權(quán)重;

18、對(duì)跨模態(tài)處理后的所述訓(xùn)練用語(yǔ)音特征與訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行相似度計(jì)算,得到第二相似度權(quán)重;

19、將所述第一相似度權(quán)重及所述訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理,得到所述訓(xùn)練用多模態(tài)視聽(tīng)特征。

20、可選的,所述將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類(lèi)器進(jìn)行跨模態(tài)處理,包括:

21、將所述訓(xùn)練用語(yǔ)音特征映射至訓(xùn)練用映射網(wǎng)絡(luò),得到第一特征向量;

22、將所述訓(xùn)練用視頻特征映射至所述訓(xùn)練用映射網(wǎng)絡(luò),得到第二特征向量;

23、基于所述模態(tài)分類(lèi)器,對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理。

24、可選的,所述方法還包括:

25、計(jì)算所述第一特征向量及所述第二特征向量之間的第一特征距離;

26、在對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理后,計(jì)算分類(lèi)損失;

27、基于所述第一特征距離及所述分類(lèi)損失,確定所述模態(tài)分類(lèi)器是否訓(xùn)練完成。

28、可選的,所述根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征及預(yù)設(shè)損失函數(shù),確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成,包括:

29、對(duì)所述訓(xùn)練用先驗(yàn)語(yǔ)音特征及所述第二相似度權(quán)重進(jìn)行加權(quán)求和處理,得到偽語(yǔ)音特征;

30、計(jì)算所述偽語(yǔ)音特征與所述訓(xùn)練用語(yǔ)音特征之間的第二特征距離;

31、計(jì)算所述第一相似度權(quán)重及所述第二相似度權(quán)重之間的k-l散度;

32、根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征,生成第二梅爾譜圖;

33、基于所述第一梅爾譜圖及所述第二梅爾譜圖,計(jì)算第一損失函數(shù);

34、計(jì)算所述預(yù)設(shè)損失函數(shù),其中,所述預(yù)設(shè)損失函數(shù)為所述第一損失函數(shù)、所述第一特征距離、所述第二特征距離、所述k-l散度的和減去所述分類(lèi)損失;

35、根據(jù)所述預(yù)設(shè)損失函數(shù)的計(jì)算結(jié)果,確定所述語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。

36、可選的,所述基于所述第一梅爾譜圖及所述第二梅爾譜圖,計(jì)算第一損失函數(shù),包括:

37、基于所述第一梅爾譜圖、第一預(yù)測(cè)梅爾譜圖、所述第二梅爾譜圖,計(jì)算第二損失函數(shù);

38、基于所述第一梅爾譜圖、第二預(yù)測(cè)梅爾譜圖、第三梅爾譜圖,計(jì)算第三損失函數(shù);

39、將所述第二損失函數(shù)及所述第三損失函數(shù)相加,得到所述第一損失函數(shù)。

40、可選的,所述方法還包括:

41、在將訓(xùn)練用語(yǔ)音視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述訓(xùn)練用語(yǔ)音視頻中的人像進(jìn)行裁剪對(duì)齊處理。

42、根據(jù)本公開(kāi)的第二方面,提供了一種語(yǔ)音唇讀識(shí)別的方法,所述方法包括:

43、將待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取,得到視頻特征;

44、將所述視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成多模態(tài)視聽(tīng)特征;

45、利用語(yǔ)音解碼器對(duì)所述多模態(tài)視聽(tīng)特征進(jìn)行特征重建,生成第四梅爾譜圖;

46、基于聲碼器,對(duì)所述第四梅爾譜圖進(jìn)行轉(zhuǎn)換處理得到語(yǔ)音唇讀識(shí)別的語(yǔ)音。

47、可選的,所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器、鍵記憶與值記憶;

48、所述將所述視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成多模態(tài)視聽(tīng)特征,包括:

49、計(jì)算所述視頻特征與所述鍵記憶中儲(chǔ)存的先驗(yàn)視頻特征之間的尋址相似度;

50、基于所述尋址相似度,查找所述值記憶中對(duì)應(yīng)的先驗(yàn)語(yǔ)音特征;

51、將所述視頻特征與所述先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理,得到所述多模態(tài)視聽(tīng)特征。

52、可選的,所述方法還包括:

53、在將所述待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述待識(shí)別視頻中的人像進(jìn)行裁剪對(duì)齊處理。

54、根據(jù)本公開(kāi)的第三方面,提供了一種語(yǔ)音唇讀識(shí)別模型的訓(xùn)練裝置,包括:

55、第一訓(xùn)練單元,用于將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取,得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征;

56、第二訓(xùn)練單元,用于將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽(tīng)特征;

57、第一確定單元,用于根據(jù)所述訓(xùn)練用第一梅爾譜圖、所述訓(xùn)練用第二梅爾譜圖及預(yù)設(shè)損失函數(shù),確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。

58、可選的,所述裝置還包括:

59、第一更新單元,用于將所述訓(xùn)練用視頻特征作為所述鍵記憶的訓(xùn)練用先驗(yàn)視頻特征進(jìn)行更新,其中,所述鍵記憶基于所述訓(xùn)練用先驗(yàn)視頻特征在所述值記憶中進(jìn)行尋址;所述跨模態(tài)對(duì)抗記憶模塊包括鍵記憶與值記憶;

60、第二更新單元,用于將所述訓(xùn)練用語(yǔ)音特征作為所述值記憶的訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行更新,其中,所述訓(xùn)練用先驗(yàn)視頻特征與所述訓(xùn)練用先驗(yàn)語(yǔ)音特征一一對(duì)應(yīng)存儲(chǔ)。

61、可選的,所述第一訓(xùn)練單元包括:

62、第一提取模塊,用于從所述訓(xùn)練用語(yǔ)音視頻中,提取視頻幀數(shù)據(jù);

63、第二提取模塊,用于對(duì)所述視頻幀數(shù)據(jù)進(jìn)行特征提取,得到所述訓(xùn)練用視頻特征;

64、第三提取模塊,用于從所述訓(xùn)練用語(yǔ)音視頻中提取語(yǔ)音數(shù)據(jù),并根據(jù)語(yǔ)音數(shù)據(jù)所述生成第一梅爾譜圖;

65、第四提取模塊,用于對(duì)所述第一梅爾譜圖進(jìn)行特征提取,得到所述訓(xùn)練用語(yǔ)音特征。

66、可選的,所述第二訓(xùn)練單元包括:

67、跨模態(tài)處理模塊,用于將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類(lèi)器進(jìn)行跨模態(tài)處理;所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器;

68、第一計(jì)算模塊,用于對(duì)跨模態(tài)處理后的所述訓(xùn)練用視頻特征與訓(xùn)練用先驗(yàn)視頻特征進(jìn)行相似度計(jì)算,得到第一相似度權(quán)重;

69、第二計(jì)算模塊,用于對(duì)跨模態(tài)處理后的所述訓(xùn)練用語(yǔ)音特征與訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行相似度計(jì)算,得到第二相似度權(quán)重;

70、第三計(jì)算模塊,用于將所述第一相似度權(quán)重及所述訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理,得到所述訓(xùn)練用多模態(tài)視聽(tīng)特征。

71、可選的,所述跨模態(tài)處理模塊還用于:

72、將所述訓(xùn)練用語(yǔ)音特征映射至訓(xùn)練用映射網(wǎng)絡(luò),得到第一特征向量;

73、將所述訓(xùn)練用視頻特征映射至所述訓(xùn)練用映射網(wǎng)絡(luò),得到第二特征向量;

74、基于所述模態(tài)分類(lèi)器,對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理。

75、可選的,所述裝置還包括:

76、第一計(jì)算單元,用于計(jì)算所述第一特征向量及所述第二特征向量之間的第一特征距離;

77、第二計(jì)算單元,用于在對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理后,計(jì)算分類(lèi)損失;

78、第二確定單元,用于基于所述第一特征距離及所述分類(lèi)損失,確定所述模態(tài)分類(lèi)器是否訓(xùn)練完成。

79、可選的,所述第一確定單元包括:

80、第四計(jì)算模塊,用于對(duì)所述訓(xùn)練用先驗(yàn)語(yǔ)音特征及所述第二相似度權(quán)重進(jìn)行加權(quán)求和處理,得到偽語(yǔ)音特征;

81、第五計(jì)算模塊,用于計(jì)算所述偽語(yǔ)音特征與所述訓(xùn)練用語(yǔ)音特征之間的第二特征距離;

82、第六計(jì)算模塊,用于計(jì)算所述第一相似度權(quán)重及所述第二相似度權(quán)重之間的k-l散度;

83、生成模塊,用于根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征,生成第二梅爾譜圖;

84、第七計(jì)算模塊,用于基于所述第一梅爾譜圖及所述第二梅爾譜圖,計(jì)算第一損失函數(shù);

85、第八計(jì)算模塊,用于計(jì)算所述預(yù)設(shè)損失函數(shù),其中,所述預(yù)設(shè)損失函數(shù)為所述第一損失函數(shù)、所述第一特征距離、所述第二特征距離、所述k-l散度的和減去所述分類(lèi)損失;

86、確定模塊,用于根據(jù)所述預(yù)設(shè)損失函數(shù)的計(jì)算結(jié)果,確定所述語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。

87、可選的,所述第七計(jì)算模塊還用于:

88、基于所述第一梅爾譜圖、第一預(yù)測(cè)梅爾譜圖、所述第二梅爾譜圖,計(jì)算第二損失函數(shù);

89、基于所述第一梅爾譜圖、第二預(yù)測(cè)梅爾譜圖、第三梅爾譜圖,計(jì)算第三損失函數(shù);

90、將所述第二損失函數(shù)及所述第三損失函數(shù)相加,得到所述第一損失函數(shù)。

91、可選的,所述裝置還包括:

92、第一裁剪單元,用于在將訓(xùn)練用語(yǔ)音視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述訓(xùn)練用語(yǔ)音視頻中的人像進(jìn)行裁剪對(duì)齊處理。

93、根據(jù)本公開(kāi)的第四方面,提供了一種語(yǔ)音唇讀識(shí)別的裝置,所述裝置包括:

94、提取單元,用于將待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取,得到視頻特征;

95、第一生成單元,用于將所述視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成多模態(tài)視聽(tīng)特征;

96、第二生成單元,用于利用語(yǔ)音解碼器對(duì)所述多模態(tài)視聽(tīng)特征進(jìn)行特征重建,生成第四梅爾譜圖;

97、轉(zhuǎn)換單元,用于基于聲碼器,對(duì)所述第四梅爾譜圖進(jìn)行轉(zhuǎn)換處理得到語(yǔ)音唇讀識(shí)別的語(yǔ)音。

98、可選的,所述第一生成單元包括:

99、第九計(jì)算模塊,用于計(jì)算所述視頻特征與所述鍵記憶中儲(chǔ)存的先驗(yàn)視頻特征之間的尋址相似度;所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器、鍵記憶與值記憶;

100、查找模塊,用于基于所述尋址相似度,查找所述值記憶中對(duì)應(yīng)的先驗(yàn)語(yǔ)音特征;

101、第十計(jì)算模塊,用于將所述視頻特征與所述先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理,得到所述多模態(tài)視聽(tīng)特征。

102、可選的,所述裝置還包括:

103、第二裁剪單元,用于在將所述待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取之前,將所述待識(shí)別視頻中的人像進(jìn)行裁剪對(duì)齊處理。

104、根據(jù)本公開(kāi)的第五方面,提供了一種電子設(shè)備,包括:

105、至少一個(gè)處理器;以及

106、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,

107、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行前述第一方面和/或第二方面所述的方法。

108、根據(jù)本公開(kāi)的第六方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行前述第一方面和/或第二方面所述的方法。

109、根據(jù)本公開(kāi)的第七方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述第一方面和/或第二方面所述的方法。

110、本公開(kāi)提供了一種語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備,將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取,得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征;將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,生成訓(xùn)練用多模態(tài)視聽(tīng)特征;根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征及預(yù)設(shè)損失函數(shù),確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。與相關(guān)技術(shù)相比,本公開(kāi)通過(guò)將提取到的訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊,進(jìn)行跨模態(tài)處理;能夠?qū)⒂?xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征更好的融合,獲取到更多的關(guān)于語(yǔ)音特征與視頻特征之間的關(guān)聯(lián)關(guān)系信息,進(jìn)而能夠提高模型的泛化識(shí)別能力。

111、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本技術(shù)的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過(guò)以下的說(shuō)明書(shū)而變得容易理解。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1