語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備與流程

文檔序號(hào)：39726051發(fā)布日期：2024-10-22 13:25閱讀：7來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備與流程

本公開(kāi)涉及數(shù)據(jù)處理，尤其涉及一種語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備。

背景技術(shù)：

1、語(yǔ)音唇讀是一種根據(jù)輸入的說(shuō)話(huà)人臉視頻序列來(lái)重建說(shuō)話(huà)語(yǔ)音的技術(shù)，是一種視頻到語(yǔ)音的映射，其重建的語(yǔ)音應(yīng)該包含視頻的說(shuō)話(huà)內(nèi)容信息和說(shuō)話(huà)人語(yǔ)音相關(guān)信息。在語(yǔ)音唇讀任務(wù)中，研究者一開(kāi)始選擇文字作為視頻到語(yǔ)音的中間表示；后來(lái)隨著研究的深入，大多數(shù)研究者選擇用聲學(xué)特征(如：聲譜圖、梅爾譜圖圖、lpc線(xiàn)性預(yù)測(cè)編碼等)作為視頻到語(yǔ)音的中間特征表示。

2、傳統(tǒng)的前饋網(wǎng)絡(luò)利用cnn，rnn等將訓(xùn)練集壓縮成隱向量進(jìn)行存儲(chǔ)；導(dǎo)致網(wǎng)絡(luò)在編碼的過(guò)程中損失了很多有用的信息，并不能更好的獲取與聲學(xué)特征相關(guān)的隱向量?，F(xiàn)有的模型大多針對(duì)單個(gè)說(shuō)話(huà)人進(jìn)行語(yǔ)音重建，即模型與說(shuō)話(huà)人相關(guān)、模型依賴(lài)于說(shuō)話(huà)人。如何實(shí)現(xiàn)多說(shuō)話(huà)人條件下的語(yǔ)音唇讀效果成為亟待解決的問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)提供了一種語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備。其主要目的在于實(shí)現(xiàn)多說(shuō)話(huà)人條件下的語(yǔ)音唇讀識(shí)別，提升語(yǔ)音純度識(shí)別模型的泛化能力。

2、根據(jù)本公開(kāi)的第一方面，提供了一種語(yǔ)音唇讀識(shí)別模型的訓(xùn)練方法，包括：

3、將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取，得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征；

4、將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊，生成訓(xùn)練用多模態(tài)視聽(tīng)特征；

5、根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征及預(yù)設(shè)損失函數(shù)，確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。

6、可選的，所述跨模態(tài)對(duì)抗記憶模塊包括鍵記憶與值記憶，所述方法還包括：

7、將所述訓(xùn)練用視頻特征作為所述鍵記憶的訓(xùn)練用先驗(yàn)視頻特征進(jìn)行更新，其中，所述鍵記憶基于所述訓(xùn)練用先驗(yàn)視頻特征在所述值記憶中進(jìn)行尋址；

8、將所述訓(xùn)練用語(yǔ)音特征作為所述值記憶的訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行更新，其中，所述訓(xùn)練用先驗(yàn)視頻特征與所述訓(xùn)練用先驗(yàn)語(yǔ)音特征一一對(duì)應(yīng)存儲(chǔ)。

9、可選的，所述將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取，得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征，包括：

10、從所述訓(xùn)練用語(yǔ)音視頻中，提取視頻幀數(shù)據(jù)；

11、對(duì)所述視頻幀數(shù)據(jù)進(jìn)行特征提取，得到所述訓(xùn)練用視頻特征；

12、從所述訓(xùn)練用語(yǔ)音視頻中提取語(yǔ)音數(shù)據(jù)，并根據(jù)語(yǔ)音數(shù)據(jù)所述生成第一梅爾譜圖；

13、對(duì)所述第一梅爾譜圖進(jìn)行特征提取，得到所述訓(xùn)練用語(yǔ)音特征。

14、可選的，所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器；

15、所述將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊，生成訓(xùn)練用多模態(tài)視聽(tīng)特征，包括：

16、將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類(lèi)器進(jìn)行跨模態(tài)處理；

17、對(duì)跨模態(tài)處理后的所述訓(xùn)練用視頻特征與訓(xùn)練用先驗(yàn)視頻特征進(jìn)行相似度計(jì)算，得到第一相似度權(quán)重；

18、對(duì)跨模態(tài)處理后的所述訓(xùn)練用語(yǔ)音特征與訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行相似度計(jì)算，得到第二相似度權(quán)重；

19、將所述第一相似度權(quán)重及所述訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理，得到所述訓(xùn)練用多模態(tài)視聽(tīng)特征。

20、可選的，所述將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類(lèi)器進(jìn)行跨模態(tài)處理，包括：

21、將所述訓(xùn)練用語(yǔ)音特征映射至訓(xùn)練用映射網(wǎng)絡(luò)，得到第一特征向量；

22、將所述訓(xùn)練用視頻特征映射至所述訓(xùn)練用映射網(wǎng)絡(luò)，得到第二特征向量；

23、基于所述模態(tài)分類(lèi)器，對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理。

24、可選的，所述方法還包括：

25、計(jì)算所述第一特征向量及所述第二特征向量之間的第一特征距離；

26、在對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理后，計(jì)算分類(lèi)損失；

27、基于所述第一特征距離及所述分類(lèi)損失，確定所述模態(tài)分類(lèi)器是否訓(xùn)練完成。

28、可選的，所述根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征及預(yù)設(shè)損失函數(shù)，確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成，包括：

29、對(duì)所述訓(xùn)練用先驗(yàn)語(yǔ)音特征及所述第二相似度權(quán)重進(jìn)行加權(quán)求和處理，得到偽語(yǔ)音特征；

30、計(jì)算所述偽語(yǔ)音特征與所述訓(xùn)練用語(yǔ)音特征之間的第二特征距離；

31、計(jì)算所述第一相似度權(quán)重及所述第二相似度權(quán)重之間的k-l散度；

32、根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征，生成第二梅爾譜圖；

33、基于所述第一梅爾譜圖及所述第二梅爾譜圖，計(jì)算第一損失函數(shù)；

34、計(jì)算所述預(yù)設(shè)損失函數(shù)，其中，所述預(yù)設(shè)損失函數(shù)為所述第一損失函數(shù)、所述第一特征距離、所述第二特征距離、所述k-l散度的和減去所述分類(lèi)損失；

35、根據(jù)所述預(yù)設(shè)損失函數(shù)的計(jì)算結(jié)果，確定所述語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。

36、可選的，所述基于所述第一梅爾譜圖及所述第二梅爾譜圖，計(jì)算第一損失函數(shù)，包括：

37、基于所述第一梅爾譜圖、第一預(yù)測(cè)梅爾譜圖、所述第二梅爾譜圖，計(jì)算第二損失函數(shù)；

38、基于所述第一梅爾譜圖、第二預(yù)測(cè)梅爾譜圖、第三梅爾譜圖，計(jì)算第三損失函數(shù)；

39、將所述第二損失函數(shù)及所述第三損失函數(shù)相加，得到所述第一損失函數(shù)。

40、可選的，所述方法還包括：

41、在將訓(xùn)練用語(yǔ)音視頻輸入視頻編碼器進(jìn)行特征提取之前，將所述訓(xùn)練用語(yǔ)音視頻中的人像進(jìn)行裁剪對(duì)齊處理。

42、根據(jù)本公開(kāi)的第二方面，提供了一種語(yǔ)音唇讀識(shí)別的方法，所述方法包括：

43、將待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取，得到視頻特征；

44、將所述視頻特征輸入跨模態(tài)對(duì)抗記憶模塊，生成多模態(tài)視聽(tīng)特征；

45、利用語(yǔ)音解碼器對(duì)所述多模態(tài)視聽(tīng)特征進(jìn)行特征重建，生成第四梅爾譜圖；

46、基于聲碼器，對(duì)所述第四梅爾譜圖進(jìn)行轉(zhuǎn)換處理得到語(yǔ)音唇讀識(shí)別的語(yǔ)音。

47、可選的，所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器、鍵記憶與值記憶；

48、所述將所述視頻特征輸入跨模態(tài)對(duì)抗記憶模塊，生成多模態(tài)視聽(tīng)特征，包括：

49、計(jì)算所述視頻特征與所述鍵記憶中儲(chǔ)存的先驗(yàn)視頻特征之間的尋址相似度；

50、基于所述尋址相似度，查找所述值記憶中對(duì)應(yīng)的先驗(yàn)語(yǔ)音特征；

51、將所述視頻特征與所述先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理，得到所述多模態(tài)視聽(tīng)特征。

52、可選的，所述方法還包括：

53、在將所述待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取之前，將所述待識(shí)別視頻中的人像進(jìn)行裁剪對(duì)齊處理。

54、根據(jù)本公開(kāi)的第三方面，提供了一種語(yǔ)音唇讀識(shí)別模型的訓(xùn)練裝置，包括：

55、第一訓(xùn)練單元，用于將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取，得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征；

56、第二訓(xùn)練單元，用于將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊，生成訓(xùn)練用多模態(tài)視聽(tīng)特征；

57、第一確定單元，用于根據(jù)所述訓(xùn)練用第一梅爾譜圖、所述訓(xùn)練用第二梅爾譜圖及預(yù)設(shè)損失函數(shù)，確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。

58、可選的，所述裝置還包括：

59、第一更新單元，用于將所述訓(xùn)練用視頻特征作為所述鍵記憶的訓(xùn)練用先驗(yàn)視頻特征進(jìn)行更新，其中，所述鍵記憶基于所述訓(xùn)練用先驗(yàn)視頻特征在所述值記憶中進(jìn)行尋址；所述跨模態(tài)對(duì)抗記憶模塊包括鍵記憶與值記憶；

60、第二更新單元，用于將所述訓(xùn)練用語(yǔ)音特征作為所述值記憶的訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行更新，其中，所述訓(xùn)練用先驗(yàn)視頻特征與所述訓(xùn)練用先驗(yàn)語(yǔ)音特征一一對(duì)應(yīng)存儲(chǔ)。

61、可選的，所述第一訓(xùn)練單元包括：

62、第一提取模塊，用于從所述訓(xùn)練用語(yǔ)音視頻中，提取視頻幀數(shù)據(jù)；

63、第二提取模塊，用于對(duì)所述視頻幀數(shù)據(jù)進(jìn)行特征提取，得到所述訓(xùn)練用視頻特征；

64、第三提取模塊，用于從所述訓(xùn)練用語(yǔ)音視頻中提取語(yǔ)音數(shù)據(jù)，并根據(jù)語(yǔ)音數(shù)據(jù)所述生成第一梅爾譜圖；

65、第四提取模塊，用于對(duì)所述第一梅爾譜圖進(jìn)行特征提取，得到所述訓(xùn)練用語(yǔ)音特征。

66、可選的，所述第二訓(xùn)練單元包括：

67、跨模態(tài)處理模塊，用于將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入所述模態(tài)分類(lèi)器進(jìn)行跨模態(tài)處理；所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器；

68、第一計(jì)算模塊，用于對(duì)跨模態(tài)處理后的所述訓(xùn)練用視頻特征與訓(xùn)練用先驗(yàn)視頻特征進(jìn)行相似度計(jì)算，得到第一相似度權(quán)重；

69、第二計(jì)算模塊，用于對(duì)跨模態(tài)處理后的所述訓(xùn)練用語(yǔ)音特征與訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行相似度計(jì)算，得到第二相似度權(quán)重；

70、第三計(jì)算模塊，用于將所述第一相似度權(quán)重及所述訓(xùn)練用先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理，得到所述訓(xùn)練用多模態(tài)視聽(tīng)特征。

71、可選的，所述跨模態(tài)處理模塊還用于：

72、將所述訓(xùn)練用語(yǔ)音特征映射至訓(xùn)練用映射網(wǎng)絡(luò)，得到第一特征向量；

73、將所述訓(xùn)練用視頻特征映射至所述訓(xùn)練用映射網(wǎng)絡(luò)，得到第二特征向量；

74、基于所述模態(tài)分類(lèi)器，對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理。

75、可選的，所述裝置還包括：

76、第一計(jì)算單元，用于計(jì)算所述第一特征向量及所述第二特征向量之間的第一特征距離；

77、第二計(jì)算單元，用于在對(duì)所述第一特征向量及所述第二特征向量進(jìn)行跨模態(tài)處理后，計(jì)算分類(lèi)損失；

78、第二確定單元，用于基于所述第一特征距離及所述分類(lèi)損失，確定所述模態(tài)分類(lèi)器是否訓(xùn)練完成。

79、可選的，所述第一確定單元包括：

80、第四計(jì)算模塊，用于對(duì)所述訓(xùn)練用先驗(yàn)語(yǔ)音特征及所述第二相似度權(quán)重進(jìn)行加權(quán)求和處理，得到偽語(yǔ)音特征；

81、第五計(jì)算模塊，用于計(jì)算所述偽語(yǔ)音特征與所述訓(xùn)練用語(yǔ)音特征之間的第二特征距離；

82、第六計(jì)算模塊，用于計(jì)算所述第一相似度權(quán)重及所述第二相似度權(quán)重之間的k-l散度；

83、生成模塊，用于根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征，生成第二梅爾譜圖；

84、第七計(jì)算模塊，用于基于所述第一梅爾譜圖及所述第二梅爾譜圖，計(jì)算第一損失函數(shù)；

85、第八計(jì)算模塊，用于計(jì)算所述預(yù)設(shè)損失函數(shù)，其中，所述預(yù)設(shè)損失函數(shù)為所述第一損失函數(shù)、所述第一特征距離、所述第二特征距離、所述k-l散度的和減去所述分類(lèi)損失；

86、確定模塊，用于根據(jù)所述預(yù)設(shè)損失函數(shù)的計(jì)算結(jié)果，確定所述語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。

87、可選的，所述第七計(jì)算模塊還用于：

88、基于所述第一梅爾譜圖、第一預(yù)測(cè)梅爾譜圖、所述第二梅爾譜圖，計(jì)算第二損失函數(shù)；

89、基于所述第一梅爾譜圖、第二預(yù)測(cè)梅爾譜圖、第三梅爾譜圖，計(jì)算第三損失函數(shù)；

90、將所述第二損失函數(shù)及所述第三損失函數(shù)相加，得到所述第一損失函數(shù)。

91、可選的，所述裝置還包括：

92、第一裁剪單元，用于在將訓(xùn)練用語(yǔ)音視頻輸入視頻編碼器進(jìn)行特征提取之前，將所述訓(xùn)練用語(yǔ)音視頻中的人像進(jìn)行裁剪對(duì)齊處理。

93、根據(jù)本公開(kāi)的第四方面，提供了一種語(yǔ)音唇讀識(shí)別的裝置，所述裝置包括：

94、提取單元，用于將待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取，得到視頻特征；

95、第一生成單元，用于將所述視頻特征輸入跨模態(tài)對(duì)抗記憶模塊，生成多模態(tài)視聽(tīng)特征；

96、第二生成單元，用于利用語(yǔ)音解碼器對(duì)所述多模態(tài)視聽(tīng)特征進(jìn)行特征重建，生成第四梅爾譜圖；

97、轉(zhuǎn)換單元，用于基于聲碼器，對(duì)所述第四梅爾譜圖進(jìn)行轉(zhuǎn)換處理得到語(yǔ)音唇讀識(shí)別的語(yǔ)音。

98、可選的，所述第一生成單元包括：

99、第九計(jì)算模塊，用于計(jì)算所述視頻特征與所述鍵記憶中儲(chǔ)存的先驗(yàn)視頻特征之間的尋址相似度；所述跨模態(tài)對(duì)抗記憶模塊還包括模態(tài)分類(lèi)器、鍵記憶與值記憶；

100、查找模塊，用于基于所述尋址相似度，查找所述值記憶中對(duì)應(yīng)的先驗(yàn)語(yǔ)音特征；

101、第十計(jì)算模塊，用于將所述視頻特征與所述先驗(yàn)語(yǔ)音特征進(jìn)行加權(quán)求和處理，得到所述多模態(tài)視聽(tīng)特征。

102、可選的，所述裝置還包括：

103、第二裁剪單元，用于在將所述待識(shí)別視頻輸入視頻編碼器進(jìn)行特征提取之前，將所述待識(shí)別視頻中的人像進(jìn)行裁剪對(duì)齊處理。

104、根據(jù)本公開(kāi)的第五方面，提供了一種電子設(shè)備，包括：

105、至少一個(gè)處理器；以及

106、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，

107、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器能夠執(zhí)行前述第一方面和/或第二方面所述的方法。

108、根據(jù)本公開(kāi)的第六方面，提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中，所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行前述第一方面和/或第二方面所述的方法。

109、根據(jù)本公開(kāi)的第七方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述第一方面和/或第二方面所述的方法。

110、本公開(kāi)提供了一種語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備，將訓(xùn)練用語(yǔ)音視頻分別輸入視頻編碼器及語(yǔ)音編碼器進(jìn)行特征提取，得到訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征；將所述訓(xùn)練用語(yǔ)音特征及所述訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊，生成訓(xùn)練用多模態(tài)視聽(tīng)特征；根據(jù)所述訓(xùn)練用多模態(tài)視聽(tīng)特征及預(yù)設(shè)損失函數(shù)，確定語(yǔ)音唇讀識(shí)別模型是否訓(xùn)練完成。與相關(guān)技術(shù)相比，本公開(kāi)通過(guò)將提取到的訓(xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征輸入跨模態(tài)對(duì)抗記憶模塊，進(jìn)行跨模態(tài)處理；能夠?qū)⒂?xùn)練用語(yǔ)音特征及訓(xùn)練用視頻特征更好的融合，獲取到更多的關(guān)于語(yǔ)音特征與視頻特征之間的關(guān)聯(lián)關(guān)系信息，進(jìn)而能夠提高模型的泛化識(shí)別能力。

111、應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本技術(shù)的實(shí)施例的關(guān)鍵或重要特征，也不用于限制本技術(shù)的范圍。本技術(shù)的其它特征將通過(guò)以下的說(shuō)明書(shū)而變得容易理解。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曾瑞
技術(shù)所有人：中國(guó)移動(dòng)通信集團(tuán)湖南有限公司
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備與流程

語(yǔ)音唇讀識(shí)別的方法及模型的訓(xùn)練方法、裝置、電子設(shè)備與流程