語音唇讀識別的方法及模型的訓練方法、裝置、電子設備與流程

文檔序號：39726051發(fā)布日期：2024-10-22 13:25閱讀：來源：國知局

技術(shù)特征：

1.一種語音唇讀識別模型的訓練方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述跨模態(tài)對抗記憶模塊包括鍵記憶與值記憶，所述方法還包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將訓練用語音視頻分別輸入視頻編碼器及語音編碼器進行特征提取，得到訓練用語音特征及訓練用視頻特征，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述跨模態(tài)對抗記憶模塊還包括模態(tài)分類器；

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述將所述訓練用語音特征及所述訓練用視頻特征輸入所述模態(tài)分類器進行跨模態(tài)處理，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述方法還包括：

7.根據(jù)權(quán)利要求1-6中任一項所述的方法，其特征在于，所述根據(jù)所述訓練用多模態(tài)視聽特征及預設損失函數(shù)，確定語音唇讀識別模型是否訓練完成，包括：

8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述基于所述第一梅爾譜圖及所述第二梅爾譜圖，計算第一損失函數(shù)，包括：

9.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

10.一種語音唇讀識別的方法，其特征在于，所述方法包括：

11.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述跨模態(tài)對抗記憶模塊還包括模態(tài)分類器、鍵記憶與值記憶；

12.根據(jù)權(quán)利要求10所述的方法，其特征在于，所述方法還包括：

13.一種語音唇讀識別模型的訓練裝置，其特征在于，所述裝置包括：

14.一種語音唇讀識別的裝置，其特征在于，所述裝置包括：

15.一種電子設備，其特征在于，包括：

16.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì)，其特征在于，所述計算機指令用于使所述計算機執(zhí)行根據(jù)權(quán)利要求1-12中任一項所述的方法。

17.一種計算機程序產(chǎn)品，其特征在于，包括計算機程序，所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-12中任一項所述的方法。

技術(shù)總結(jié)
本公開提供了一種語音唇讀識別的方法及模型的訓練方法、裝置、電子設備，將訓練用語音視頻分別輸入視頻編碼器及語音編碼器進行特征提取，得到訓練用語音特征及訓練用視頻特征；將所述訓練用語音特征及所述訓練用視頻特征輸入跨模態(tài)對抗記憶模塊，生成訓練用多模態(tài)視聽特征；根據(jù)所述訓練用多模態(tài)視聽特征及預設損失函數(shù)，確定語音唇讀識別模型是否訓練完成。與相關(guān)技術(shù)相比，本公開通過將提取到的訓練用語音特征及訓練用視頻特征輸入跨模態(tài)對抗記憶模塊，進行跨模態(tài)處理；能夠?qū)⒂柧氂谜Z音特征及訓練用視頻特征更好的融合，獲取到更多的關(guān)于語音特征與視頻特征之間的關(guān)聯(lián)關(guān)系信息，進而能夠提高模型的泛化識別能力。

技術(shù)研發(fā)人員：曾瑞
受保護的技術(shù)使用者：中國移動通信集團湖南有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/10/21

完整全部詳細技術(shù)資料下載

當前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

語音唇讀識別的方法及模型的訓練方法、裝置、電子設備與流程

語音唇讀識別的方法及模型的訓練方法、裝置、電子設備與流程