午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

數(shù)據(jù)生成方法、裝置、產(chǎn)品、設備和介質(zhì)與流程

文檔序號:39526763發(fā)布日期:2024-09-27 17:03閱讀:42來源:國知局
數(shù)據(jù)生成方法、裝置、產(chǎn)品、設備和介質(zhì)與流程

本技術(shù)涉及人工智能的,尤其涉及一種數(shù)據(jù)生成方法、裝置、產(chǎn)品、設備和介質(zhì)。


背景技術(shù):

1、隨著人工智能技術(shù)的越發(fā)成熟,通過人工智能技術(shù)所能實現(xiàn)的技術(shù)場景也越來越多,如可以通過人工智能技術(shù)來生成用戶模擬進行說話的視頻。

2、現(xiàn)有應用中,可以通過采集的一些說話人臉畫面的樣本對判別器網(wǎng)絡進行訓練,以通過訓練得到的判別器網(wǎng)絡來生成用戶模擬進行說話的視頻,但通過此種方式訓練得到的判別器網(wǎng)絡是按照每幀的單位分別生成視頻的每幀視頻畫面的,生成的每幀視頻畫面之間很大可能并不連貫,且不能滿足復雜情況下的說話人臉視頻生成,導致最終生成的說話人臉視頻的效果并不好。


技術(shù)實現(xiàn)思路

1、本技術(shù)提供了一種數(shù)據(jù)生成方法、裝置、產(chǎn)品、設備和介質(zhì),可提升對第一對象的模擬視頻的生成效果。

2、本技術(shù)一方面提供了一種數(shù)據(jù)生成方法,該方法包括:

3、獲取特征集和擴散網(wǎng)絡的輸入噪聲圖,特征集包括目標圖像的圖像特征及n個指示數(shù)據(jù)的指示特征,n為正整數(shù),目標圖像中包含第一對象,n個指示數(shù)據(jù)屬于不同的數(shù)據(jù)模態(tài),n個指示數(shù)據(jù)均用于指示第一對象模擬進行語言表達的目標內(nèi)容;

4、調(diào)用擴散網(wǎng)絡在特征集的約束下,對輸入噪聲圖進行時序上的噪聲預測處理,生成m個噪聲預測特征,m個噪聲預測特征在時序上具有關聯(lián)性,m為正整數(shù);

5、基于輸入噪聲圖對m個噪聲預測特征進行轉(zhuǎn)化處理,生成第一對象的模擬視頻,模擬視頻是第一對象模擬對目標內(nèi)容進行語言表達的視頻,一個噪聲預測特征用于轉(zhuǎn)化生成模擬視頻中對應的一幀視頻畫面。

6、本技術(shù)一方面提供了一種數(shù)據(jù)生成裝置,該裝置包括:

7、獲取模塊,用于獲取特征集和擴散網(wǎng)絡的輸入噪聲圖,特征集包括目標圖像的圖像特征及n個指示數(shù)據(jù)的指示特征,n為正整數(shù),目標圖像中包含第一對象,n個指示數(shù)據(jù)屬于不同的數(shù)據(jù)模態(tài),n個指示數(shù)據(jù)均用于指示第一對象模擬進行語言表達的目標內(nèi)容;

8、預測模塊,用于調(diào)用擴散網(wǎng)絡在特征集的約束下,對輸入噪聲圖進行時序上的噪聲預測處理,生成m個噪聲預測特征,m個噪聲預測特征在時序上具有關聯(lián)性,m為正整數(shù);

9、生成模塊,用于基于輸入噪聲圖對m個噪聲預測特征進行轉(zhuǎn)化處理,生成第一對象的模擬視頻,模擬視頻是第一對象模擬對目標內(nèi)容進行語言表達的視頻,一個噪聲預測特征用于轉(zhuǎn)化生成模擬視頻中對應的一幀視頻畫面。

10、可選的,n個指示數(shù)據(jù)包括如下至少一個:

11、文本模態(tài)的文本數(shù)據(jù),音頻模態(tài)的音頻數(shù)據(jù),視頻模態(tài)的視頻數(shù)據(jù);

12、其中,視頻數(shù)據(jù)為第二對象對目標內(nèi)容進行語言表達的視頻,文本數(shù)據(jù)所描述的文本內(nèi)容和音頻數(shù)據(jù)所表達的音頻內(nèi)容均為目標內(nèi)容。

13、可選的,上述獲取模塊用于:

14、獲取n個指示數(shù)據(jù)分別對應的特征編碼網(wǎng)絡和特征映射網(wǎng)絡;

15、調(diào)用n個指示數(shù)據(jù)中的每個指示數(shù)據(jù)對應的特征編碼網(wǎng)絡,分別對每個指示數(shù)據(jù)進行特征編碼處理,生成每個指示數(shù)據(jù)的初始編碼特征;

16、調(diào)用每個指示數(shù)據(jù)對應的特征映射網(wǎng)絡,分別對每個指示數(shù)據(jù)的初始編碼特征進行特征映射處理,生成每個指示數(shù)據(jù)的指示特征;

17、其中,n個指示數(shù)據(jù)各自的初始編碼特征被對應的特征映射網(wǎng)絡映射至相同的特征維度。

18、可選的,預測模塊調(diào)用擴散網(wǎng)絡在特征集的約束下,對輸入噪聲圖進行時序上的噪聲預測處理,生成m個噪聲預測特征的方式,包括:

19、調(diào)用擴散網(wǎng)絡在目標圖像的圖像特征的約束下,生成第一對象的對象約束特征;

20、調(diào)用擴散網(wǎng)絡在對象約束特征和n個指示數(shù)據(jù)的指示特征的約束下,生成融合約束特征;

21、基于融合約束特征對輸入噪聲圖進行時序上的噪聲預測處理,生成m個噪聲預測特征。

22、可選的,n個指示數(shù)據(jù)的指示特征具有相同的特征維度;

23、預測模塊調(diào)用擴散網(wǎng)絡在對象約束特征和n個指示數(shù)據(jù)的指示特征的約束下,生成融合約束特征的方式,包括:

24、對n個指示數(shù)據(jù)的指示特征進行拼接處理,生成拼接特征;

25、調(diào)用擴散網(wǎng)絡對對象約束特征和拼接特征進行交叉學習處理,生成融合約束特征。

26、可選的,擴散網(wǎng)絡中包含時序網(wǎng)絡,融合約束特征包含m個融合子特征;

27、預測模塊基于融合約束特征對輸入噪聲圖進行時序上的噪聲預測處理,生成m個噪聲預測特征的方式,包括:

28、調(diào)用時序網(wǎng)絡在時序上對m個融合子特征進行特征交互學習,生成m個噪聲預測特征;

29、其中,特征交互學習的過程屬于對輸入噪聲圖進行噪聲預測處理的過程,特征交互學習用于使生成的m個噪聲預測特征在時序上具有關聯(lián)性。

30、可選的,生成模塊基于輸入噪聲圖對m個噪聲預測特征進行轉(zhuǎn)化處理,生成第一對象的模擬視頻的方式,包括:

31、采用m個噪聲預測特征,生成輸入噪聲圖的m個預測噪聲圖;

32、基于輸入噪聲圖對m個預測噪聲圖進行轉(zhuǎn)化處理,生成模擬視頻。

33、可選的,生成模塊基于輸入噪聲圖對m個預測噪聲圖進行轉(zhuǎn)化處理,生成模擬視頻的方式,包括:

34、對輸入噪聲圖分別與每個預測噪聲圖進行作差處理,生成m個畫面預測特征;

35、對m個畫面預測特征分別進行特征解碼處理,生成m幀視頻畫面,一個畫面預測特征用于解碼生成一幀視頻畫面,m幀視頻畫面構(gòu)成模擬視頻;

36、其中,轉(zhuǎn)化處理包括作差處理和特征解碼處理。

37、可選的,上述數(shù)據(jù)生成裝置還包括訓練模塊,該訓練模塊用于:

38、獲取樣本特征集和參考視頻,樣本特征集包括樣本圖像的圖像特征及k個樣本指示數(shù)據(jù)的指示特征,k為正整數(shù),且k大于或等于n,k個樣本指示數(shù)據(jù)屬于不同的數(shù)據(jù)模態(tài),樣本圖像中包含第三對象,k個樣本指示數(shù)據(jù)均用于指示第三對象模擬進行語言表達的樣本內(nèi)容,參考視頻是第三對象對樣本內(nèi)容進行語言表達的視頻,參考視頻中包含l幀視頻畫面,l為正整數(shù);

39、調(diào)用初始擴散網(wǎng)絡對l幀視頻畫面進行加噪處理,生成l幀加噪視頻畫面,并調(diào)用初始擴散網(wǎng)絡在樣本特征集的約束下,對l幀加噪視頻畫面進行噪聲預測處理,生成l個樣本噪聲預測特征;

40、采用l個樣本噪聲預測特征,生成l幀加噪視頻畫面的l個樣本預測噪聲圖;

41、基于l個樣本預測噪聲圖與l幀加噪視頻畫面中所添加的噪聲之間的差異,修正初始擴散網(wǎng)絡的網(wǎng)絡參數(shù),得到擴散網(wǎng)絡。

42、可選的,上述訓練模塊調(diào)用初始擴散網(wǎng)絡在樣本特征集的約束下,對l幀加噪視頻畫面進行噪聲預測處理,生成l個樣本噪聲預測特征的方式,包括:

43、從k個樣本指示數(shù)據(jù)的指示特征中,選取用于進行噪聲預測處理的樣本指示特征;

44、調(diào)用初始擴散網(wǎng)絡在樣本圖像的圖像特征及樣本指示特征的約束下,對l幀加噪視頻畫面進行噪聲預測處理,生成l個樣本噪聲預測特征。

45、可選的,從k個樣本指示數(shù)據(jù)的指示特征中選取樣本指示特征的方式,包括如下至少一種:

46、對k個樣本指示數(shù)據(jù)的指示特征進行部分掩碼處理,以得到樣本指示特征,樣本指示特征包括k個樣本指示數(shù)據(jù)的指示特征中未被進行掩碼處理的指示特征;或者,

47、將k個樣本指示數(shù)據(jù)的指示特征均作為樣本指示特征。

48、可選的,訓練模塊基于l個樣本預測噪聲圖與l幀加噪視頻畫面中所添加的噪聲之間的差異,修正初始擴散網(wǎng)絡的網(wǎng)絡參數(shù),得到擴散網(wǎng)絡的方式,包括:

49、基于l個樣本預測噪聲圖與l幀加噪視頻畫面中所添加的噪聲,生成初始擴散網(wǎng)絡的噪聲預測損失;

50、采用噪聲預測損失修正初始擴散網(wǎng)絡的網(wǎng)絡參數(shù),得到擴散網(wǎng)絡;

51、其中,噪聲預測損失用于體現(xiàn)l個樣本預測噪聲圖與l幀加噪視頻畫面中所添加的噪聲之間的差異。

52、可選的,目標圖像和n個指示數(shù)據(jù)是由視頻客戶端所獲取并發(fā)送的;

53、上述數(shù)據(jù)生成裝置還包括發(fā)送模塊,該發(fā)送模塊用于:

54、將生成的模擬視頻返回給視頻客戶端,使視頻客戶端在客戶端界面中播放模擬視頻。

55、本技術(shù)一方面提供了一種計算機設備,包括存儲器和處理器,存儲器存儲有計算機程序,計算機程序被處理器執(zhí)行時,使得處理器執(zhí)行本技術(shù)中一方面中的方法。

56、本技術(shù)一方面提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)存儲有計算機程序,該計算機程序被處理器執(zhí)行時使該處理器執(zhí)行上述一方面中的方法。

57、根據(jù)本技術(shù)的一個方面,提供了一種計算機程序產(chǎn)品,該計算機程序產(chǎn)品包括計算機程序,該計算機程序存儲在計算機可讀存儲介質(zhì)中。計算機設備的處理器從計算機可讀存儲介質(zhì)讀取該計算機程序,處理器執(zhí)行該計算機程序,使得該計算機設備執(zhí)行上述一方面等各種可選方式中提供的方法。

58、本技術(shù)可以獲取特征集和擴散網(wǎng)絡的輸入噪聲圖,特征集包括目標圖像的圖像特征及n個指示數(shù)據(jù)的指示特征,n為正整數(shù),目標圖像中包含第一對象,n個指示數(shù)據(jù)屬于不同的數(shù)據(jù)模態(tài),n個指示數(shù)據(jù)均用于指示第一對象模擬進行語言表達的目標內(nèi)容;調(diào)用擴散網(wǎng)絡在特征集的約束下,對輸入噪聲圖進行時序上的噪聲預測處理,生成m個噪聲預測特征,m個噪聲預測特征在時序上具有關聯(lián)性,m為正整數(shù);基于輸入噪聲圖對m個噪聲預測特征進行轉(zhuǎn)化處理,生成第一對象的模擬視頻,模擬視頻是第一對象模擬對目標內(nèi)容進行語言表達的視頻,一個噪聲預測特征用于轉(zhuǎn)化生成模擬視頻中對應的一幀視頻畫面。由此可見,本技術(shù)提出的方法可以通過擴散網(wǎng)絡來生成第一對象的模擬視頻,通過該擴散網(wǎng)絡可以便于引入多個模態(tài)(如n個模態(tài))的指示數(shù)據(jù)結(jié)合上目標圖像的圖像特征,來一起約束對第一對象的模擬視頻的生成,且在生成該模擬視頻的過程中,可以通過擴散網(wǎng)絡對輸入噪聲圖進行時序上的噪聲預測處理,使得所生成的m個噪聲預測特征在時序上具有關聯(lián)性,從而,對該m個噪聲預測特征所轉(zhuǎn)化生成的模擬視頻中的各幀視頻畫面之間也可以具有畫面的連貫性,因此,采用本技術(shù)的方法可以對第一對象生成效果極佳的模擬視頻。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1