午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種高保真度實(shí)時(shí)渲染的視頻合成方法及系統(tǒng)與流程

文檔序號(hào):39726749發(fā)布日期:2024-10-22 13:27閱讀:1來源:國(guó)知局
一種高保真度實(shí)時(shí)渲染的視頻合成方法及系統(tǒng)與流程

本發(fā)明涉及視頻合成,更具體地說,它涉及一種高保真度實(shí)時(shí)渲染的視頻合成方法及系統(tǒng)。


背景技術(shù):

1、當(dāng)前,視頻合成技術(shù)主要依賴于傳統(tǒng)的計(jì)算機(jī)圖形學(xué)方法和一些初步的機(jī)器學(xué)習(xí)技術(shù)。這些技術(shù)在處理靜態(tài)圖像和簡(jiǎn)單動(dòng)畫時(shí)表現(xiàn)尚可,但在處理復(fù)雜的動(dòng)態(tài)視頻,尤其是需要實(shí)時(shí)渲染和高保真度的人像視頻時(shí),面臨諸多挑戰(zhàn)。首先,現(xiàn)有技術(shù)在實(shí)時(shí)渲染方面往往力不從心。在需要快速響應(yīng)的應(yīng)用場(chǎng)景,如直播或?qū)崟r(shí)視頻通訊中,傳統(tǒng)方法可能無(wú)法及時(shí)完成高質(zhì)量的圖像渲染。其次,盡管一些系統(tǒng)能夠?qū)崿F(xiàn)人像的提取和合成,但它們通常需要大量的計(jì)算資源和復(fù)雜的設(shè)置,這限制了其在資源受限的設(shè)備上的應(yīng)用。再者,現(xiàn)有技術(shù)在處理不同光照條件、復(fù)雜背景和動(dòng)態(tài)表情變化時(shí),往往難以保持高保真的渲染效果。此外,大多數(shù)系統(tǒng)專注于單一語(yǔ)種或特定類型的視頻內(nèi)容,缺乏對(duì)多語(yǔ)種和多樣化視頻內(nèi)容的適應(yīng)性。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)上述問題,本發(fā)明提供了一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng)。該系統(tǒng)采用先進(jìn)的深度學(xué)習(xí)算法,特別是神經(jīng)輻射場(chǎng)(nerf)技術(shù),以實(shí)現(xiàn)從少量樣本中快速學(xué)習(xí)和模擬特定視頻中的人像特征。通過優(yōu)化的數(shù)據(jù)處理流程和實(shí)時(shí)渲染技術(shù),本系統(tǒng)能夠在保持高保真度的同時(shí),實(shí)現(xiàn)快速響應(yīng)和實(shí)時(shí)渲染,顯著提升了視頻合成的效率和質(zhì)量。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:

3、一種高保真度實(shí)時(shí)渲染的視頻合成方法,包括如下步驟:

4、d1:采集視頻素材;

5、d2:對(duì)采集的視頻素材進(jìn)行預(yù)處理;

6、d3:將視頻素材中的音頻分離出來,并進(jìn)行降噪和增強(qiáng)處理;

7、d4:對(duì)視頻素材的視頻流進(jìn)行關(guān)鍵幀的提??;

8、d5:通過機(jī)器學(xué)習(xí)算法分析唇部動(dòng)作與語(yǔ)音之間的關(guān)聯(lián),訓(xùn)練出模擬人物頭部特征的模型;

9、d6:獲取訓(xùn)練出的頭部特征以及關(guān)鍵幀,使用計(jì)算機(jī)視覺技術(shù)提取人物的軀干關(guān)鍵點(diǎn),訓(xùn)練出感知并模擬人物軀干動(dòng)作的模型;

10、d7:采集待合成的音頻信號(hào);

11、d8:對(duì)待合成的音頻信號(hào)進(jìn)行預(yù)處理;

12、d9:獲取訓(xùn)練得到的頭部特征信息,并傳輸至推理渲染器s8;

13、d10:獲取訓(xùn)練得到的軀干感知特征信息,并傳輸至推理渲染器s8;

14、d11:根據(jù)待合成的音頻信號(hào)、頭部特征信息和軀干感知特征信息,使用先進(jìn)的神經(jīng)輻射場(chǎng)技術(shù)進(jìn)行實(shí)時(shí)渲染。

15、進(jìn)一步的,一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),包括視頻采集器s1:實(shí)時(shí)采集目標(biāo)視頻樣本;

16、視頻處理器s2:接收視頻采集器s1采集的視頻數(shù)據(jù),將其分解為音頻流和視頻流,并基于視頻流獲取關(guān)鍵幀;

17、語(yǔ)音轉(zhuǎn)唇部動(dòng)作模型s3:采用生成對(duì)抗網(wǎng)絡(luò),將音頻信號(hào)轉(zhuǎn)換為唇部動(dòng)作序列;

18、頭部訓(xùn)練器s4:基于三維形變模型,頭部訓(xùn)練器s4從關(guān)鍵幀中提取頭部的姿態(tài)和表情特征;

19、軀干感知器s5:通過分析關(guān)鍵幀中人物的軀干區(qū)域,提取軀干的關(guān)鍵點(diǎn);

20、軀干預(yù)測(cè)模型s6:采用長(zhǎng)短期記憶網(wǎng)絡(luò),軀干預(yù)測(cè)模型s6基于軀干感知器s5的輸出預(yù)測(cè)未來幀中軀干的動(dòng)作;

21、音頻輸入器s7:作為音頻輸入接口,s7音頻輸入器負(fù)責(zé)接收用戶的音頻輸入;

22、推理渲染器s8:是核心渲染模塊,它結(jié)合了頭部訓(xùn)練器s4、軀干感知器s5、軀干預(yù)測(cè)模型s7的輸出,使用神經(jīng)輻射場(chǎng)技術(shù)生成逼真的3d視頻輸出。

23、進(jìn)一步的,基于視頻流獲取關(guān)鍵幀,具體為:將視頻流轉(zhuǎn)換成多個(gè)視頻影像幀,將所有視頻影像幀按照時(shí)間順序依次排序,將排序后相鄰的兩個(gè)視頻影像幀打包為對(duì)比影像幀組,獲取對(duì)比影像幀組的動(dòng)作狀態(tài)變值,設(shè)置動(dòng)作狀態(tài)高變值與動(dòng)作狀態(tài)低變值;

24、當(dāng)動(dòng)作狀態(tài)變值大于等于動(dòng)作狀態(tài)高變值時(shí),將該對(duì)比影像幀組的狀態(tài)標(biāo)記為高波動(dòng)狀態(tài);

25、當(dāng)動(dòng)作狀態(tài)變值小于等于動(dòng)作狀態(tài)低變值時(shí),將該對(duì)比影像幀組的狀態(tài)標(biāo)記為穩(wěn)定狀態(tài);

26、當(dāng)動(dòng)作狀態(tài)變值介于動(dòng)作狀態(tài)高變值與動(dòng)作狀態(tài)低變值之間時(shí),將該對(duì)比影像幀組的狀態(tài)標(biāo)記低波動(dòng)狀態(tài);

27、獲取視頻流的關(guān)鍵幀提取值,設(shè)置關(guān)鍵幀提取閾值,當(dāng)關(guān)鍵幀提取值大于等于關(guān)鍵幀提取閾值時(shí),將所有視頻影像幀標(biāo)記為關(guān)鍵幀,當(dāng)關(guān)鍵幀提取值小于關(guān)鍵幀提取閾值時(shí),從視頻影像幀中抽取設(shè)定比例的視頻影像幀標(biāo)記為關(guān)鍵幀。

28、進(jìn)一步的,視頻流的關(guān)鍵幀提取值通過下述方式獲取得到:獲取高波動(dòng)狀態(tài)的對(duì)比影像幀組的總數(shù)量并標(biāo)記為tws,將所有對(duì)比影像幀組按照時(shí)間先后順序進(jìn)行排序,當(dāng)排序后相鄰兩個(gè)對(duì)比影像幀組的狀態(tài)不同時(shí),不做相應(yīng)處理,當(dāng)排序后相鄰兩個(gè)對(duì)比影像幀組的狀態(tài)相同時(shí),將連續(xù)穩(wěn)定次數(shù)增加一次,將連續(xù)穩(wěn)定次數(shù)進(jìn)行求和處理,得到連續(xù)穩(wěn)定總次數(shù)并標(biāo)記為rkm,利用公式得到該視頻流的關(guān)鍵幀提取值gpy,其中,a1為高波動(dòng)狀態(tài)總數(shù)量系數(shù),a2為連續(xù)穩(wěn)定總次數(shù)系數(shù)。

29、進(jìn)一步的,對(duì)比影像幀組的動(dòng)作狀態(tài)變值通過下述方式獲取得到:將對(duì)比影像幀組作為動(dòng)作狀態(tài)分析模型的輸入數(shù)據(jù),輸出得到動(dòng)作狀態(tài)變值。

30、進(jìn)一步的,動(dòng)作狀態(tài)分析模型通過下述方式獲取得到:獲取多個(gè)對(duì)比影像幀組,將對(duì)比影像幀組作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練數(shù)據(jù),對(duì)訓(xùn)練數(shù)據(jù)賦予動(dòng)作狀態(tài)變值,動(dòng)作狀態(tài)變值的取值范圍為[0~10),將訓(xùn)練數(shù)據(jù)按照設(shè)定比例劃分成訓(xùn)練集和驗(yàn)證集,對(duì)訓(xùn)練集和驗(yàn)證集進(jìn)行神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練,訓(xùn)練完成后得到動(dòng)作狀態(tài)分析模型,動(dòng)作狀態(tài)變值的數(shù)值越大,表示該人物主體在兩個(gè)視頻影像幀中的頭部狀態(tài)、軀干狀態(tài)變化越大,動(dòng)作狀態(tài)變值的數(shù)值越小,表示該人物主體在兩個(gè)視頻影像幀中的頭部狀態(tài)、軀干狀態(tài)變化越小。

31、進(jìn)一步的,語(yǔ)音轉(zhuǎn)唇部動(dòng)作模型s3包括一個(gè)生成器網(wǎng)絡(luò),它接受音頻特征作為條件輸入,并輸出相應(yīng)的唇部動(dòng)作參數(shù),同時(shí),一個(gè)判別器網(wǎng)絡(luò)用于評(píng)估生成的唇部動(dòng)作與真實(shí)數(shù)據(jù)的一致性,通過對(duì)抗過程,生成器學(xué)習(xí)生成逼真的唇部動(dòng)作,以實(shí)現(xiàn)與輸入音頻的高度同步。

32、進(jìn)一步的,通過監(jiān)督學(xué)習(xí)方法,頭部訓(xùn)練器能夠模擬頭部的動(dòng)態(tài)變化,包括頭部旋轉(zhuǎn)、傾斜以及復(fù)雜的表情變化,頭部訓(xùn)練器s4輸出頭部的三維姿態(tài)信息。

33、與現(xiàn)有技術(shù)相比,本發(fā)明具備以下有益效果:

34、1、本發(fā)明的方法通過精確的音頻處理和頭部、軀干特征的精確提供,實(shí)現(xiàn)了音頻與視頻的高度同步,利用先進(jìn)的nerf技術(shù),合成的人物動(dòng)作逼真,包括唇部動(dòng)作、面部表情和全身動(dòng)作,通過音色提取、轉(zhuǎn)換、嵌入和合成等步驟,本發(fā)明能夠復(fù)制特定說話者的音色特征,提供個(gè)性化的語(yǔ)音輸出,本發(fā)明的方法具備實(shí)時(shí)渲染能力,適合于需要快速響應(yīng)的應(yīng)用場(chǎng)景,如直播、視頻會(huì)議等,同時(shí)支持高分辨率視頻流的生成,提供了清晰的圖像細(xì)節(jié);

35、2、通過本發(fā)明的關(guān)鍵幀提取方法,可以對(duì)視頻流中的視頻影響幀進(jìn)行快速的分析,根據(jù)不同行為動(dòng)作的快速選取有訓(xùn)練價(jià)值的關(guān)鍵幀,降低關(guān)鍵幀的提取難度,同時(shí)保證關(guān)鍵幀的合理提取。



技術(shù)特征:

1.一種高保真度實(shí)時(shí)渲染的視頻合成方法,其特征在于,包括如下步驟:

2.一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),應(yīng)用于權(quán)利要求1所述的一種高保真度實(shí)時(shí)渲染的視頻合成方法,其特征在于,包括視頻采集器s1:實(shí)時(shí)采集目標(biāo)視頻樣本;

3.根據(jù)權(quán)利要求2所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,基于視頻流獲取關(guān)鍵幀,具體為:將視頻流轉(zhuǎn)換成多個(gè)視頻影像幀,將所有視頻影像幀按照時(shí)間順序依次排序,將排序后相鄰的兩個(gè)視頻影像幀打包為對(duì)比影像幀組,獲取對(duì)比影像幀組的動(dòng)作狀態(tài)變值,設(shè)置動(dòng)作狀態(tài)高變值與動(dòng)作狀態(tài)低變值;

4.根據(jù)權(quán)利要求3所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,視頻流的關(guān)鍵幀提取值通過下述方式獲取得到:獲取高波動(dòng)狀態(tài)的對(duì)比影像幀組的總數(shù)量并標(biāo)記為tws,將所有對(duì)比影像幀組按照時(shí)間先后順序進(jìn)行排序,當(dāng)排序后相鄰兩個(gè)對(duì)比影像幀組的狀態(tài)不同時(shí),不做相應(yīng)處理,當(dāng)排序后相鄰兩個(gè)對(duì)比影像幀組的狀態(tài)相同時(shí),將連續(xù)穩(wěn)定次數(shù)增加一次,將連續(xù)穩(wěn)定次數(shù)進(jìn)行求和處理,得到連續(xù)穩(wěn)定總次數(shù)并標(biāo)記為rkm,利用公式得到該視頻流的關(guān)鍵幀提取值gpy,其中,a1為高波動(dòng)狀態(tài)總數(shù)量系數(shù),a2為連續(xù)穩(wěn)定總次數(shù)系數(shù)。

5.根據(jù)權(quán)利要求3所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,對(duì)比影像幀組的動(dòng)作狀態(tài)變值通過下述方式獲取得到:將對(duì)比影像幀組作為動(dòng)作狀態(tài)分析模型的輸入數(shù)據(jù),輸出得到動(dòng)作狀態(tài)變值。

6.根據(jù)權(quán)利要求5所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,動(dòng)作狀態(tài)分析模型通過下述方式獲取得到:獲取多個(gè)對(duì)比影像幀組,將對(duì)比影像幀組作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練數(shù)據(jù),對(duì)訓(xùn)練數(shù)據(jù)賦予動(dòng)作狀態(tài)變值,動(dòng)作狀態(tài)變值的取值范圍為[0~10),將訓(xùn)練數(shù)據(jù)按照設(shè)定比例劃分成訓(xùn)練集和驗(yàn)證集,對(duì)訓(xùn)練集和驗(yàn)證集進(jìn)行神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練,訓(xùn)練完成后得到動(dòng)作狀態(tài)分析模型,動(dòng)作狀態(tài)變值的數(shù)值越大,表示該人物主體在兩個(gè)視頻影像幀中的頭部狀態(tài)、軀干狀態(tài)變化越大,動(dòng)作狀態(tài)變值的數(shù)值越小,表示該人物主體在兩個(gè)視頻影像幀中的頭部狀態(tài)、軀干狀態(tài)變化越小。

7.根據(jù)權(quán)利要求2所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,語(yǔ)音轉(zhuǎn)唇部動(dòng)作模型s3包括一個(gè)生成器網(wǎng)絡(luò),它接受音頻特征作為條件輸入,并輸出相應(yīng)的唇部動(dòng)作參數(shù),同時(shí),一個(gè)判別器網(wǎng)絡(luò)用于評(píng)估生成的唇部動(dòng)作與真實(shí)數(shù)據(jù)的一致性,通過對(duì)抗過程,生成器學(xué)習(xí)生成逼真的唇部動(dòng)作,以實(shí)現(xiàn)與輸入音頻的高度同步。

8.根據(jù)權(quán)利要求2所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,通過監(jiān)督學(xué)習(xí)方法,頭部訓(xùn)練器能夠模擬頭部的動(dòng)態(tài)變化,包括頭部旋轉(zhuǎn)、傾斜以及復(fù)雜的表情變化,頭部訓(xùn)練器s4輸出頭部的三維姿態(tài)信息。


技術(shù)總結(jié)
本發(fā)明公開了一種高保真度實(shí)時(shí)渲染的視頻合成方法及系統(tǒng),涉及視頻合成技術(shù)領(lǐng)域,本發(fā)明的方法通過精確的音頻處理和頭部、軀干特征的精確提供,實(shí)現(xiàn)了音頻與視頻的高度同步,利用先進(jìn)的NeRF技術(shù),合成的人物動(dòng)作逼真,包括唇部動(dòng)作、面部表情和全身動(dòng)作,通過音色提取、轉(zhuǎn)換、嵌入和合成等步驟,本發(fā)明能夠復(fù)制特定說話者的音色特征,提供個(gè)性化的語(yǔ)音輸出,本發(fā)明的方法具備實(shí)時(shí)渲染能力,適合于需要快速響應(yīng)的應(yīng)用場(chǎng)景,如直播、視頻會(huì)議等,同時(shí)支持高分辨率視頻流的生成,提供了清晰的圖像細(xì)節(jié)。

技術(shù)研發(fā)人員:劉瑾,劉泓毅,舒一展,韋懿倫
受保護(hù)的技術(shù)使用者:愛匯葆力(廣州)數(shù)據(jù)科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1