本發(fā)明涉及視頻合成,更具體地說,它涉及一種高保真度實(shí)時(shí)渲染的視頻合成方法及系統(tǒng)。
背景技術(shù):
1、當(dāng)前,視頻合成技術(shù)主要依賴于傳統(tǒng)的計(jì)算機(jī)圖形學(xué)方法和一些初步的機(jī)器學(xué)習(xí)技術(shù)。這些技術(shù)在處理靜態(tài)圖像和簡(jiǎn)單動(dòng)畫時(shí)表現(xiàn)尚可,但在處理復(fù)雜的動(dòng)態(tài)視頻,尤其是需要實(shí)時(shí)渲染和高保真度的人像視頻時(shí),面臨諸多挑戰(zhàn)。首先,現(xiàn)有技術(shù)在實(shí)時(shí)渲染方面往往力不從心。在需要快速響應(yīng)的應(yīng)用場(chǎng)景,如直播或?qū)崟r(shí)視頻通訊中,傳統(tǒng)方法可能無(wú)法及時(shí)完成高質(zhì)量的圖像渲染。其次,盡管一些系統(tǒng)能夠?qū)崿F(xiàn)人像的提取和合成,但它們通常需要大量的計(jì)算資源和復(fù)雜的設(shè)置,這限制了其在資源受限的設(shè)備上的應(yīng)用。再者,現(xiàn)有技術(shù)在處理不同光照條件、復(fù)雜背景和動(dòng)態(tài)表情變化時(shí),往往難以保持高保真的渲染效果。此外,大多數(shù)系統(tǒng)專注于單一語(yǔ)種或特定類型的視頻內(nèi)容,缺乏對(duì)多語(yǔ)種和多樣化視頻內(nèi)容的適應(yīng)性。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述問題,本發(fā)明提供了一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng)。該系統(tǒng)采用先進(jìn)的深度學(xué)習(xí)算法,特別是神經(jīng)輻射場(chǎng)(nerf)技術(shù),以實(shí)現(xiàn)從少量樣本中快速學(xué)習(xí)和模擬特定視頻中的人像特征。通過優(yōu)化的數(shù)據(jù)處理流程和實(shí)時(shí)渲染技術(shù),本系統(tǒng)能夠在保持高保真度的同時(shí),實(shí)現(xiàn)快速響應(yīng)和實(shí)時(shí)渲染,顯著提升了視頻合成的效率和質(zhì)量。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
3、一種高保真度實(shí)時(shí)渲染的視頻合成方法,包括如下步驟:
4、d1:采集視頻素材;
5、d2:對(duì)采集的視頻素材進(jìn)行預(yù)處理;
6、d3:將視頻素材中的音頻分離出來,并進(jìn)行降噪和增強(qiáng)處理;
7、d4:對(duì)視頻素材的視頻流進(jìn)行關(guān)鍵幀的提??;
8、d5:通過機(jī)器學(xué)習(xí)算法分析唇部動(dòng)作與語(yǔ)音之間的關(guān)聯(lián),訓(xùn)練出模擬人物頭部特征的模型;
9、d6:獲取訓(xùn)練出的頭部特征以及關(guān)鍵幀,使用計(jì)算機(jī)視覺技術(shù)提取人物的軀干關(guān)鍵點(diǎn),訓(xùn)練出感知并模擬人物軀干動(dòng)作的模型;
10、d7:采集待合成的音頻信號(hào);
11、d8:對(duì)待合成的音頻信號(hào)進(jìn)行預(yù)處理;
12、d9:獲取訓(xùn)練得到的頭部特征信息,并傳輸至推理渲染器s8;
13、d10:獲取訓(xùn)練得到的軀干感知特征信息,并傳輸至推理渲染器s8;
14、d11:根據(jù)待合成的音頻信號(hào)、頭部特征信息和軀干感知特征信息,使用先進(jìn)的神經(jīng)輻射場(chǎng)技術(shù)進(jìn)行實(shí)時(shí)渲染。
15、進(jìn)一步的,一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),包括視頻采集器s1:實(shí)時(shí)采集目標(biāo)視頻樣本;
16、視頻處理器s2:接收視頻采集器s1采集的視頻數(shù)據(jù),將其分解為音頻流和視頻流,并基于視頻流獲取關(guān)鍵幀;
17、語(yǔ)音轉(zhuǎn)唇部動(dòng)作模型s3:采用生成對(duì)抗網(wǎng)絡(luò),將音頻信號(hào)轉(zhuǎn)換為唇部動(dòng)作序列;
18、頭部訓(xùn)練器s4:基于三維形變模型,頭部訓(xùn)練器s4從關(guān)鍵幀中提取頭部的姿態(tài)和表情特征;
19、軀干感知器s5:通過分析關(guān)鍵幀中人物的軀干區(qū)域,提取軀干的關(guān)鍵點(diǎn);
20、軀干預(yù)測(cè)模型s6:采用長(zhǎng)短期記憶網(wǎng)絡(luò),軀干預(yù)測(cè)模型s6基于軀干感知器s5的輸出預(yù)測(cè)未來幀中軀干的動(dòng)作;
21、音頻輸入器s7:作為音頻輸入接口,s7音頻輸入器負(fù)責(zé)接收用戶的音頻輸入;
22、推理渲染器s8:是核心渲染模塊,它結(jié)合了頭部訓(xùn)練器s4、軀干感知器s5、軀干預(yù)測(cè)模型s7的輸出,使用神經(jīng)輻射場(chǎng)技術(shù)生成逼真的3d視頻輸出。
23、進(jìn)一步的,基于視頻流獲取關(guān)鍵幀,具體為:將視頻流轉(zhuǎn)換成多個(gè)視頻影像幀,將所有視頻影像幀按照時(shí)間順序依次排序,將排序后相鄰的兩個(gè)視頻影像幀打包為對(duì)比影像幀組,獲取對(duì)比影像幀組的動(dòng)作狀態(tài)變值,設(shè)置動(dòng)作狀態(tài)高變值與動(dòng)作狀態(tài)低變值;
24、當(dāng)動(dòng)作狀態(tài)變值大于等于動(dòng)作狀態(tài)高變值時(shí),將該對(duì)比影像幀組的狀態(tài)標(biāo)記為高波動(dòng)狀態(tài);
25、當(dāng)動(dòng)作狀態(tài)變值小于等于動(dòng)作狀態(tài)低變值時(shí),將該對(duì)比影像幀組的狀態(tài)標(biāo)記為穩(wěn)定狀態(tài);
26、當(dāng)動(dòng)作狀態(tài)變值介于動(dòng)作狀態(tài)高變值與動(dòng)作狀態(tài)低變值之間時(shí),將該對(duì)比影像幀組的狀態(tài)標(biāo)記低波動(dòng)狀態(tài);
27、獲取視頻流的關(guān)鍵幀提取值,設(shè)置關(guān)鍵幀提取閾值,當(dāng)關(guān)鍵幀提取值大于等于關(guān)鍵幀提取閾值時(shí),將所有視頻影像幀標(biāo)記為關(guān)鍵幀,當(dāng)關(guān)鍵幀提取值小于關(guān)鍵幀提取閾值時(shí),從視頻影像幀中抽取設(shè)定比例的視頻影像幀標(biāo)記為關(guān)鍵幀。
28、進(jìn)一步的,視頻流的關(guān)鍵幀提取值通過下述方式獲取得到:獲取高波動(dòng)狀態(tài)的對(duì)比影像幀組的總數(shù)量并標(biāo)記為tws,將所有對(duì)比影像幀組按照時(shí)間先后順序進(jìn)行排序,當(dāng)排序后相鄰兩個(gè)對(duì)比影像幀組的狀態(tài)不同時(shí),不做相應(yīng)處理,當(dāng)排序后相鄰兩個(gè)對(duì)比影像幀組的狀態(tài)相同時(shí),將連續(xù)穩(wěn)定次數(shù)增加一次,將連續(xù)穩(wěn)定次數(shù)進(jìn)行求和處理,得到連續(xù)穩(wěn)定總次數(shù)并標(biāo)記為rkm,利用公式得到該視頻流的關(guān)鍵幀提取值gpy,其中,a1為高波動(dòng)狀態(tài)總數(shù)量系數(shù),a2為連續(xù)穩(wěn)定總次數(shù)系數(shù)。
29、進(jìn)一步的,對(duì)比影像幀組的動(dòng)作狀態(tài)變值通過下述方式獲取得到:將對(duì)比影像幀組作為動(dòng)作狀態(tài)分析模型的輸入數(shù)據(jù),輸出得到動(dòng)作狀態(tài)變值。
30、進(jìn)一步的,動(dòng)作狀態(tài)分析模型通過下述方式獲取得到:獲取多個(gè)對(duì)比影像幀組,將對(duì)比影像幀組作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練數(shù)據(jù),對(duì)訓(xùn)練數(shù)據(jù)賦予動(dòng)作狀態(tài)變值,動(dòng)作狀態(tài)變值的取值范圍為[0~10),將訓(xùn)練數(shù)據(jù)按照設(shè)定比例劃分成訓(xùn)練集和驗(yàn)證集,對(duì)訓(xùn)練集和驗(yàn)證集進(jìn)行神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練,訓(xùn)練完成后得到動(dòng)作狀態(tài)分析模型,動(dòng)作狀態(tài)變值的數(shù)值越大,表示該人物主體在兩個(gè)視頻影像幀中的頭部狀態(tài)、軀干狀態(tài)變化越大,動(dòng)作狀態(tài)變值的數(shù)值越小,表示該人物主體在兩個(gè)視頻影像幀中的頭部狀態(tài)、軀干狀態(tài)變化越小。
31、進(jìn)一步的,語(yǔ)音轉(zhuǎn)唇部動(dòng)作模型s3包括一個(gè)生成器網(wǎng)絡(luò),它接受音頻特征作為條件輸入,并輸出相應(yīng)的唇部動(dòng)作參數(shù),同時(shí),一個(gè)判別器網(wǎng)絡(luò)用于評(píng)估生成的唇部動(dòng)作與真實(shí)數(shù)據(jù)的一致性,通過對(duì)抗過程,生成器學(xué)習(xí)生成逼真的唇部動(dòng)作,以實(shí)現(xiàn)與輸入音頻的高度同步。
32、進(jìn)一步的,通過監(jiān)督學(xué)習(xí)方法,頭部訓(xùn)練器能夠模擬頭部的動(dòng)態(tài)變化,包括頭部旋轉(zhuǎn)、傾斜以及復(fù)雜的表情變化,頭部訓(xùn)練器s4輸出頭部的三維姿態(tài)信息。
33、與現(xiàn)有技術(shù)相比,本發(fā)明具備以下有益效果:
34、1、本發(fā)明的方法通過精確的音頻處理和頭部、軀干特征的精確提供,實(shí)現(xiàn)了音頻與視頻的高度同步,利用先進(jìn)的nerf技術(shù),合成的人物動(dòng)作逼真,包括唇部動(dòng)作、面部表情和全身動(dòng)作,通過音色提取、轉(zhuǎn)換、嵌入和合成等步驟,本發(fā)明能夠復(fù)制特定說話者的音色特征,提供個(gè)性化的語(yǔ)音輸出,本發(fā)明的方法具備實(shí)時(shí)渲染能力,適合于需要快速響應(yīng)的應(yīng)用場(chǎng)景,如直播、視頻會(huì)議等,同時(shí)支持高分辨率視頻流的生成,提供了清晰的圖像細(xì)節(jié);
35、2、通過本發(fā)明的關(guān)鍵幀提取方法,可以對(duì)視頻流中的視頻影響幀進(jìn)行快速的分析,根據(jù)不同行為動(dòng)作的快速選取有訓(xùn)練價(jià)值的關(guān)鍵幀,降低關(guān)鍵幀的提取難度,同時(shí)保證關(guān)鍵幀的合理提取。
1.一種高保真度實(shí)時(shí)渲染的視頻合成方法,其特征在于,包括如下步驟:
2.一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),應(yīng)用于權(quán)利要求1所述的一種高保真度實(shí)時(shí)渲染的視頻合成方法,其特征在于,包括視頻采集器s1:實(shí)時(shí)采集目標(biāo)視頻樣本;
3.根據(jù)權(quán)利要求2所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,基于視頻流獲取關(guān)鍵幀,具體為:將視頻流轉(zhuǎn)換成多個(gè)視頻影像幀,將所有視頻影像幀按照時(shí)間順序依次排序,將排序后相鄰的兩個(gè)視頻影像幀打包為對(duì)比影像幀組,獲取對(duì)比影像幀組的動(dòng)作狀態(tài)變值,設(shè)置動(dòng)作狀態(tài)高變值與動(dòng)作狀態(tài)低變值;
4.根據(jù)權(quán)利要求3所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,視頻流的關(guān)鍵幀提取值通過下述方式獲取得到:獲取高波動(dòng)狀態(tài)的對(duì)比影像幀組的總數(shù)量并標(biāo)記為tws,將所有對(duì)比影像幀組按照時(shí)間先后順序進(jìn)行排序,當(dāng)排序后相鄰兩個(gè)對(duì)比影像幀組的狀態(tài)不同時(shí),不做相應(yīng)處理,當(dāng)排序后相鄰兩個(gè)對(duì)比影像幀組的狀態(tài)相同時(shí),將連續(xù)穩(wěn)定次數(shù)增加一次,將連續(xù)穩(wěn)定次數(shù)進(jìn)行求和處理,得到連續(xù)穩(wěn)定總次數(shù)并標(biāo)記為rkm,利用公式得到該視頻流的關(guān)鍵幀提取值gpy,其中,a1為高波動(dòng)狀態(tài)總數(shù)量系數(shù),a2為連續(xù)穩(wěn)定總次數(shù)系數(shù)。
5.根據(jù)權(quán)利要求3所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,對(duì)比影像幀組的動(dòng)作狀態(tài)變值通過下述方式獲取得到:將對(duì)比影像幀組作為動(dòng)作狀態(tài)分析模型的輸入數(shù)據(jù),輸出得到動(dòng)作狀態(tài)變值。
6.根據(jù)權(quán)利要求5所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,動(dòng)作狀態(tài)分析模型通過下述方式獲取得到:獲取多個(gè)對(duì)比影像幀組,將對(duì)比影像幀組作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練數(shù)據(jù),對(duì)訓(xùn)練數(shù)據(jù)賦予動(dòng)作狀態(tài)變值,動(dòng)作狀態(tài)變值的取值范圍為[0~10),將訓(xùn)練數(shù)據(jù)按照設(shè)定比例劃分成訓(xùn)練集和驗(yàn)證集,對(duì)訓(xùn)練集和驗(yàn)證集進(jìn)行神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練,訓(xùn)練完成后得到動(dòng)作狀態(tài)分析模型,動(dòng)作狀態(tài)變值的數(shù)值越大,表示該人物主體在兩個(gè)視頻影像幀中的頭部狀態(tài)、軀干狀態(tài)變化越大,動(dòng)作狀態(tài)變值的數(shù)值越小,表示該人物主體在兩個(gè)視頻影像幀中的頭部狀態(tài)、軀干狀態(tài)變化越小。
7.根據(jù)權(quán)利要求2所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,語(yǔ)音轉(zhuǎn)唇部動(dòng)作模型s3包括一個(gè)生成器網(wǎng)絡(luò),它接受音頻特征作為條件輸入,并輸出相應(yīng)的唇部動(dòng)作參數(shù),同時(shí),一個(gè)判別器網(wǎng)絡(luò)用于評(píng)估生成的唇部動(dòng)作與真實(shí)數(shù)據(jù)的一致性,通過對(duì)抗過程,生成器學(xué)習(xí)生成逼真的唇部動(dòng)作,以實(shí)現(xiàn)與輸入音頻的高度同步。
8.根據(jù)權(quán)利要求2所述的一種高保真度實(shí)時(shí)渲染的視頻合成系統(tǒng),其特征在于,通過監(jiān)督學(xué)習(xí)方法,頭部訓(xùn)練器能夠模擬頭部的動(dòng)態(tài)變化,包括頭部旋轉(zhuǎn)、傾斜以及復(fù)雜的表情變化,頭部訓(xùn)練器s4輸出頭部的三維姿態(tài)信息。