本公開涉及人工智能的,特別是涉及一種說話人日志模型訓(xùn)練、說話人日志處理方法、裝置及設(shè)備。
背景技術(shù):
1、隨著人工智能技術(shù)的快速發(fā)展,音頻處理技術(shù)也隨之飛速發(fā)展。通過音頻處理技術(shù),可以識別音頻中的各說話人的身份信息。例如,針對智能對話場景中,可以通過音頻處理技術(shù)區(qū)分各個對話方的身份角色和語音片段。
2、現(xiàn)有技術(shù)中,可以基于聲紋分割聚類方法識別音頻中各說話人的身份信息。但是,由于該處理方式的處理步驟較多,因此,每個處理步驟可能會產(chǎn)生錯誤。此時,由于各個處理步驟的錯誤累積將導(dǎo)致說話人的身份信息的識別準(zhǔn)確度下降。相關(guān)技術(shù)中,還可以采用端到端的神經(jīng)網(wǎng)絡(luò)模型對音頻進(jìn)行分類處理,從而得到各說話人的身份信息。但是,該技術(shù)方案所得到的識別結(jié)果的準(zhǔn)確度較低。
技術(shù)實(shí)現(xiàn)思路
1、本公開實(shí)施例至少提供一種說話人日志模型訓(xùn)練、說話人日志處理方法、裝置及設(shè)備。
2、第一方面,本公開實(shí)施例提供一種說話人日志模型訓(xùn)練方法,包括:
3、獲取目標(biāo)音頻,并通過待訓(xùn)練的說話人日志模型提取所述目標(biāo)音頻的音頻特征;
4、通過所述待訓(xùn)練的說話人日志模型對所述音頻特征進(jìn)行音頻估計,得到所述目標(biāo)音頻的音頻估計結(jié)果;其中,所述音頻估計結(jié)果用于指示所述目標(biāo)音頻中各說話人的預(yù)測身份信息;
5、根據(jù)所述音頻特征和所述音頻估計結(jié)果,確定所述目標(biāo)音頻的錯誤估計結(jié)果;其中,所述錯誤估計結(jié)果為所述音頻估計結(jié)果中對說話人的預(yù)測身份信息估計錯誤的結(jié)果;
6、基于所述錯誤估計結(jié)果和所述音頻估計結(jié)果,對所述待訓(xùn)練的說話人日志模型進(jìn)行訓(xùn)練,得到訓(xùn)練后說話人日志模型。
7、一種可選的實(shí)施方式中,基于所述錯誤估計結(jié)果和所述音頻估計結(jié)果,對所述待訓(xùn)練的說話人日志模型進(jìn)行訓(xùn)練,得到訓(xùn)練后說話人日志模型,包括:
8、獲取所述目標(biāo)音頻的真實(shí)標(biāo)簽信息;其中,所述真實(shí)標(biāo)簽信息用于指示所述目標(biāo)音頻中各說話人的真實(shí)身份信息;
9、基于所述真實(shí)標(biāo)簽信息和所述音頻估計結(jié)果,計算第一損失函數(shù)值;
10、基于所述真實(shí)標(biāo)簽信息和所述錯誤估計結(jié)果,計算第二損失函數(shù)值;
11、基于所述第一損失函數(shù)值和所述第二損失函數(shù)值,對所述待訓(xùn)練的說話人日志模型進(jìn)行訓(xùn)練,得到所述訓(xùn)練后說話人日志模型。
12、一種可選的實(shí)施方式中,根據(jù)所述音頻特征和所述音頻估計結(jié)果,確定所述目標(biāo)音頻的錯誤估計結(jié)果,包括:
13、將所述音頻特征和所述音頻估計結(jié)果輸入至目標(biāo)神經(jīng)網(wǎng)絡(luò)中進(jìn)行處理,處理后得到所述錯誤估計結(jié)果。
14、一種可選的實(shí)施方式中,通過以下方式訓(xùn)練得到所述目標(biāo)神經(jīng)網(wǎng)絡(luò):
15、基于所述目標(biāo)音頻的真實(shí)標(biāo)簽信息,生成目標(biāo)訓(xùn)練樣本;其中,所述目標(biāo)訓(xùn)練樣本中存在說話人的錯誤身份信息,且所述目標(biāo)訓(xùn)練樣本中對各說話人的身份信息的分割聚類錯誤率小于預(yù)設(shè)閾值;
16、根據(jù)所述目標(biāo)訓(xùn)練樣本和所述音頻特征對初始神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練后得到所述目標(biāo)神經(jīng)網(wǎng)絡(luò)。
17、一種可選的實(shí)施方式中,根據(jù)所述目標(biāo)訓(xùn)練樣本和所述音頻特征對初始神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練后得到所述目標(biāo)神經(jīng)網(wǎng)絡(luò),包括:
18、將所述目標(biāo)訓(xùn)練樣本和所述音頻特征輸入至所述初始神經(jīng)網(wǎng)絡(luò)模型,得到所述目標(biāo)訓(xùn)練樣本的預(yù)測結(jié)果;其中,所述預(yù)測結(jié)果用于指示所述目標(biāo)訓(xùn)練樣本中識別錯誤的身份信息;
19、根據(jù)所述預(yù)測結(jié)果調(diào)整所述初始神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),直至得到滿足訓(xùn)練精度要求的初始神經(jīng)網(wǎng)絡(luò),并將所述滿足訓(xùn)練精度要求的初始神經(jīng)網(wǎng)絡(luò)確定為所述目標(biāo)神經(jīng)網(wǎng)絡(luò)。
20、一種可選的實(shí)施方式中,根據(jù)所述錯誤估計結(jié)果對所述初始神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)進(jìn)行更新,得到訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型,包括:
21、基于所述預(yù)測結(jié)果和所述目標(biāo)訓(xùn)練樣本的樣本真值,計算第一損失函數(shù)值;
22、基于所述第一損失函數(shù)值,對所述初始神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練后得到所述目標(biāo)神經(jīng)網(wǎng)絡(luò)。
23、一種可選的實(shí)施方式中,通過待訓(xùn)練的說話人日志模型提取所述目標(biāo)音頻的音頻特征,包括:
24、將所述目標(biāo)音頻進(jìn)行拆分處理,拆分得到多個子音頻;
25、通過所述待訓(xùn)練的說話人日志模型確定每個所述子音頻的子音頻特征;
26、基于各所述子音頻的子音頻特征確定所述目標(biāo)音頻的音頻特征。
27、一種可選的實(shí)施方式中,所述待訓(xùn)練的說話人日志模型包括共享編碼器和分割網(wǎng)絡(luò);
28、所述通過待訓(xùn)練的說話人日志模型提取所述目標(biāo)音頻的音頻特征,包括:通過所述共享編碼器提取所述目標(biāo)音頻的音頻特征;
29、所述通過所述待訓(xùn)練的說話人日志模型對所述音頻特征進(jìn)行音頻估計,得到所述目標(biāo)音頻的音頻估計結(jié)果,包括:通過所述分割網(wǎng)絡(luò)對所述音頻特征進(jìn)行音頻估計,得到所述音頻估計結(jié)果。
30、第二方面,本公開實(shí)施例提供了一種說話人日志模型訓(xùn)練裝置,包括:
31、提取模塊,用于獲取目標(biāo)音頻,并通過待訓(xùn)練的說話人日志模型提取所述目標(biāo)音頻的音頻特征;
32、估計模塊,用于通過所述待訓(xùn)練的說話人日志模型對所述音頻特征進(jìn)行音頻估計,得到所述目標(biāo)音頻的音頻估計結(jié)果;其中,所述音頻估計結(jié)果用于指示所述目標(biāo)音頻中各說話人的預(yù)測身份信息;
33、確定模塊,用于根據(jù)所述音頻特征和所述音頻估計結(jié)果,確定所述目標(biāo)音頻的錯誤估計結(jié)果;其中,所述錯誤估計結(jié)果為所述音頻估計結(jié)果中對說話人的預(yù)測身份信息估計錯誤的結(jié)果;
34、訓(xùn)練模塊,用于基于所述錯誤估計結(jié)果和所述音頻估計結(jié)果,對所述待訓(xùn)練的說話人日志模型進(jìn)行訓(xùn)練,得到訓(xùn)練后說話人日志模型。
35、第三方面,本公開實(shí)施例提供了一種說話人日志處理方法,包括:
36、獲取待處理的目標(biāo)音頻;
37、通過目標(biāo)說話人日志模型對所述待處理的目標(biāo)音頻進(jìn)行說話人識別,得到說話人識別結(jié)果;其中,所述目標(biāo)說話人日志模型為采用上述第一方面中任一項所述的說話人日志模型訓(xùn)練方法進(jìn)行訓(xùn)練后得到的說話人日志模型訓(xùn)練。
38、第四方面,本公開實(shí)施例提供了一種說話人日志處理裝置,包括:
39、獲取模塊,用于獲取待處理的目標(biāo)音頻;
40、識別模塊,用于通過目標(biāo)說話人日志模型對所述待處理的目標(biāo)音頻進(jìn)行說話人識別,得到說話人識別結(jié)果;其中,所述目標(biāo)說話人日志模型為采用上述第一方面中任一項所述的說話人日志模型訓(xùn)練方法進(jìn)行訓(xùn)練后得到的說話人日志模型訓(xùn)練。
41、第五方面,本公開實(shí)施例提供了一種非瞬時性計算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)中存儲有至少一條指令或至少一段程序,所述至少一條指令或所述至少一段程序由處理器加載并執(zhí)行以實(shí)現(xiàn)以上方法。
42、第六方面,本公開實(shí)施例提供了一種電子設(shè)備,包括處理器和非瞬時性計算機(jī)可讀存儲介質(zhì)。
43、本公開至少具有以下有益效果:首先,獲取目標(biāo)音頻,并通過待訓(xùn)練的說話人日志模型提取目標(biāo)音頻的音頻特征;然后,通過待訓(xùn)練的說話人日志模型對音頻特征進(jìn)行音頻估計,得到目標(biāo)音頻的音頻估計結(jié)果;其中,音頻估計結(jié)果用于指示目標(biāo)音頻中各說話人的預(yù)測身份信息;然后,根據(jù)音頻特征和音頻估計結(jié)果,確定目標(biāo)音頻的錯誤估計結(jié)果;其中,錯誤估計結(jié)果為音頻估計結(jié)果中對說話人的預(yù)測身份信息估計錯誤的結(jié)果;最后,基于錯誤估計結(jié)果和音頻估計結(jié)果,對待訓(xùn)練的說話人日志模型進(jìn)行訓(xùn)練,得到訓(xùn)練后說話人日志模型。
44、上述實(shí)施方式中,通過音頻特征和音頻估計結(jié)果,確定錯誤估計結(jié)果的方式,可以從音頻估計結(jié)果中確定出估計錯誤的結(jié)果(即,錯誤估計結(jié)果)。通過錯誤估計結(jié)果和音頻估計結(jié)果對待訓(xùn)練的說話人日志模型進(jìn)行訓(xùn)練,可以提升待訓(xùn)練的說話人日志模型對目標(biāo)音頻的處理精度,從而使得訓(xùn)練后說話人日志模型預(yù)測的結(jié)果能夠更準(zhǔn)確。