本技術(shù)涉及人工智能,尤其涉及文本分類模型的訓(xùn)練方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、文本分類是自然語言處理應(yīng)用領(lǐng)域中最常見且最重要的任務(wù)類型?,F(xiàn)有的一種用于多層級標(biāo)簽多分類的文本分類模型在訓(xùn)練時,需要窮盡所有標(biāo)簽組合以涵蓋不同層級組合的所有情況,從而獲得一個能夠概括出所有標(biāo)簽的最大標(biāo)簽集合,并對該最大標(biāo)簽集合中的標(biāo)簽進(jìn)行獨(dú)熱編碼改寫。但是由于最大標(biāo)簽集合內(nèi)的標(biāo)簽數(shù)量過大,使得在獨(dú)熱編碼改寫后的分類預(yù)測向量的向量長度較長,進(jìn)而增加了文本分類模型的在訓(xùn)練時的計(jì)算復(fù)雜度,降低了文本分類模型的訓(xùn)練效率。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供一種文本分類模型的訓(xùn)練方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,用以解決現(xiàn)有的文本分類模型的訓(xùn)練效率低的技術(shù)問題。
2、第一方面,本技術(shù)提供一種文本分類模型的訓(xùn)練方法,包括:
3、獲取歷史文本數(shù)據(jù)以及歷史多層級標(biāo)簽集,所述歷史多層級標(biāo)簽集包括n個層級標(biāo)簽組,所述層級標(biāo)簽組中包括至少一個類別的標(biāo)簽,且相鄰所述層級標(biāo)簽組中的標(biāo)簽之間具有層級關(guān)聯(lián)關(guān)系,其中n為大于1的整數(shù);
4、獲取各個所述層級標(biāo)簽組中同類別標(biāo)簽的標(biāo)簽數(shù)量,并基于所述同類別標(biāo)簽的標(biāo)簽數(shù)量確定出各個所述層級標(biāo)簽組的最大標(biāo)簽數(shù)量;
5、計(jì)算n個所述層級標(biāo)簽組中的最大標(biāo)簽數(shù)量的總和,并將所述最大標(biāo)簽數(shù)量的總和確定為分類預(yù)測向量的向量長度;
6、基于確定出的所述分類預(yù)測向量的向量長度,采用預(yù)定編碼策略對所述歷史多層級標(biāo)簽集中的標(biāo)簽進(jìn)行獨(dú)熱編碼改寫;
7、基于所述歷史文本數(shù)據(jù)以及獨(dú)熱編碼改寫后的所述歷史多層級標(biāo)簽集生成訓(xùn)練樣本;
8、采用所述訓(xùn)練樣本對初始文本分類模型進(jìn)行訓(xùn)練至收斂,以獲得已訓(xùn)練至收斂的文本分類模型。
9、在一種可能的設(shè)計(jì)中,所述基于確定出的所述分類預(yù)測向量的向量長度,采用預(yù)定編碼策略對所述歷史多層級標(biāo)簽集中的標(biāo)簽進(jìn)行獨(dú)熱編碼改寫,包括:
10、將所述分類預(yù)測向量按照所述分類預(yù)測向量的向量長度分割為n個編碼區(qū)域,其中,n個所述編碼區(qū)域的向量長度與n個所述層級標(biāo)簽組中的最大標(biāo)簽數(shù)量相匹配;
11、根據(jù)n個所述層級標(biāo)簽組中的標(biāo)簽之間層級關(guān)聯(lián)關(guān)系對n個所述編碼區(qū)域依次進(jìn)行獨(dú)熱編碼改寫。
12、在一種可能的設(shè)計(jì)中,所述根據(jù)n個所述層級標(biāo)簽組中的標(biāo)簽之間層級關(guān)聯(lián)關(guān)系對n個所述編碼區(qū)域依次進(jìn)行獨(dú)熱編碼改寫,包括:
13、根據(jù)n個所述層級標(biāo)簽組中的標(biāo)簽之間的層級關(guān)系,確定所述n個所述層級標(biāo)簽組中的母標(biāo)簽及各級子標(biāo)簽;
14、確定出所述母標(biāo)簽在第一個所述編碼區(qū)域的對應(yīng)編碼位置,并將第一個所述編碼區(qū)域的對應(yīng)編碼位置的數(shù)值改寫為第一數(shù)值,第一個所述編碼區(qū)域的其余編碼位置的數(shù)值均改寫為第二數(shù)值;
15、依次確定出所述各級子標(biāo)簽在其余所述編碼區(qū)域的對應(yīng)編碼位置,并將其余所述編碼區(qū)域的對應(yīng)編碼位置的數(shù)值改寫為第一數(shù)值,其余所述編碼區(qū)域的其余編碼位置的數(shù)值均改寫為第二數(shù)值。
16、在一種可能的設(shè)計(jì)中,所述采用所述訓(xùn)練樣本對初始文本分類模型進(jìn)行訓(xùn)練至收斂,以獲得已訓(xùn)練至收斂的文本分類模型,包括:
17、對n個所述編碼區(qū)域分別利用損失函數(shù)進(jìn)行損失值計(jì)算,以得出n個所述編碼區(qū)域的損失值;
18、將n個所述編碼區(qū)域的損失值進(jìn)行加權(quán)處理,以確定出目標(biāo)損失值;
19、響應(yīng)于確定所述目標(biāo)損失值小于預(yù)設(shè)損失閾值,則確定已將所述初始文本分類模型訓(xùn)練至收斂。
20、在一種可能的設(shè)計(jì)中,所述將n個所述編碼區(qū)域的損失值進(jìn)行加權(quán)處理,包括:
21、獲取n個所述編碼區(qū)域的向量長度與所述分類預(yù)測向量的向量長度的比值;
22、將n個所述比值對應(yīng)確定為n個所述編碼區(qū)域的加權(quán)系數(shù),并采用所述加權(quán)系數(shù)對n個所述編碼區(qū)域的損失值進(jìn)行加權(quán)處理。
23、在一種可能的設(shè)計(jì)中,所述對n個所述編碼區(qū)域分別利用損失函數(shù)進(jìn)行損失值計(jì)算,以得出n個所述編碼區(qū)域的損失值,包括:
24、獲取第一編碼區(qū)域的預(yù)測概率最大值所對應(yīng)的目標(biāo)標(biāo)簽;
25、根據(jù)所述目標(biāo)標(biāo)簽以及相鄰所述層級標(biāo)簽組中的標(biāo)簽之間的層級關(guān)聯(lián)關(guān)系,確定出第二編碼區(qū)域中與所述目標(biāo)標(biāo)簽具有層級關(guān)聯(lián)關(guān)系的子目標(biāo)標(biāo)簽組,且所述子目標(biāo)標(biāo)簽組中的標(biāo)簽為所述目標(biāo)標(biāo)簽的子標(biāo)簽;
26、根據(jù)所述子目標(biāo)標(biāo)簽組中的標(biāo)簽數(shù)量確定出所述子目標(biāo)標(biāo)簽組在第二編碼區(qū)域的向量位置范圍;
27、獲取第二編碼區(qū)域中的預(yù)測概率最大值所處的向量位置,并判斷所述預(yù)測概率最大值所處的向量位置是否位于所述子目標(biāo)標(biāo)簽組在第二編碼區(qū)域的向量位置范圍內(nèi);
28、響應(yīng)于確定所述預(yù)測概率最大值所處的向量位置位于所述子目標(biāo)標(biāo)簽組在第二編碼區(qū)域的向量位置范圍內(nèi),則以所述預(yù)測概率最大值作為預(yù)測結(jié)果進(jìn)行損失值計(jì)算,以得出第二編碼區(qū)域的損失值。
29、在一種可能的設(shè)計(jì)中,還包括:
30、響應(yīng)于確定所述預(yù)測概率最大值所處的向量位置位于所述子目標(biāo)標(biāo)簽組在第二編碼區(qū)域的向量位置范圍之外,則以所述子目標(biāo)標(biāo)簽組在第二編碼區(qū)域的向量位置范圍內(nèi)的最大預(yù)測概率值作為預(yù)測結(jié)果進(jìn)行損失值計(jì)算,以得出第二編碼區(qū)域的損失值。
31、在一種可能的設(shè)計(jì)中,基于所述歷史文本數(shù)據(jù)以及獨(dú)熱編碼改寫后的所述歷史多層級標(biāo)簽集生成訓(xùn)練樣本,包括:
32、對所述歷史文本數(shù)據(jù)進(jìn)行語句分割并采用向量化轉(zhuǎn)換技術(shù)將所述歷史文本數(shù)據(jù)轉(zhuǎn)為向量化樣本;
33、將所述向量化樣本與獨(dú)熱編碼改寫后的所述歷史多層級標(biāo)簽集中的標(biāo)簽進(jìn)行對應(yīng)標(biāo)注;
34、基于所述標(biāo)注結(jié)果生成訓(xùn)練樣本。
35、第二方面,本技術(shù)提供一種文本分類模型的訓(xùn)練裝置,包括:
36、獲取模塊,用于獲取歷史文本數(shù)據(jù)以及歷史多層級標(biāo)簽集,所述歷史多層級標(biāo)簽集包括n個層級標(biāo)簽組,所述層級標(biāo)簽組中包括至少一個類別的標(biāo)簽,且相鄰所述層級標(biāo)簽組中的標(biāo)簽之間具有層級關(guān)聯(lián)關(guān)系,其中n為大于1的整數(shù);
37、獲取模塊,還用于獲取各個所述層級標(biāo)簽組中同類別標(biāo)簽的標(biāo)簽數(shù)量,并基于所述同類別標(biāo)簽的標(biāo)簽數(shù)量確定出各個所述層級標(biāo)簽組的最大標(biāo)簽數(shù)量;
38、計(jì)算模塊,用于計(jì)算n個所述層級標(biāo)簽組中的最大標(biāo)簽數(shù)量的總和,并將所述最大標(biāo)簽數(shù)量的總和確定為分類預(yù)測向量的向量長度;
39、確定模塊,用于基于確定出的所述分類預(yù)測向量的向量長度,采用預(yù)定編碼策略對所述歷史多層級標(biāo)簽集中的標(biāo)簽進(jìn)行獨(dú)熱編碼改寫;
40、生成模塊,用于基于所述歷史文本數(shù)據(jù)以及獨(dú)熱編碼改寫后的所述歷史多層級標(biāo)簽集生成訓(xùn)練樣本;
41、訓(xùn)練模塊,用于采用所述訓(xùn)練樣本對初始文本分類模型進(jìn)行訓(xùn)練至收斂,以獲得已訓(xùn)練至收斂的文本分類模型。
42、第三方面,本技術(shù)提供一種電子設(shè)備,包括:處理器,以及與所述處理器通信連接的存儲器;
43、所述存儲器存儲計(jì)算機(jī)執(zhí)行指令;
44、所述處理器執(zhí)行所述存儲器存儲的計(jì)算機(jī)執(zhí)行指令,以實(shí)現(xiàn)如第一方面任一項(xiàng)所述的方法。
45、第四方面,本技術(shù)提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)中存儲有計(jì)算機(jī)執(zhí)行指令,所述計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時用于實(shí)現(xiàn)如第一方面任一項(xiàng)所述的方法。
46、第五方面,本技術(shù)提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)第一方面任一項(xiàng)所述的方法。
47、本技術(shù)提供的文本分類模型的訓(xùn)練方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,通過獲取歷史文本數(shù)據(jù)以及歷史多層級標(biāo)簽集,歷史多層級標(biāo)簽集包括n個層級標(biāo)簽組,層級標(biāo)簽組中包括至少一個類別的標(biāo)簽,且相鄰層級標(biāo)簽組中的標(biāo)簽之間具有層級關(guān)聯(lián)關(guān)系,其中n為大于1的整數(shù);獲取各個層級標(biāo)簽組中同類別標(biāo)簽的標(biāo)簽數(shù)量,并基于同類別標(biāo)簽的標(biāo)簽數(shù)量確定出各個層級標(biāo)簽組的最大標(biāo)簽數(shù)量;計(jì)算n個層級標(biāo)簽組中的最大標(biāo)簽數(shù)量的總和,并將最大標(biāo)簽數(shù)量的總和確定為分類預(yù)測向量的向量長度;基于確定出的分類預(yù)測向量的向量長度,采用預(yù)定編碼策略對歷史多層級標(biāo)簽集中的標(biāo)簽進(jìn)行獨(dú)熱編碼改寫;基于歷史文本數(shù)據(jù)以及獨(dú)熱編碼改寫后的歷史多層級標(biāo)簽集生成訓(xùn)練樣本;采用訓(xùn)練樣本對初始文本分類模型進(jìn)行訓(xùn)練至收斂,以獲得已訓(xùn)練至收斂的文本分類模型??芍?,利用本技術(shù)的方法確定的分類預(yù)測向量的向量長度小于現(xiàn)有的窮盡法得出的分類預(yù)測向量的長度,從而,能夠有效降低訓(xùn)練初始文本分類模型時的計(jì)算復(fù)雜度,有效提高初始文本分類模型的訓(xùn)練效率。