本申請(qǐng)涉及人工智能,具體涉及一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法、裝置和設(shè)備。
背景技術(shù):
1、不斷增加的在線活動(dòng)讓互聯(lián)網(wǎng)用戶(hù)面臨潛在的網(wǎng)絡(luò)威脅和安全問(wèn)題,這些威脅和攻擊中最主要的攻擊形式是以域名為依托而展開(kāi)的,如點(diǎn)擊欺詐、網(wǎng)頁(yè)篡改、sql注入攻擊、網(wǎng)站后門(mén)、緩存投毒等。域名作為互聯(lián)網(wǎng)的基礎(chǔ)設(shè)施,與各種網(wǎng)絡(luò)活動(dòng)有著內(nèi)在的聯(lián)系。由于域名的靈活性和可訪問(wèn)性,進(jìn)而惡意域名也就成為網(wǎng)絡(luò)攻擊者所使用的主要手段。因此,如何有效地識(shí)別惡意域名和惡意網(wǎng)站一直是網(wǎng)絡(luò)安全研究的重要課題。
2、目前,通?;谏疃葘W(xué)習(xí)識(shí)別惡意網(wǎng)站。一方面,深度學(xué)習(xí)是以數(shù)據(jù)為驅(qū)動(dòng)的,要訓(xùn)練出高性能的模型,往往需要大批量、高質(zhì)量的數(shù)據(jù),而惡意域名在每個(gè)單一機(jī)構(gòu)的樣本量很少,各個(gè)運(yùn)營(yíng)商又有各自的隱私政策,無(wú)法共用數(shù)據(jù)進(jìn)行模型訓(xùn)練,導(dǎo)致訓(xùn)練的模型對(duì)惡意域名識(shí)別的準(zhǔn)確率不高;另一方面,現(xiàn)有的深度學(xué)習(xí)模型都是基于文本序列信息進(jìn)行訓(xùn)練的,單一的數(shù)據(jù)模態(tài)降低了模型識(shí)別的準(zhǔn)確率。
3、因此,如何提高惡意域名識(shí)別模型的準(zhǔn)確率成為亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法、裝置和設(shè)備,用以解決現(xiàn)有技術(shù)中惡意域名識(shí)別模型的準(zhǔn)確率較低的技術(shù)問(wèn)題。
2、本發(fā)明提供一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,包括:
3、執(zhí)行循環(huán)過(guò)程直至滿(mǎn)足預(yù)設(shè)迭代條件;所述循環(huán)過(guò)程包括:
4、使用域名訓(xùn)練數(shù)據(jù)訓(xùn)練惡意域名識(shí)別模型后,對(duì)所述惡意域名識(shí)別模型的參數(shù)進(jìn)行加密,得到加密模型參數(shù),所述域名訓(xùn)練數(shù)據(jù)由包含域名對(duì)應(yīng)網(wǎng)頁(yè)文字內(nèi)容的第一訓(xùn)練數(shù)據(jù)和包含域名對(duì)應(yīng)網(wǎng)頁(yè)圖像內(nèi)容的第二訓(xùn)練數(shù)據(jù)組成;
5、將所述加密模型參數(shù)發(fā)送至服務(wù)端;
6、獲得所述服務(wù)端反饋的聚合模型參數(shù)后,對(duì)所述聚合模型參數(shù)進(jìn)行解密,得到解密模型參數(shù);
7、基于所述解密模型參數(shù)對(duì)所述惡意域名識(shí)別模型進(jìn)行更新。
8、根據(jù)本發(fā)明提供的一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,所述第二訓(xùn)練數(shù)據(jù)是使用預(yù)置圖像語(yǔ)言模型對(duì)源網(wǎng)頁(yè)圖像進(jìn)行識(shí)別得到的,所述預(yù)置圖像語(yǔ)言模型是基于如下步驟訓(xùn)練的:
9、獲取預(yù)訓(xùn)練模型中除輸出層以外的模型參數(shù),所述預(yù)訓(xùn)練模型是預(yù)先訓(xùn)練的適用于各場(chǎng)景的視覺(jué)語(yǔ)言生成模型;
10、將所述模型參數(shù)代入待訓(xùn)練圖像語(yǔ)言模型后,使用圖像語(yǔ)言訓(xùn)練數(shù)據(jù)對(duì)所述待訓(xùn)練圖像語(yǔ)言模型進(jìn)行訓(xùn)練,得到預(yù)置圖像語(yǔ)言模型,所述圖像語(yǔ)言訓(xùn)練數(shù)據(jù)包括多個(gè)圖像-文本對(duì)數(shù)據(jù),所述預(yù)置圖像語(yǔ)言模型是惡意域名場(chǎng)景下的視覺(jué)語(yǔ)言生成模型。
11、根據(jù)本發(fā)明提供的一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,所述預(yù)訓(xùn)練模型是一個(gè)多任務(wù)模型,所述預(yù)訓(xùn)練模型包括:
12、單模態(tài)編碼器,用于分別對(duì)輸入圖像及對(duì)應(yīng)的文本進(jìn)行編碼;
13、基于圖像的文本編碼器,用于基于交叉注意力層模擬圖文信息交互,預(yù)測(cè)圖像-文本對(duì)是正匹配或負(fù)匹配;
14、基于圖像的文本解碼器,用于生成輸入圖像的文本描述。
15、根據(jù)本發(fā)明提供的一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,所述惡意域名識(shí)別模型基于如下步驟進(jìn)行惡意域名識(shí)別:
16、使用嵌入層對(duì)輸入數(shù)據(jù)進(jìn)行編碼,得到詞向量序列;
17、使用轉(zhuǎn)換器編碼器將所述詞向量序列轉(zhuǎn)化為基于上下文表示的中間向量;
18、將所述中間向量輸入至輸出層,得到輸出層輸出的惡意域名識(shí)別結(jié)果。
19、根據(jù)本發(fā)明提供的一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,基于如下公式對(duì)所述惡意域名識(shí)別模型的參數(shù)進(jìn)行加密:
20、m=wi;
21、s=rnmodn2,n=pq;
22、
23、其中,wi表示第i個(gè)參數(shù),pk表示公鑰,表示使用公鑰pk對(duì)第i個(gè)參數(shù)wi進(jìn)行加密后得到的密文,p和q是兩個(gè)質(zhì)數(shù)。
24、根據(jù)本發(fā)明提供的一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,所述聚合模型參數(shù)是基于如下公式計(jì)算得到的:
25、
26、其中,dj表示第j個(gè)客戶(hù)端的域名訓(xùn)練數(shù)據(jù)的數(shù)據(jù)量,k表示所述惡意域名識(shí)別模型的參數(shù)個(gè)數(shù),wavg表示第i個(gè)參數(shù)對(duì)應(yīng)的聚合參數(shù)。
27、根據(jù)本發(fā)明提供的一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,基于如下公式對(duì)所述聚合模型參數(shù)進(jìn)行解密:
28、
29、λ=lcm(p-1,q-1);
30、b=λ-1modn;
31、c=wavg;
32、wi=b·l(cλmodn2)modn。
33、本發(fā)明還提供一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練裝置,包括:
34、循環(huán)迭代模塊,用于:執(zhí)行循環(huán)過(guò)程直至滿(mǎn)足預(yù)設(shè)迭代條件;所述循環(huán)過(guò)程包括:
35、使用域名訓(xùn)練數(shù)據(jù)訓(xùn)練惡意域名識(shí)別模型后,對(duì)所述惡意域名識(shí)別模型的參數(shù)進(jìn)行加密,得到加密模型參數(shù),所述域名訓(xùn)練數(shù)據(jù)由包含域名對(duì)應(yīng)網(wǎng)頁(yè)文字內(nèi)容的第一訓(xùn)練數(shù)據(jù)和包含域名對(duì)應(yīng)網(wǎng)頁(yè)圖像內(nèi)容的第二訓(xùn)練數(shù)據(jù)組成;
36、將所述加密模型參數(shù)發(fā)送至服務(wù)端;
37、獲得所述服務(wù)端反饋的聚合模型參數(shù)后,對(duì)所述聚合模型參數(shù)進(jìn)行解密,得到解密模型參數(shù);
38、基于所述解密模型參數(shù)對(duì)所述惡意域名識(shí)別模型進(jìn)行更新。
39、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法。
40、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法。
41、本申請(qǐng)實(shí)施例提供的基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法、裝置和設(shè)備,執(zhí)行循環(huán)過(guò)程直至滿(mǎn)足預(yù)設(shè)迭代條件;所述循環(huán)過(guò)程包括:使用域名訓(xùn)練數(shù)據(jù)訓(xùn)練惡意域名識(shí)別模型后,對(duì)所述惡意域名識(shí)別模型的參數(shù)進(jìn)行加密,得到加密模型參數(shù),所述域名訓(xùn)練數(shù)據(jù)由包含域名對(duì)應(yīng)網(wǎng)頁(yè)文字內(nèi)容的第一訓(xùn)練數(shù)據(jù)和包含域名對(duì)應(yīng)網(wǎng)頁(yè)圖像內(nèi)容的第二訓(xùn)練數(shù)據(jù)組成;將所述加密模型參數(shù)發(fā)送至服務(wù)端;獲得所述服務(wù)端反饋的聚合模型參數(shù)后,對(duì)所述聚合模型參數(shù)進(jìn)行解密,得到解密模型參數(shù);基于所述解密模型參數(shù)對(duì)所述惡意域名識(shí)別模型進(jìn)行更新。惡意網(wǎng)址上都有大量的圖像,且這些圖像大多與這個(gè)網(wǎng)址的類(lèi)別相關(guān),而圖像能提供直觀的信息特征,因此基于圖像訓(xùn)練的惡意域名識(shí)別模型可以利用網(wǎng)址上的圖像預(yù)測(cè)網(wǎng)址是否為惡意網(wǎng)址,從而提高惡意域名識(shí)別的準(zhǔn)確性;將模型參數(shù)同態(tài)加密上傳服務(wù)器進(jìn)行計(jì)算,解決了多個(gè)企業(yè)組織客戶(hù)端大規(guī)模數(shù)據(jù)分散、不易集中且具有高度隱私的問(wèn)題。
1.一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,應(yīng)用于客戶(hù)端,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,其特征在于,所述第二訓(xùn)練數(shù)據(jù)是使用預(yù)置圖像語(yǔ)言模型對(duì)源網(wǎng)頁(yè)圖像進(jìn)行識(shí)別得到的,所述預(yù)置圖像語(yǔ)言模型是基于如下步驟訓(xùn)練的:
3.根據(jù)權(quán)利要求2所述的基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,其特征在于,所述預(yù)訓(xùn)練模型是一個(gè)多任務(wù)模型,所述預(yù)訓(xùn)練模型包括:
4.根據(jù)權(quán)利要求1所述的基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,其特征在于,所述惡意域名識(shí)別模型基于如下步驟進(jìn)行惡意域名識(shí)別:
5.根據(jù)權(quán)利要求1所述的基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,其特征在于,基于如下公式對(duì)所述惡意域名識(shí)別模型的參數(shù)進(jìn)行加密:
6.根據(jù)權(quán)利要求5所述的基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,其特征在于,所述聚合模型參數(shù)是基于如下公式計(jì)算得到的:
7.根據(jù)權(quán)利要求6所述的基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法,其特征在于,基于如下公式對(duì)所述聚合模型參數(shù)進(jìn)行解密:
8.一種基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法。
10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述基于聯(lián)邦學(xué)習(xí)的惡意域名識(shí)別模型訓(xùn)練方法。