午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):39728345發(fā)布日期:2024-10-22 13:31閱讀:2來源:國知局
基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及智慧配電網(wǎng)文獻(xiàn)檢索,尤其是涉及一種基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、在現(xiàn)代智慧配電網(wǎng)領(lǐng)域,專利文獻(xiàn)關(guān)鍵詞的提取有重要作用。一方面,對(duì)專利文獻(xiàn)的關(guān)鍵詞進(jìn)行歸納分析,可以快速了解該領(lǐng)域的技術(shù)專利申請(qǐng)趨勢,便于規(guī)劃公司的專利申請(qǐng)策略,進(jìn)行有效的專利布局;另一方面,專利技術(shù)關(guān)鍵詞與期刊技術(shù)關(guān)鍵詞可以互為交叉驗(yàn)證,為技術(shù)布局提供更準(zhǔn)確的輔助決策。

2、由于專利文本具有數(shù)據(jù)量大、專業(yè)性強(qiáng)且不具有預(yù)先標(biāo)注好的關(guān)鍵詞集,故相較于其他科技類文本,提取其關(guān)鍵詞存在更大的困難。目前,關(guān)鍵詞抽取方法包括基于統(tǒng)計(jì)的方法、基于圖的方法、有監(jiān)督的關(guān)鍵詞提取方法以及基于圖模型的關(guān)鍵詞提取方法。但是,基于統(tǒng)計(jì)的方法準(zhǔn)確率不高且受數(shù)據(jù)集影響較大,用于專利關(guān)鍵詞提取時(shí)在不同專利數(shù)據(jù)集上的表現(xiàn)不穩(wěn)定;基于圖的方法雖然在一定程度上體現(xiàn)了單詞之間的聯(lián)系,但準(zhǔn)確率有限且在短文本上表現(xiàn)欠缺,用于專利關(guān)鍵詞提取時(shí)無法滿足對(duì)專利主題覆蓋度的要求;有監(jiān)督的關(guān)鍵詞提取方法需要大量人工標(biāo)注數(shù)據(jù)的支持,而專利數(shù)據(jù)沒有天然的關(guān)鍵詞作為標(biāo)注來支持關(guān)鍵詞提取模型的訓(xùn)練。因此,針對(duì)專利數(shù)據(jù)的特征,如何在保障專利文獻(xiàn)關(guān)鍵詞提取的準(zhǔn)確率的情況下,提高模型的訓(xùn)練效率,進(jìn)而提高專利文獻(xiàn)關(guān)鍵詞提取的及時(shí)性,節(jié)約時(shí)間成本,成為本領(lǐng)域需要解決的問題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì),能夠在保障專利文獻(xiàn)關(guān)鍵詞提取的準(zhǔn)確率的情況下,提高模型的訓(xùn)練效率,進(jìn)而提高專利文獻(xiàn)關(guān)鍵詞提取的及時(shí)性。

2、本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):

3、根據(jù)本發(fā)明的第一方面,提供一種基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法,包括以下步驟:獲取智慧配電網(wǎng)領(lǐng)域的原始專利文本數(shù)據(jù)并進(jìn)行文本預(yù)處理,同時(shí)提取專利分類號(hào);利用預(yù)訓(xùn)練的bert模型將預(yù)處理后的文本進(jìn)行向量化,獲取各單詞的初始向量;基于所述各單詞的初始向量和所述專利分類號(hào),構(gòu)建異構(gòu)網(wǎng)絡(luò)并訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)模型,獲取各單詞的詞嵌入向量,所述異構(gòu)網(wǎng)絡(luò)包括文本節(jié)點(diǎn)和單詞節(jié)點(diǎn),所述詞嵌入向量包括專利的主題信息;基于所述各單詞的詞嵌入向量構(gòu)建新的文本圖,所述新的文本圖包括滑動(dòng)窗口連邊和嵌入相似連邊;在所述新的文本圖上利用pagerank算法計(jì)算圖中各節(jié)點(diǎn)的重要性得分,并將得分最高的節(jié)點(diǎn)對(duì)應(yīng)的單詞或詞組作為最終提取的關(guān)鍵詞。

4、作為優(yōu)選的技術(shù)方案,獲取各單詞的詞嵌入向量的過程具體包括:將每個(gè)單詞的初始向量作為單詞節(jié)點(diǎn),利用初始化的圖神經(jīng)網(wǎng)絡(luò)模型聚合節(jié)點(diǎn)鄰居信息,為每個(gè)節(jié)點(diǎn)生成嵌入向量;將標(biāo)注在文本節(jié)點(diǎn)上的專利分類號(hào)作為監(jiān)督信息,并將交叉熵作為損失函數(shù),訓(xùn)練所述圖神經(jīng)網(wǎng)絡(luò)模型,進(jìn)而得到最終的各單詞的詞嵌入向量。

5、作為優(yōu)選的技術(shù)方案,所述新的文本圖的構(gòu)建過程具體包括:基于所述各單詞的詞嵌入向量,利用滑動(dòng)窗口構(gòu)建初始的文本圖;獲取各單詞的詞嵌入向量之間的相似度,重構(gòu)所述初始的文本圖,得到所述新的文本圖。

6、作為優(yōu)選的技術(shù)方案,得到最終提取的關(guān)鍵詞的具體過程包括:獲取單詞在相應(yīng)的專利文本中的出現(xiàn)位置和頻率;基于所述出現(xiàn)位置和頻率,重構(gòu)pagerank算法的狀態(tài)轉(zhuǎn)移概率矩陣,在新的文本圖上利用重構(gòu)后的pagerank算法計(jì)算各節(jié)點(diǎn)的重要性得分;根據(jù)所述重要性得分的高低進(jìn)行排序,選擇得分最高的單詞或詞組作為提取的關(guān)鍵詞。

7、作為優(yōu)選的技術(shù)方案,根據(jù)所述重要性得分的高低進(jìn)行排序的具體過程包括:同時(shí)利用textrank算法和hits算法分別進(jìn)行排序,并利用加權(quán)平均或投票機(jī)制融合多個(gè)排序結(jié)果,得到最終的排序結(jié)果。

8、作為優(yōu)選的技術(shù)方案,所述文本預(yù)處理的過程具體包括清洗數(shù)據(jù)集、分詞及詞性標(biāo)注。

9、作為優(yōu)選的技術(shù)方案,所述bert模型的預(yù)訓(xùn)練過程具體包括:獲取智慧配電網(wǎng)領(lǐng)域的原始專利文本數(shù)據(jù)并進(jìn)行文本預(yù)處理;在預(yù)處理后的文本數(shù)據(jù)上訓(xùn)練初始化的bert模型;基于預(yù)處理后的數(shù)據(jù),將各文本的專利分類號(hào)作為標(biāo)簽,得到標(biāo)簽數(shù)據(jù)集;在所述標(biāo)簽數(shù)據(jù)集上訓(xùn)練并調(diào)整當(dāng)前的bert模型參數(shù),當(dāng)?shù)Y(jié)束時(shí),輸出最優(yōu)參數(shù)的bert模型。

10、作為優(yōu)選的技術(shù)方案,在預(yù)處理后的文本數(shù)據(jù)上訓(xùn)練初始化的bert模型,具體包括遮蔽語言訓(xùn)練任務(wù)和下一句預(yù)測訓(xùn)練任務(wù)。

11、根據(jù)本發(fā)明的第二方面,提供一種基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取裝置,包括存儲(chǔ)器、處理器,以及存儲(chǔ)于所述存儲(chǔ)器中的程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)所述的方法。

12、根據(jù)本發(fā)明的第三方面,提供一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,所述程序被執(zhí)行時(shí)實(shí)現(xiàn)所述的方法。

13、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

14、1、本發(fā)明提供的專利文獻(xiàn)關(guān)鍵詞提取方法通過利用bert模型的強(qiáng)大語義表示能力、圖神經(jīng)網(wǎng)絡(luò)的高效訓(xùn)練特性以及pagerank算法的節(jié)點(diǎn)重要性計(jì)算優(yōu)勢,在確保關(guān)鍵詞提取準(zhǔn)確率的同時(shí),大幅提升了圖模型的訓(xùn)練效率和關(guān)鍵詞提取的及時(shí)性,顯著節(jié)約了時(shí)間成本;

15、2、本發(fā)明提供的專利文獻(xiàn)關(guān)鍵詞提取方法,利用bert模型將預(yù)處理后的文本進(jìn)行向量化,獲取各單詞的初始向量,然后根據(jù)專利分類號(hào)構(gòu)建異構(gòu)網(wǎng)絡(luò)并訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)模型,獲取各單詞的詞嵌入向量,得到的詞嵌入向量包括專利的主題信息,本方法充分考慮專利文本的特殊性,利用預(yù)訓(xùn)練的bert模型進(jìn)行文本向量化,既能有效捕捉文本的上下文語義信息,提升單詞初始向量的質(zhì)量,進(jìn)而保障關(guān)鍵詞提取的準(zhǔn)確性,又能基于預(yù)訓(xùn)練結(jié)果進(jìn)行向量化,不需要從頭開始訓(xùn)練語言模型,大大節(jié)約了訓(xùn)練時(shí)間,提高模型的訓(xùn)練效率,進(jìn)而提高專利文獻(xiàn)關(guān)鍵詞提取的及時(shí)性,節(jié)約時(shí)間成本;

16、3、本發(fā)明通過結(jié)合單詞初始向量和專利分類號(hào)構(gòu)建異構(gòu)網(wǎng)絡(luò),使得單詞嵌入向量不僅包含文本語義信息,還融入了專利的主題信息,從而提升了關(guān)鍵詞的語義準(zhǔn)確性和領(lǐng)域相關(guān)性;同時(shí),通過圖神經(jīng)網(wǎng)絡(luò)對(duì)異構(gòu)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,圖卷積網(wǎng)絡(luò)在訓(xùn)練過程中,能夠高效地聚合鄰居節(jié)點(diǎn)信息,并逐層更新節(jié)點(diǎn)表示,相比于傳統(tǒng)的文本分類和關(guān)鍵詞提取方法,圖卷積網(wǎng)絡(luò)可以更快地收斂,提高訓(xùn)練效率;此外,新的文本圖結(jié)合了滑動(dòng)窗口連邊和嵌入相似連邊,能夠捕捉單詞之間的局部上下文信息和全局語義關(guān)系,提高圖結(jié)構(gòu)的豐富性,進(jìn)而增強(qiáng)關(guān)鍵詞提取的可靠性。



技術(shù)特征:

1.一種基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,獲取各單詞的詞嵌入向量的過程具體包括:

3.根據(jù)權(quán)利要求1所述的基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,所述新的文本圖的構(gòu)建過程具體包括:

4.根據(jù)權(quán)利要求1所述的基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,得到最終提取的關(guān)鍵詞的具體過程包括:

5.根據(jù)權(quán)利要求4所述的基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,根據(jù)所述重要性得分的高低進(jìn)行排序的具體過程包括:

6.根據(jù)權(quán)利要求1所述的基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,所述文本預(yù)處理的過程具體包括清洗數(shù)據(jù)集、分詞及詞性標(biāo)注。

7.根據(jù)權(quán)利要求1所述的基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,所述bert模型的預(yù)訓(xùn)練過程具體包括:

8.根據(jù)權(quán)利要求7所述的基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,在預(yù)處理后的文本數(shù)據(jù)上訓(xùn)練初始化的bert模型,具體包括遮蔽語言訓(xùn)練任務(wù)和下一句預(yù)測訓(xùn)練任務(wù)。

9.一種基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取裝置,包括存儲(chǔ)器、處理器,以及存儲(chǔ)于所述存儲(chǔ)器中的程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-8中任一所述的方法。

10.一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,其特征在于,所述程序被執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8中任一所述的方法。


技術(shù)總結(jié)
本發(fā)明涉及一種基于特征表示的專利文獻(xiàn)關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì)。該方法首先獲取智慧配電網(wǎng)領(lǐng)域的原始專利文本數(shù)據(jù)并進(jìn)行文本預(yù)處理,同時(shí)提取專利分類號(hào);其次,利用預(yù)訓(xùn)練的BERT模型將預(yù)處理后的文本向量化,獲取各單詞的初始向量;再次,構(gòu)建異構(gòu)網(wǎng)絡(luò)并訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)模型,獲取各單詞的詞嵌入向量,詞嵌入向量包括專利的主題信息;接著,構(gòu)建新的文本圖,新的文本圖包括滑動(dòng)窗口連邊和嵌入相似連邊;最后在新的文本圖上利用PageRank算法計(jì)算圖中各節(jié)點(diǎn)的重要性得分,并將得分最高的節(jié)點(diǎn)對(duì)應(yīng)的單詞或詞組作為最終提取的關(guān)鍵詞。與現(xiàn)有技術(shù)相比,本發(fā)明具有保障專利文獻(xiàn)關(guān)鍵詞提取準(zhǔn)確率,提高模型的訓(xùn)練效率等優(yōu)點(diǎn)。

技術(shù)研發(fā)人員:肖浥青,宋平,羅裬,華斌,齊曉曼,張鵬飛,陸啟宇,劉哲,陳甜甜,范瑩,劉婧,陳予欣,趙林萱,李永,安靜
受保護(hù)的技術(shù)使用者:國網(wǎng)上海市電力公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1