輸變電工程word文檔表格內(nèi)容中工程特性指標(biāo)的智能提取方法
【專利摘要】本發(fā)明公開了輸變電工程word文檔表格內(nèi)容中工程特性指標(biāo)的智能提取方法,該方法依次包括創(chuàng)建工程特性指標(biāo)的指標(biāo)庫、工程特性指標(biāo)的大綱級別提取和工程特性指標(biāo)的表格內(nèi)容提取,其中,創(chuàng)建的指標(biāo)庫作為工程特性指標(biāo)提取的基礎(chǔ)數(shù)據(jù)庫,在對輸變電工程特性指標(biāo)進行提取時,首先進行大綱級別提取,然后進行表格內(nèi)容提取,提取后得到所需的輸變電工程特性指標(biāo)。該提取方法能夠從設(shè)計文件中,自動提取所需的輸變電工程特性指標(biāo)信息,提高專家在設(shè)計評審中的工作效率。
【專利說明】輸變電工程word文檔表格內(nèi)容中工程特性指標(biāo)的智能提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及輸變電工程word文檔中工程特性指標(biāo)的提取方法,具體是指輸變電工程word文檔表格內(nèi)容中工程特性指標(biāo)的智能提取方法。
【背景技術(shù)】
[0002]在輸變電工程評審工作中,評審專家需要反復(fù)的閱讀評審報告才能從大量的文字和表格中提煉出評審指標(biāo)內(nèi)容,然后再綜合給出評審意見。該過程中專家需要對文檔內(nèi)容進行反復(fù)的搜索,并記錄相關(guān)指標(biāo)內(nèi)容,這些都需要專家手動完成,大大影響專家的工作效率和準(zhǔn)確性。
[0003]工程特性指標(biāo)信息主要存在工程設(shè)計報告中,不同的特性指標(biāo)分布在不同的章節(jié)用正段文字描述說明或者采用表格方式說明。查看工程報告、模糊查找工程特性指標(biāo)信息,效率低下。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供輸變電工程word文檔表格內(nèi)容中工程特性指標(biāo)的智能提取方法,該提取方法能夠從設(shè)計文件中,自動提取所需的輸變電工程特性指標(biāo)信息,提高專家在設(shè)計評審中的工作效率。
[0005]本發(fā)明的上述目的通過如下技術(shù)方案來實現(xiàn)的:
[0006]輸變電工程word文檔表格內(nèi)容中工程特性指標(biāo)的智能提取方法,其特征在于:該方法依次包括創(chuàng)建工程特性指標(biāo)的指標(biāo)庫、工程特性指標(biāo)的大綱級別提取和工程特性指標(biāo)的表格內(nèi)容提取,其中,創(chuàng)建的指標(biāo)庫作為工程特性指標(biāo)提取的基礎(chǔ)數(shù)據(jù)庫,在對輸變電工程特性指標(biāo)進行提取時,首先進行大綱級別提取,然后進行表格內(nèi)容提取;
[0007]所述的大綱級別提取依次包括如下步驟:
[0008]( I)初始化word文檔,記錄每一個表格所占用的段落數(shù)量;
[0009](2)遍歷word文檔中的每一個段落,解析段落屬性信息,記錄每一個段落數(shù);
[0010](3)判斷段落屬性是否在表格中,若段落在表格中,則跳過該表格所占的段落數(shù)量,同時記錄該表格在文檔中出現(xiàn)的順序號和所在的大綱標(biāo)題,返回上述步驟(2);若段落不在表格中,則繼續(xù)下述步驟(4);
[0011](4)判斷段落屬性,如果段落屬性值不是正文文本,直接取出段落大綱級別值并記錄所在的級別;如果段落屬性值是正文文本,則把大綱級別設(shè)置為正文文本,返回上述步驟
(2);
[0012](5)判斷大綱級別為正文文本,使用正則表達(dá)式對段落內(nèi)容進行解析,解析規(guī)則如下:
[0013]a.自定義大綱段落的特征是以數(shù)字和字母開頭,大綱編號之間用”進行分割,并且若大綱后為數(shù)字開始內(nèi)容則他們之間必定有空格進行區(qū)分;[0014]b.過濾掉以數(shù)字開頭,并非大綱的段落;
[0015]c.根據(jù)數(shù)字、字母使用正則表達(dá)式解析段落的大綱級別;
[0016]所述的表格內(nèi)容提取依次包括如下步驟:
[0017](I)通過創(chuàng)建的指標(biāo)庫獲取工程特性指標(biāo)所在章節(jié)標(biāo)題以及表格提取需要的行列標(biāo)題、表達(dá)式;
[0018](2)匹配大綱級別提取的結(jié)果,獲取對應(yīng)大綱標(biāo)題以及下面子節(jié)點大綱的表格和表格的順號;
[0019](3)根據(jù)表格編號直接定位文檔中對應(yīng)的表格;
[0020](4)遍歷每一個表格,根據(jù)配置的行列標(biāo)題確定唯一單元表格,直接提取表格內(nèi)的輸變電工程特性指標(biāo),提取后得到所需的輸變電工程特性指標(biāo)。
[0021]與現(xiàn)有技術(shù)相比,本發(fā)明能夠?qū)斪冸姽こ蘷ord文檔表格內(nèi)容中工程特性指標(biāo)進行提取,提高專家在設(shè)計評審中的工作效率。
【專利附圖】
【附圖說明】
[0022]下面結(jié)合附圖和【具體實施方式】對本發(fā)明作進一步詳細(xì)說明。
[0023]圖1為本發(fā)明智能提取方法的整體流程框圖;
[0024]圖2為本發(fā)明智能提取方法中大綱級別提取的流程框圖;
[0025]圖3為本發(fā)明智能提取方法中表格內(nèi)容提取的流程框圖;
[0026]圖4為本發(fā)明智能提取方法中創(chuàng)建的指標(biāo)庫的示意圖;
[0027]圖5為本發(fā)明智能提取方法的提取結(jié)果示意圖。
【具體實施方式】
[0028]如圖1至圖5所示,本發(fā)明輸變電工程word文檔表格內(nèi)容中工程特性指標(biāo)的智能提取方法,該方法依次包括創(chuàng)建工程特性指標(biāo)的指標(biāo)庫、工程特性指標(biāo)的大綱級別提取和工程特性指標(biāo)的表格內(nèi)容提取,其中,創(chuàng)建的指標(biāo)庫作為工程特性指標(biāo)提取的基礎(chǔ)數(shù)據(jù)庫,在對輸變電工程特性指標(biāo)進行提取時,首先進行大綱級別提取,然后進行表格內(nèi)容提取。
[0029]首先對工程特性指標(biāo)信息進行定義,然后把工程設(shè)計報告進行矢量化,提取報告中大綱標(biāo)題,劃分報告中文字描述和表格描述,采用多種方式對工程特性信息進行提取并綜合展示,方便評審專家查看工程特性指標(biāo)信息,提高評審專家的評審效率。智能提取的操作流程圖如圖1所不:
[0030]指標(biāo)庫的創(chuàng)建
[0031]指標(biāo)庫是組織和存儲工程特性指標(biāo)單元,工程特性指標(biāo)采用樹形結(jié)構(gòu)方式組織和存儲,每個工程指標(biāo)包含基礎(chǔ)信息和提取方法信息,一個指標(biāo)可以多種提取方法。指標(biāo)基礎(chǔ)特性信息主要有:指標(biāo)名稱、所屬專業(yè)、所屬工程類型、電壓等級、指標(biāo)單位等信息,提取方法信息:評審階段、章節(jié)標(biāo)題、是否表格提取、行標(biāo)題、列標(biāo)題、表達(dá)式、關(guān)鍵字、提取方法等。指標(biāo)庫是智能提取的基礎(chǔ)數(shù)據(jù),評審專家可以自定義工程特性指標(biāo)數(shù)據(jù)。創(chuàng)建的指標(biāo)庫如圖4所示。
[0032]文檔預(yù)處理提取大綱級別
[0033]在word中,每一個段落都有大綱級別屬性:正文文本或者是具體級別,如I級、2級、3級......,在編輯一篇word文檔時,人們可以使用word自帶的段落標(biāo)題、項目符號等統(tǒng)
稱“大綱級別”,word中自帶的大綱級別時一個種樹形結(jié)構(gòu)的數(shù)據(jù);同時,也可以直接編寫段落編號,通過設(shè)置一些常用的數(shù)字和字母標(biāo)識來區(qū)分不同的段落標(biāo)題,這些標(biāo)題稱為“自定義大綱級別”,如“I標(biāo)題I”或“a標(biāo)題a”,自定義大綱級別是word文檔本身不能識別的。因此,在對word文檔的大綱級別進行提取時需要考慮word自身大綱級別和自定義大綱級別進行提取。
[0034]在提取文檔大綱級別時,需要同時記錄大綱級別的再文檔中段落號、大綱所在級別以及表格所在大綱級別。大綱級別提取流程圖如圖2所示:
[0035]對word文檔中大綱級別提取依次包括如下步驟:
[0036]1.初始化word文檔,記錄每一個表格所占用的段落數(shù)量;
[0037]2.遍歷word文檔中的每一個段落,解析段落屬性信息,記錄每一個段落數(shù);
[0038]3.判斷段落屬性是否在表格中,若段落在表格中,則跳過該表格所占的段落數(shù)量,同時記錄該表格在文檔中出現(xiàn)的順序號和所在的大綱標(biāo)題,返回上述步驟2若段落不在表格中,則繼續(xù)下述步驟4;
[0039]4.判斷段落屬性,如果段落屬性值不是正文文本,直接取出段落大綱級別值并記錄所在的級別;如果段落屬性值是正文文本,則把大綱級別設(shè)置為正文文本,返回上述步驟2 ;
[0040]5.判斷大綱級別為正文文本,使用正則表達(dá)式對段落內(nèi)容進行解析,解析規(guī)則如下:
[0041]a.自定義大綱段落的特征是以數(shù)字和字母開頭,大綱編號之間用”進行分割,并且若大綱后為數(shù)字開始內(nèi)容則他們之間必定有空格進行區(qū)分,如“l(fā)llOkV配電裝置”;
[0042]b.過濾掉以數(shù)字開頭,并非大綱的段落,如“220千伏尾塘變電站主要供電范圍為惠城區(qū)西南部地區(qū)”開始的段落,這種方式通過正則表達(dá)式過濾數(shù)字后面是“kV、mA、千伏、回”等特定字符;
[0043]c.根據(jù)數(shù)字、字母使用正則表達(dá)式解析段落的大綱級別。
[0044]表格內(nèi)容提取
[0045]表格內(nèi)容提取流程圖如圖3所示,表格內(nèi)容提取依次包括如下步驟:
[0046]1.通過創(chuàng)建的指標(biāo)庫獲取工程特性指標(biāo)所在章節(jié)標(biāo)題以及表格提取需要的行列標(biāo)題、表達(dá)式;
[0047]2.匹配大綱級別提取的結(jié)果,獲取對應(yīng)大綱標(biāo)題以及下面子節(jié)點大綱的表格和表格的順號;
[0048]3.根據(jù)表格編號直接定位文檔中對應(yīng)的表格;
[0049]4.遍歷每一個表格,根據(jù)配置的行列標(biāo)題確定唯一單元表格,直接提取表格內(nèi)的輸變電工程特性指標(biāo),提取后得到所需的輸變電工程特性指標(biāo),如圖5所示。該步驟中的直接提取表格內(nèi)的輸變電工程特性指標(biāo)也可以使用表達(dá)式來提取。
[0050]工程特性信息展示
[0051]將提取出的工程對應(yīng)的技術(shù)指標(biāo)進行按照工程數(shù)和表格的方式展示,供專家評審查閱,同時專家可以直接對所提取的指標(biāo)值進行修改、文檔定位高亮顯示。
[0052]本發(fā)明的上述實施例并不是對本發(fā)明保護范圍的限定,本發(fā)明的實施方式不限于此,凡此種種根據(jù)本發(fā)明的上述內(nèi)容,按照本領(lǐng)域的普通技術(shù)知識和慣用手段,在不脫離本發(fā)明上述基本技術(shù)思想前提下,對本發(fā)明上述結(jié)構(gòu)做出的其它多種形式的修改、替換或變更,均應(yīng)落在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.輸變電工程word文檔表格內(nèi)容中工程特性指標(biāo)的智能提取方法,其特征在于:該方法依次包括創(chuàng)建工程特性指標(biāo)的指標(biāo)庫、工程特性指標(biāo)的大綱級別提取和工程特性指標(biāo)的表格內(nèi)容提取,其中,創(chuàng)建的指標(biāo)庫作為工程特性指標(biāo)提取的基礎(chǔ)數(shù)據(jù)庫,在對輸變電工程特性指標(biāo)進行提取時,首先進行大綱級別提取,然后進行表格內(nèi)容提取; 所述的大綱級別提取依次包括如下步驟: (1)初始化word文檔,記錄每一個表格所占用的段落數(shù)量; (2)遍歷word文檔中的每一個段落,解析段落屬性信息,記錄每一個段落數(shù); (3)判斷段落屬性是否在表格中,若段落在表格中,則跳過該表格所占的段落數(shù)量,同時記錄該表格在文檔中出現(xiàn)的順序號和所在的大綱標(biāo)題,返回上述步驟(2);若段落不在表格中,則繼續(xù)下述步驟(4); (4)判斷段落屬性,如果段落屬性值不是正文文本,直接取出段落大綱級別值并記錄所在的級別;如果段落屬性值是正文文本,則把大綱級別設(shè)置為正文文本,返回上述步驟(2); (5)判斷大綱級別為正文文本,使用正則表達(dá)式對段落內(nèi)容進行解析,解析規(guī)則如下: a.自定義大綱段落的特征是以數(shù)字和字母開頭,大綱編號之間用”進行分割,并且若大綱后為數(shù)字開始內(nèi)容則他們之間必定有空格進行區(qū)分; b.過濾掉以數(shù)字開頭,并非大綱的段落; c.根據(jù)數(shù)字、字母使用正則表達(dá)式解析段落的大綱級別; 所述的表格內(nèi)容提取依次包括如下步驟: (1)通過創(chuàng)建的指標(biāo)庫獲取工程特性指標(biāo)所在章節(jié)標(biāo)題以及表格提取需要的行列標(biāo)題、表達(dá)式; (2)匹配大綱級別提取的結(jié)果,獲取對應(yīng)大綱標(biāo)題以及下面子節(jié)點大綱的表格和表格的順號; (3)根據(jù)表格編號直接定位文檔中對應(yīng)的表格; (4)遍歷每一個表格,根據(jù)配置的行列標(biāo)題確定唯一單元表格,直接提取表格內(nèi)的輸變電工程特性指標(biāo),提取后得到所需的輸變電工程特性指標(biāo)。
【文檔編號】G06F17/24GK103914440SQ201410081331
【公開日】2014年7月9日 申請日期:2014年3月6日 優(yōu)先權(quán)日:2014年3月6日
【發(fā)明者】吳烈鑫, 劉志明, 陳錕, 張章亮, 李國勇, 陳銘, 王彥峰, 侯凱, 陳寶珍 申請人:廣東電網(wǎng)公司電網(wǎng)規(guī)劃研究中心