復雜地址中多條路徑的分析方法
【技術領域】
[0001]本發(fā)明涉及數據處理技術領域,尤其涉及一種復雜地址中多條路徑的分析方法。
【背景技術】
[0002]人們在填寫收件人地址、辦公地址、家庭住址等地址信息時一般都是將省、市、區(qū)、門牌號、住宅小區(qū)、房間號等信息寫在一起組成地址信息,如“廣東深圳南山區(qū)高新中一道9號科技園軟件大廈713”,這種寫法適合人工識別,而當通過機器識別地址的結構化細節(jié)信息時首先要做的處理就是分詞與標注,將輸入的長文本切分成一個一個的地址詞,并對地址詞的屬性按照標注標簽進行標注,如上例地址信息的分詞標注結果可能為:“廣東/省深圳/市南山區(qū)/區(qū)高新中一道/道路9號/路號科技園/片區(qū)軟件大廈/樓棟713/房間”?,F有分詞標注技術中應用的比較成熟的是基于統(tǒng)計的方法,例如,隱馬爾可夫模型(HMM)的分詞標注技術就是一種典型的基于統(tǒng)計模型的分詞標注方法。
[0003]由于人們填寫地址的隨意性,給機器處理地址帶來很大的不便。其中一種問題就是一條地址可能包含多個地址實體,如某公司地址存在多個辦公場所深圳市南山區(qū)軟件大廈713科興科學園A座1-501”,或描述地址中帶有輔助信息:“深圳市南山區(qū)軟件大廈旁科興科學園A座1-501”等。二個例子中都包含兩個獨立建筑實體“軟件大廈”和“科興科學園”,兩者間隔一條馬路。為了處理這種情況,亟需一種方案能夠將復雜地址中獨立的建筑實體拆分成不同的地址路徑進行處理,如:從“深圳市南山區(qū)軟件大廈713科興科學園A座1-501”中分析出“深圳市南山區(qū)軟件大廈713”、“深圳市南山區(qū)科興科學園A座1-501”。
【發(fā)明內容】
[0004]本發(fā)明的目的在于提供一種復雜地址中多條路徑的分析方法,解決復雜地址中多條路徑的識別與拆分問題。
[0005]為實現上述目的,本發(fā)明提供一種復雜地址中多條路徑的分析方法,包括:
[0006]步驟10、預先定義標注標簽所對應標注的地址詞的級別;
[0007]步驟20、對輸入地址進行切分與標注,切分標注結果包括地址詞及對應的標注標簽;
[0008]步驟30、初始化一新的地址路徑;初始化標注標簽為其他的地址詞的數量OtherNum為0,初始化上一個地址詞的級別prevLevel ;
[0009]步驟40、按序分析每個地址詞的標注標簽,如果為其他,則OtherNum加1,直至當前地址詞的標注標簽不為其他;
[0010]步驟50、獲取當前地址詞的級別CUrLevel,根據otherNum的值或者根據prevLevel和curLevel之間的關系判斷當前地址詞是否是新的地址路徑的開始;
[0011]步驟60、如果出現新的地址路徑,初始化一新的地址路徑并添加當前地址詞至該新的地址路徑;
[0012]步驟70、如果未出現新的地址路徑,當前地址詞添加到當前地址路徑中;
[0013]步驟80、設置otherNum為0,返回步驟40,直至所有地址詞處理完成。
[0014]其中,所述標注標簽包括省、市、區(qū)、街道、社區(qū)、道路、路號、片區(qū)、樓棟、房間,還包括用于標注用前述標注標簽無法標明的地址詞的其他。
[0015]其中,用省、市、區(qū)、街道、社區(qū)標注標簽標注的行政區(qū)域地址詞的級別為I級,用道路、路號標注標簽標注的門樓牌地址詞的級別為2級,用片區(qū)標注標簽標注的片區(qū)地址詞的級別為3級,用樓棟標注標簽標注的樓棟地址詞的級別為4級,用房間標注標簽標注的房間地址詞的級別為5級。
[0016]其中,步驟50中,當otherNum大于特定值時,判斷當前地址詞是新的地址路徑的開始。
[0017]其中,步驟50中,當prevLevel>curLevel,但不滿足curLevel為門樓牌地址詞的級別且prevLevel為片區(qū)或樓棟地址詞的級別時,判斷當前地址詞是新的地址路徑的開始。
[0018]其中,步驟30中初始化prevLevel為O級。
[0019]其中,步驟30還包括初始化一新的地址片段,地址片段用于存儲一條地址中連續(xù)、級別相同的地址詞。
[0020]其中,步驟60包括:
[0021]步驟61、如果當前地址片段內容不為空,則將該地址片段添加到當前地址路徑中;
[0022]步驟62、保存當前地址路徑,并初始化一新地址路徑;
[0023]步驟63、如果當前地址詞不為行政區(qū)域地址詞且上一條地址路徑包含行政區(qū)域地址片段,則將上一條地址路徑中的行政區(qū)域地址片段添加至該新地址路徑中;
[0024]步驟64、初始化一新地址片段,該新地址片段的級別為curLevel且添加當前地址詞至該新地址片段;設置prevLevel = curLevel。
[0025]其中,步驟70包括:
[0026]步驟71、如果prevLevel = curLevel或者當前地址片段內容為空,貝U當前地址片段中增加當前地址詞;
[0027]步驟72、否則將當前地址片段增加到當前地址路徑中,并初始化一新地址片段,該新地址片段的級別為curLevel且添加當前地址詞至該新地址片段;設置prevLevel =curLevelο
[0028]綜上所述,本發(fā)明的復雜地址中多條路徑的分析方法能夠從復雜地址中識別與拆分出多條路徑。
【附圖說明】
[0029]圖1為本發(fā)明復雜地址中多條路徑的分析方法的流程圖。
【具體實施方式】
[0030]下面結合附圖,通過對本發(fā)明的【具體實施方式】詳細描述,將使本發(fā)明的技術方案及其有益效果顯而易見。
[0031]對應于地址的標注標簽,本發(fā)明定義地址如下概念:
[0032]省:由“國家地名地址數據規(guī)范”規(guī)定的一級行政區(qū)域,包含:省、直轄市、自治區(qū)、特別行政區(qū);
[0033]市:由“國家地名地址數據規(guī)范”規(guī)定的二級行政區(qū)域,包含:地級市、地區(qū)、自治州、盟;
[0034]區(qū):由“國家地名地址數據規(guī)范”規(guī)定的三級行政區(qū)域,包含:市轄區(qū)、縣級市、縣、旗、特區(qū)、林區(qū);
[0035]街道:由“國家地名地址數據規(guī)范”規(guī)定的四級行政區(qū)域,包含:區(qū)公所、鎮(zhèn)、鄉(xiāng)、蘇木、街道;
[0036]社區(qū):由“國家地名地址數據規(guī)范”規(guī)定的五級行政區(qū)域,包含:社區(qū)、居委會、行政村;
[0037]道路:道路、街、巷;
[0038]路號:門牌號;
[0039]片區(qū):區(qū)域性質的地址名,通常該名稱所代表的地址區(qū)域內容有數棟建筑,如科技園、深南花園、下沙村等;
[0040]樓棟:建筑物名稱,通指一棟建筑,如軟件大廈、I棟、2號樓、A座等;
[0041]房間:樓棟內的房間編號,如713 ;
[0042]其他:其他內容,用于標注用前述標注標簽無法標明的地址詞,如“與”、表示方位及位置關系的方位詞等。
[0043]在本發(fā)明一較佳實施例中,定義:
[0044]行政區(qū)域地址詞:由“國家地名地址數據規(guī)范”規(guī)定的一至五級行政區(qū)域統(tǒng)稱為行政區(qū)域地址詞;
[0045]門樓牌地址詞:道路與路號統(tǒng)稱為門樓牌地址詞。
[0046]并且定義各地址詞及相應的標注標簽的級別如下:
[0047]行政區(qū)域地址詞:1級;
[0048]門樓牌地址詞:2級;
[0049]片區(qū)地址詞:3級;
[0050]樓棟地址詞:4級;
[0051]房間地址詞:5級。
[0052]通過這樣的定義,除門樓牌地址詞外,可以簡單判定級別小的地址詞(空間上)包含級別大的地址詞。
[0053]在本發(fā)明的較佳實施例中,將標注標簽分為I級到5級共五個級別,以數字1-5分別表示各個級別,并且對于標注標簽“其他”未設定級別而是單獨列出,同時將prevLevel初始化的級別定為O級,可以方便后續(xù)的地址詞關系比較,簡化邏輯運算。實際上,應用本發(fā)明時,也可根據實際情況自行設定標簽的數量、級別(分組)及級別表示形式。
[0054]參見圖1,其為本發(fā)明復雜地址中多條路徑的分析方法的流程圖,主要包括:
[0055]步驟10、預先定義標注標簽所對應標注的地址詞的級別。標注標簽可以包括省、市、區(qū)、街道、社區(qū)、道路、路號、片區(qū)、樓棟、房間,還包括用于標注用前述標注標簽無法標明的地址詞的其他。用省、市、區(qū)、街道、社區(qū)標注標簽標注的行政區(qū)域地址詞的級別為I級,用道路、路號標注標簽標注的門樓牌地址詞的級別為2級,用片區(qū)標注標簽標注的片區(qū)地址詞的級別為3級,用樓棟標注標簽標注的樓棟地址詞的級別為4級,用房間標注標簽標注的房間地址詞的級別為5級。
[0056]步驟20、對輸入地址進行切分與標注,切分標注結果包括地址詞及對應的標注標簽。切分與標注可以基于隱馬爾可夫模型進行,也可以選用其他常用的方法。如“深圳市南山區(qū)軟件大廈713科興科學園A座1-501”切分標注的結果為:“深圳市/市,南山區(qū)/區(qū),軟件大廈/樓棟,713/房間,科興科學園/片區(qū),A座/樓棟,1-501/房間”。
[0057]步驟30、初始化一新的地址路徑;初始化標注標簽為其他的地址詞的數量otherNum為0,初始化上一個地址詞的級別prevLevel。新的地址路徑初始化后內容為空;prevLevel可以初始化為O級。
[0058]在本發(fā)