專利名稱:冷僻漢字的筆順子字檢索法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種漢字檢索方法,具體的說是一種冷僻漢字的筆順子字檢索法,該方法同樣適用普通漢字檢索。
背景技術(shù):
—、漢字檢索和輸入的時(shí)代背景和
背景技術(shù):
我國歷史悠久、文字發(fā)展時(shí)間漫長,所以文字存在數(shù)量巨大、字形多樣、一字多音、簡體與繁體共存、常 用字與冷僻字共存等現(xiàn)象。每個(gè)人由于文化水平、工作領(lǐng)域不相同,而導(dǎo)致很多文字在遇到時(shí)不知道發(fā)音、不知道偏旁、當(dāng)前輸入法不識(shí)別該字等問題。關(guān)于漢字檢索和輸入的現(xiàn)狀是:漢字的顯示問題初見解決,但檢索和輸入仍存在較多問題。近年來,計(jì)算機(jī)的處理已普及到了漢字處理的各個(gè)領(lǐng)域,縱觀漢字漢庫的發(fā)展史,我們發(fā)現(xiàn)可以分為兩個(gè)階段:最早大陸的GB2312 (收錄6763個(gè)常用簡體漢字)和港澳臺(tái)的BIG5碼(收錄13060個(gè)常用繁體漢字)同時(shí)出現(xiàn),只解決了常見漢字的顯示、和輸入問題,但仍存在冷僻漢字無法顯示、二者的互不兼容、輸入法多樣等問題;第二階段是Unicode漢字,該字庫收超過10萬多國文字,可以顯示絕大多數(shù)漢字,相比第一階段,也只是解決了冷僻字的顯示、中國大陸、港澳臺(tái)、海外漢字之間的兼容問題,但隨之而來未能解決的是其中漢字的輸入??v觀該字庫的特點(diǎn),對(duì)于冷僻字的輸入,如果照搬現(xiàn)有的輸入法,存在如下問題:1、以漢字發(fā)音為主的拼音輸入法將全面失效。作為中國人,都以能認(rèn)識(shí)中國字為榮,但據(jù)不完全統(tǒng)計(jì),漢字?jǐn)?shù)量本身就近十萬,即使這樣,隨著新的古籍的發(fā)現(xiàn),仍有增加的可能,除非是漢文字專家,否則幾乎沒有幾個(gè)人能認(rèn)識(shí)半數(shù)以上,更談不上某字的發(fā)音了,例如“籲、灌、鱺”的發(fā)音。因此拼音輸入法對(duì)冷僻字無法繼續(xù)使用。2、以拆字為主的字型輸入法將部分無效。當(dāng)引入冷僻字后,這些輸入法中存在的問題主要是會(huì)出現(xiàn)大量重碼。以五筆字型為例,其輸入法最大的優(yōu)勢(shì)就是重碼少,可以實(shí)現(xiàn)盲打,但當(dāng)隨著收錄編碼漢字的增多,重碼大大增加,使其優(yōu)勢(shì)盡失。二、本發(fā)明的背景知識(shí)1、筆順:相對(duì)于發(fā)音和拆字,筆順輸入法就簡單的多,只要知道筆順就可以寫字,而不必一定認(rèn)識(shí)所檢索和輸入的字。漢字中有“五筆劃”劃分法,即將漢字的筆劃劃分為“橫豎撇捺折”五種,其中:
權(quán)利要求
1.一種冷僻漢字的筆順子字檢索法,包括創(chuàng)建和檢索;所述的創(chuàng)建是給含有冷僻漢字的字庫增加筆順字段,按照寫字的筆劃順序,“橫豎撇捺折”分別用“ 12345”為碼值,將每個(gè)漢字的筆順代碼數(shù)據(jù)添加到筆順字段里;所述的漢字檢索方法是通過輸入筆順代碼數(shù)據(jù)檢索漢字。
2.根據(jù)權(quán)利要求1所述的冷僻漢字的筆順子字檢索法,其特征在于:對(duì)于復(fù)雜字或者冷僻字稱之為母字,對(duì)于母字采用兩步檢索,第一步是將母字按照寫字的筆劃順序分成多個(gè)子字和不能獨(dú)立成字筆順,采用其它輸入法檢索到每個(gè)子字,提取每個(gè)子字的筆順代碼數(shù)據(jù),將組成該母字各子字的筆順代碼數(shù)據(jù)和不能獨(dú)立成字筆順的筆順代碼數(shù)據(jù)合成該母字的筆順代碼數(shù)據(jù);第二步是通過合成的該母字的筆順代碼數(shù)據(jù)檢索到該母字。
3.根據(jù)權(quán)利要求1所述的冷僻漢字的筆順子字檢索法,其特征在于:所述的給含有冷僻漢字的數(shù)據(jù)庫筆順字段增加筆順代碼,采用如下步驟來實(shí)現(xiàn): (1)首先給冷僻漢字庫少量漢字的筆順字段手工錄入筆順代碼數(shù)據(jù); (2)采用上述兩步檢索的方法形成該母字筆順代碼數(shù)據(jù)并檢索該字; (3)檢索不到該母字證明是一個(gè)沒有賦予筆順代碼數(shù)據(jù)的新字,通過其它檢索方法檢索到該母字,并將步驟(2)形成的筆順代碼數(shù)據(jù)賦予該母字的筆順字段。
全文摘要
本發(fā)明公開了一種冷僻漢字的筆順子字檢索法,包括創(chuàng)建和檢索;所述的創(chuàng)建是給含有冷僻漢字的數(shù)據(jù)庫筆順字段生成編碼,按照寫字的筆劃順序,“橫豎撇捺折”分別用“12345”作為碼值,將每個(gè)漢字的筆順代碼數(shù)據(jù)添加到筆順字段里;所述的漢字檢索方法是通過輸入筆順代碼數(shù)據(jù)檢索漢字。該方法適合于古文研究、圖書館、古籍文獻(xiàn)的錄入、內(nèi)容查找等領(lǐng)域。首次采用將子字作為部件參與輸入法,通過筆順彌補(bǔ)子字不能涵蓋全字所有部件的缺點(diǎn),實(shí)現(xiàn)字根和筆順的任意組合,相對(duì)于拆字法該發(fā)明不需要窮舉所有的組合,支持模糊查詢。
文檔編號(hào)G06F17/30GK103164466SQ20111042232
公開日2013年6月19日 申請(qǐng)日期2011年12月16日 優(yōu)先權(quán)日2011年12月16日
發(fā)明者李瑞民, 杜根遠(yuǎn), 邱穎豫 申請(qǐng)人:李瑞民, 杜根遠(yuǎn), 邱穎豫