專利名稱:計算機輔助語料提取方法
技術領域:
本發(fā)明涉及一種計算機輔助語料提取方法,具體是利用計算機作為輔助,使得語言學研究者能夠更加方便、快捷地實現(xiàn)語料(本文指術語和句式)的提取和入庫,屬于計算機科學和語料庫語言學的交叉領域。
背景技術:
翻譯(中譯英、英譯中)一直以來都是語言學研究中一個十分重要的方面。為了讓語言學研究人員能夠更加方便、準確、高效地進行翻譯,近些年來語料庫的構(gòu)建逐漸成為一種新的技術手段,并得到越來越多的關注和研究。語料庫的目的就是將大量典型的外文術語、句式及其翻譯預先存入一個數(shù)據(jù)庫中,再以此為依據(jù)對新的語篇進行翻譯。這些典型的術語、句式一般來自于大家公認的經(jīng)典翻譯著作。因此,這里涉及到一項很重要的工作,就是需要從這些原始的經(jīng)典翻譯著作中提取出大量的語料,并錄入數(shù)據(jù)庫。由于這個數(shù)據(jù)庫規(guī)模龐大,因此語料提取工作費時費力,工作量浩大。目前,構(gòu)建語料庫的工作基本上還是依靠人工從原文中進行簡單的“復制” “粘貼”來完成,這樣做不但效率低而且很容易出錯。為了克服這個問題,國際上一些著名的語料處理軟件,如Trados,嘗試完全依靠計算機來實現(xiàn)語料的全自動提取。這樣做固然把人從繁重的勞動中解放出來,但是卻有一個很大的弊端目前計算機的長處在于運算能力強大,但是智能性卻有很大不足,因此最終導致提取出的語料錯誤較多,且有大量的有價值語料無法被完整地提取出來。基于以上考慮,計算機只能夠擔當輔助的功能,從一定程度上幫助研究人員實現(xiàn)原始語料的提取,而不能夠完全取代人承擔語料提取的工作。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決現(xiàn)有技術中的上述不足,提供一種計算機輔助語料提取方法,利用計算機作輔助,能夠有效地提高語料提取的效率,將人從繁重的提取工作中解放出來。為實現(xiàn)上述的目的,本發(fā)明所述的計算機輔助語料提取方法,包括如下步驟 第一步,提取需要入庫的中英文語料,并實時顯示選中內(nèi)容;
第二步,利用數(shù)據(jù)庫來保存用戶端錄入的術語和句式,所述數(shù)據(jù)庫包括術語庫和句式
庫;
第三步,根據(jù)數(shù)據(jù)庫的歷史語料信息,對術語庫或者句式庫進行更新。在第一步中,用戶端事先導入需要提取語料的句對文檔,該文檔中所有句對使用 SGML格式表示,典型表示如下
<TrU>
<Quality>71 <CrU>ALIGN! <CrD>18072010, 16:09<Seg L=EN-US>Prοteiηs constitute that class of biochemical compounds most characteristic of protoplasm and life.
<Seg L=ZH-CN>蛋白質(zhì)構(gòu)成的一類生物化學化合物最具有原生質(zhì)和生命的特征。</TrU>
為了將各組句對中的中英文句子分別放入顯示的文本框中,可以以<Seg L=EN-US>和 <Seg L=ZH-CN>為標志,它們后面的部分即為相應的英文和中文句子。然后在系統(tǒng)顯示的句對中采用按下鼠標左鍵進行涂抹的方法選中想要入庫的中英文語料,進而捕捉鼠標左鍵抬起的動作,在鼠標左鍵抬起之前選中的文本就是希望提取的語料。其中,術語和句式的提取方法是有不同的。由于術語的提取都是連續(xù)的,所以只要通過捕捉鼠標左鍵按下和抬起的動作,記錄下用戶端涂抹選中的術語即可。但是句式往往是不連續(xù)的,比如需要從英文句子“These amino acid side chains are found both in the interior and on the solvent protein interface in significant proportions. ” 中提取“both…and··· ”句式,此時就不能像提取術語那樣單純地捕捉一次鼠標左鍵按下和抬起的動作了。對于這種情況,本發(fā)明的處理方法是句式前半部分的提取與提取術語相同,系統(tǒng)會將記錄的前半部分存入字符串變量A,進而用戶端需按住Ctrl鍵以告知系統(tǒng)該句式是非連續(xù)的,目前只提取了其中的一部分,此時系統(tǒng)會自動生成省略號字符串“…”,記為B。然后用戶端可以再次按下鼠標左鍵涂抹選中句式的后半部分,這時選中的內(nèi)容記為變量C。最后生成的完整的句式就是A+B+C。至于實時顯示功能,就是將用戶端當前選擇的術語或句式存入某個臨時變量,并在文本框中顯示出這些變量的具體內(nèi)容。在第二步中,需要將用戶端之前選擇的語料存入數(shù)據(jù)庫,如果Visual Basic 6.0 環(huán)境,可以使用VB6. 0中自帶的Adodc控件,它能夠搭建起連接各種數(shù)據(jù)庫的橋梁。本發(fā)明中,Source Name為預先建立好的語料數(shù)據(jù)庫的名字PhrasExt,而RecordSource為數(shù)據(jù)庫中所含表的名字,根據(jù)需要可以是dbo. term (術語表)或dbo. pattern (句式表)。最后再使用Windows操作系統(tǒng)自帶的管理工具配置一下ODBC數(shù)據(jù)源即可。對于具體選擇的需要入庫的語料,可以使用ADO的AddNew方法實現(xiàn)。第三步是對數(shù)據(jù)庫進行更新。因為第二步實際上是對數(shù)據(jù)庫中的內(nèi)容進行了擴充,所以需要保存此時最新的數(shù)據(jù)庫記錄,即對數(shù)據(jù)庫內(nèi)容進行及時的更新,否則之前剛?cè)霂斓恼Z料記錄就會丟失。實現(xiàn)過程中,可以借助于ADO的Update方法來實現(xiàn)。利用本發(fā)明上述的語料提取方法,制作語料提取平臺,使得語料庫語言學研究者能夠更加方便、準確地提取原始語料;具有清晰的人機交互界面,后臺與大型數(shù)據(jù)庫相連, 針對術語和句式施以不同的字符串操作方法,提供了不同的提取策略。由于引入了計算機作輔助,因而較之于當前,本發(fā)明能夠有效地提高語料提取的效率,將人從繁重的提取工作中解放出來。
圖1是本發(fā)明實施例的語料提取系統(tǒng)的主界面圖。圖2是本發(fā)明實施例方法流程圖。
具體實施例方式以下結(jié)合附圖和實施例對本發(fā)明的技術方案作進一步的解釋,但是以下的內(nèi)容不用于限定本發(fā)明的保護范圍。如圖2所示,本實施例的語料提取方法流程圖,該流程包括選中需要入庫的中英文語料,并實時顯示選中內(nèi)容;將第一步選中的語料錄入數(shù)據(jù)庫,即術語庫或者句式庫;術語庫或者句式庫進行更新。本實施例具體實施包含以下的幾個方面
1、本實施例使用的環(huán)境為Visual Basic 6. 0(以下簡稱VB6. 0)。Visual Basic是一種由微軟公司開發(fā)的事件驅(qū)動編程語言。它源自于BASIC編程語言,擁有圖形用戶界面(GUI) 和快速應用程序開發(fā)(RAD)系統(tǒng),可以輕易的使用DA0、RD0、AD0連接數(shù)據(jù)庫,或者輕松的創(chuàng)建ActiveX控件。程序員可以輕松的使用Visual Basic提供的組件快速建立一個應用程序。2、數(shù)據(jù)庫部分使用Microsoft公司開發(fā)的大型數(shù)據(jù)庫軟件SQL Server 2005。該軟件構(gòu)建了一個功能強大的數(shù)據(jù)庫平臺。借助于這個軟件,用戶端可以使用、存儲和管理諸多類型的數(shù)據(jù),并可以對其中的數(shù)據(jù)進行搜索、查詢、分析、報表、整合等各項操作,從而大大提高了數(shù)據(jù)操作和處理的效率。
3、本實施例利用數(shù)據(jù)庫來保存用戶端錄入的術語和句式。相應地,數(shù)據(jù)庫里便包含兩張表術語表(dbo. term)禾口句式表(dbo. pattern)。術語表的設計如表1所示 表1術語表結(jié)構(gòu)
權(quán)利要求
1.一種計算機輔助語料提取方法,其特征在于包括如下步驟第一步,提取需要入庫的中英文語料,包括術語和句式,并實時顯示選中內(nèi)容;其中術語的提取是連續(xù)的,通過捕捉鼠標左鍵按下和抬起的動作,記錄下用戶端涂抹選中的術語; 句式前半部分的提取與提取術語相同,系統(tǒng)會將記錄的前半部分存入字符串變量A,進而用戶端按住Ctrl鍵,此時系統(tǒng)會自動生成省略號字符串“…”,記為B,然后用戶端再次按下鼠標左鍵涂抹選中句式的后半部分,這時選中的內(nèi)容記為變量C,最后生成的完整的句式就是 A+B+C ;第二步,利用數(shù)據(jù)庫來保存用戶端錄入的術語和句式,所述數(shù)據(jù)庫包括術語庫和句式庫;第三步,根據(jù)數(shù)據(jù)庫的歷史語料信息,更新數(shù)據(jù)庫。
2.根據(jù)權(quán)利要求1所述的計算機輔助語料提取方法,其特征在于在第一步中,用戶端事先導入需提取語料的句對文檔,該文檔中所有句對使用SGML格式表示,以<Seg L=EN-US>和<Seg L=ZH_CN>為標志,它們后面的部分為相應的英文和中文句子,然后在系統(tǒng)顯示的句對中選中想要入庫的中英文語料。
3.根據(jù)權(quán)利要求1所述的計算機輔助語料提取方法,其特征在于在第一步中,所述的實時顯示,是指將用戶端當前選擇的術語或句式存入某個臨時變量,并在文本框中顯示出這些變量的具體內(nèi)容。
4.根據(jù)權(quán)利要求1所述的計算機輔助語料提取方法,其特征在于在第二步中,將用戶端之前選擇的語料存入數(shù)據(jù)庫,如果為Visual Basic 6. 0環(huán)境,使用VB6. 0中自帶的Adodc 控件,它能夠搭建起連接各種數(shù)據(jù)庫的橋梁;Source Name為預先建立好的語料數(shù)據(jù)庫的名字PhrasExt,而RecordSource為數(shù)據(jù)庫中所含表的名字,即dbo. term術語表或dbo. pattern句式表,最后再使用Windows操作系統(tǒng)自帶的管理工具配置一下ODBC數(shù)據(jù)源。
5.根據(jù)權(quán)利要求1或4所述的計算機輔助語料提取方法,其特征在于在第二步中,對于用戶端具體選擇的需要入庫的語料,使用ADO的AddNew方法實現(xiàn)。
6.根據(jù)權(quán)利要求1所述的計算機輔助語料提取方法,其特征在于第三步中,對數(shù)據(jù)庫內(nèi)容進行及時的更新,否則之前剛?cè)霂斓恼Z料記錄就會丟失,實現(xiàn)過程中,借助于ADO的 Update方法來實現(xiàn)。
全文摘要
本發(fā)明公開一種計算機輔助語料提取方法,方法為提取需入庫的中英文語料,并實時顯示選中內(nèi)容;其中術語的提取是連續(xù)的,通過捕捉鼠標左鍵按下和抬起的動作,記錄下用戶端涂抹選中的術語;句式前半部分的提取與提取術語相同,系統(tǒng)會將記錄的前半部分存入字符串變量A,進而用戶端按住Ctrl鍵,此時系統(tǒng)會自動生成省略號字符串“…”,記為B,然后用戶端再次按下鼠標左鍵涂抹選中句式的后半部分,這時選中的內(nèi)容記為變量C,最后生成的完整的句式就是A+B+C;利用數(shù)據(jù)庫來保存用戶端錄入的術語和句式;更新術語庫或者句式庫。本發(fā)明利用計算機作輔助,能有效地提高語料提取的效率,將人從繁重的提取工作中解放出來。
文檔編號G06F17/30GK102270242SQ201110234409
公開日2011年12月7日 申請日期2011年8月16日 優(yōu)先權(quán)日2011年8月16日
發(fā)明者宮辰, 楊杰, 管新潮 申請人:上海交通大學出版社有限公司