文檔分析系統(tǒng)、圖像處理裝置以及分析服務(wù)器的制造方法
【專利摘要】本發(fā)明提供一種文檔分析系統(tǒng)、圖像處理裝置以及分析服務(wù)器。圖像處理裝置被構(gòu)造為從通過掃描文檔而獲得的圖像數(shù)據(jù)提取文本數(shù)據(jù),并向分析服務(wù)器順次發(fā)送所提取的文本數(shù)據(jù)的分割片段,直到從分析服務(wù)器接收到針對圖像數(shù)據(jù)的候選存儲位置為止。分析服務(wù)器被構(gòu)造為基于所發(fā)送的文本數(shù)據(jù)的分割片段進(jìn)行分析,并根據(jù)候選存儲位置的確定,向圖像處理裝置返回候選存儲位置。
【專利說明】
文檔分析系統(tǒng)、圖像處理裝置以及分析服務(wù)器
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及將通過掃描而獲得的圖像數(shù)據(jù)存儲到預(yù)定的存儲位置中的技術(shù)?!颈尘凹夹g(shù)】
[0002]近年來,在諸如法律事務(wù)所等的、處理大量紙質(zhì)文檔的商業(yè)領(lǐng)域中,已考慮過如下的系統(tǒng),該系統(tǒng)利用配備有掃描功能的圖像處理裝置,將紙質(zhì)文檔轉(zhuǎn)換為電子圖像數(shù)據(jù),并在與紙質(zhì)文檔的圖像數(shù)據(jù)相關(guān)的存儲位置中對紙質(zhì)文檔的圖像數(shù)據(jù)進(jìn)行分類和管理。為了選擇用于存儲所掃描的紙質(zhì)文檔的圖像數(shù)據(jù)的存儲位置,已經(jīng)采用了如下的方法,在該方法中,用戶手動指定存儲位置,或者通過利用諸如過去使用的歷史存儲位置、預(yù)先登記的書簽等來選擇存儲位置。
[0003]同樣,也考慮過如下的方法,該方法包括通過使用從文檔數(shù)據(jù)提取的字符串來搜索關(guān)于存儲位置的屬性信息,并將基于搜索結(jié)果識別的存儲位置作為候選存儲位置呈現(xiàn)給用戶(參見日本特開2008-234078號公報)。
[0004]在此,圖像處理裝置可以將通過掃描而獲得的紙質(zhì)文檔的文本數(shù)據(jù),發(fā)送到如日本特開2008-234078號公報中所描述的信息處理裝置,并且該信息處理裝置可以向發(fā)送者通知候選存儲位置。然而,在該方法中,上述處理可能會花費(fèi)時間。例如,在所掃描的紙質(zhì)文檔有很多頁的情況下,信息處理裝置可能只能在等待所有文本數(shù)據(jù)被接收之后才進(jìn)行搜索處理,或者可能需要時間來進(jìn)行基于大量文本數(shù)據(jù)的搜索處理。因此,存在如下的問題,即, 在向用戶呈現(xiàn)合適的存儲位置之前需要花費(fèi)時間。
【發(fā)明內(nèi)容】
[0005]根據(jù)本發(fā)明的文檔分析系統(tǒng)是包括圖像處理裝置和分析服務(wù)器的文檔分析系統(tǒng), 其中,所述圖像處理裝置包括:提取單元,其被構(gòu)造為從通過掃描文檔而獲得的圖像數(shù)據(jù)提取文本數(shù)據(jù);第一發(fā)送單元,其被構(gòu)造為向所述分析服務(wù)器順次發(fā)送文本數(shù)據(jù)的分割片段, 直到從所述分析服務(wù)器接收到針對所述圖像數(shù)據(jù)的候選存儲位置為止;選擇單元,其被構(gòu)造為呈現(xiàn)從所述分析服務(wù)器接收到的所述候選存儲位置,并提示用戶選擇存儲位置;以及第二發(fā)送單元,其被構(gòu)造為向由用戶選擇的所述存儲位置發(fā)送所述圖像數(shù)據(jù),并且,其中, 所述分析服務(wù)器包括:分析單元,其被構(gòu)造為通過對從所述第一發(fā)送單元順次發(fā)送的文本數(shù)據(jù)的分割片段順次進(jìn)行分析,來獲得候選存儲位置;以及返回單元,其被構(gòu)造為在所述分析單元獲得了候選存儲位置時,向所述圖像處理裝置返回候選存儲位置。
[0006]根據(jù)以下(參照附圖)對示例性實(shí)施例的描述,本發(fā)明的其他特征將變得清楚?!靖綀D說明】
[0007]圖1是示出根據(jù)實(shí)施例的系統(tǒng)的構(gòu)造示例的圖。
[0008]圖2是示出實(shí)施例中的圖像處理裝置的硬件構(gòu)造的框圖。
[0009]圖3是示出實(shí)施例中的分析服務(wù)器和文件服務(wù)器中的各個的硬件構(gòu)造的圖。
[0010]圖4是用于描述實(shí)施例中的分析服務(wù)器的軟件構(gòu)造的圖。
[0011]圖5是用于描述實(shí)施例中的向圖像處理裝置提供的應(yīng)用的軟件構(gòu)造的圖。
[0012]圖6是實(shí)施例中的圖像處理裝置的操作顯示單元的示例。[〇〇13]圖7是實(shí)施例中的圖像處理裝置的操作顯示單元的示例。[〇〇14]圖8是示出圖8A和圖8B之間的關(guān)系的圖。[0〇15]圖8A和圖8B是實(shí)施例中的處理的整體序列圖。
[0016]圖9是用于提示用戶從候選存儲位置中選擇合適的存儲位置信息的窗口的示例。 [〇〇17]圖10是示出圖10A和圖10B之間的關(guān)系的圖。[〇〇18]圖10A和圖10B是實(shí)施例中的文本分析處理的整體流程圖。
[0019]圖11示出圖11A和圖11B之間的關(guān)系的圖。
[0020]圖11A和圖11B是示出在要發(fā)送的數(shù)據(jù)基于文本大小被改變的另一實(shí)施例中的處理的整體流程圖。【具體實(shí)施方式】
[0021]下面將參照附圖詳細(xì)描述本發(fā)明的實(shí)施例。請注意,在下面的實(shí)施例中要示出的構(gòu)造僅僅是示例,本發(fā)明不限于所示的構(gòu)造。[〇〇22][實(shí)施例1]
[0023]圖1是示出本實(shí)施例中的文檔分析系統(tǒng)的示例的構(gòu)造示例。該系統(tǒng)包括經(jīng)由網(wǎng)絡(luò) 100相互連接的圖像處理裝置101、分析服務(wù)器102以及文檔服務(wù)器103。網(wǎng)絡(luò)100是用于在該些裝置之間進(jìn)行通信的基礎(chǔ)設(shè)施,可以是局域網(wǎng)、因特網(wǎng)或者不同的網(wǎng)絡(luò)系統(tǒng)。[〇〇24]圖像處理裝置101被構(gòu)成為例如配備有web瀏覽器功能等的多功能外圍設(shè)備 (MFP)。同樣地,圖像處理裝置101可以通過本地IP地址來管理。在這種情況下,在網(wǎng)絡(luò)100和圖像處理裝置101之間存在網(wǎng)關(guān)(未示出),并且網(wǎng)關(guān)進(jìn)行地址轉(zhuǎn)譯。網(wǎng)關(guān)例如包括路由器等。同樣地,網(wǎng)關(guān)或圖像處理裝置101可以配備有防火墻功能。分析服務(wù)器102用以獲得存儲在文件服務(wù)器103中的文件,從其中提取關(guān)鍵字,并將其存儲在數(shù)據(jù)庫(DB)中。分析服務(wù)器 102還用以將DB中存儲的關(guān)鍵字和從比較對象文本數(shù)據(jù)中提取的關(guān)鍵字進(jìn)行比較,并呈現(xiàn)存儲有與文本數(shù)據(jù)相似的文件的候選存儲位置。文件服務(wù)器103用以保存諸如通過掃描紙質(zhì)文檔而獲得的圖像數(shù)據(jù)等的文件。文件服務(wù)器103根據(jù)來自圖像處理裝置101或分析服務(wù)器102的請求來存儲文件,或者獲得并發(fā)送所存儲的文件。[〇〇25]圖2是示出圖像處理裝置101的硬件構(gòu)造的示例性框圖。圖像處理裝置101包括控制單元218、網(wǎng)絡(luò)單元216、圖像存儲器217、HDD 219、操作顯示單元212、掃描器單元213、以及打印機(jī)單元214??刂茊卧?18包括CPU 220、R0M 221、以及RAM 222。[〇〇26]控制單元218被構(gòu)造為對圖像處理裝置101的整體操作進(jìn)行控制。CPU 220被構(gòu)造為讀出在ROM 221中存儲的控制程序,并進(jìn)行諸如讀出控制和發(fā)送控制等的各種控制處理。 RAM 222被用作針對CPU 220的、諸如主存儲器或工作區(qū)域的臨時存儲區(qū)域??刂茊卧?18也被構(gòu)造為對操作顯示單元212、掃描器單元213、打印機(jī)單元214以及網(wǎng)絡(luò)單元216的操作進(jìn)行控制??刂茊卧?18還被構(gòu)造為從圖像存儲器217和HDD 219讀出各種類型的數(shù)據(jù),并將各種類型的數(shù)據(jù)寫到圖像存儲器217和HDD 219。[〇〇27]在操作顯示單元212中,配置有諸如配備了觸摸屏功能的液晶顯示器、鍵盤以及其他相關(guān)部件等的顯示單元。操作顯示單元212在操作顯示單元212上顯示操作窗口。掃描器單元213被構(gòu)造為通過掃描原稿的圖像來生成圖像數(shù)據(jù),并向控制單元218輸出該圖像數(shù)據(jù)。打印機(jī)單元214被構(gòu)造為將從控制單元218輸出的圖像數(shù)據(jù)打印到片材上。
[0028]網(wǎng)絡(luò)單元216被構(gòu)造為向指定位置發(fā)送從由掃描器單元213讀取的所保存的圖像數(shù)據(jù)中提取的文本數(shù)據(jù)。網(wǎng)絡(luò)單元216也被構(gòu)造為從外部信息處理裝置(未示出)接收打印圖像數(shù)據(jù),并通過將控制單元218連接到網(wǎng)絡(luò)100來接收要在操作顯示單元212上顯示的圖像數(shù)據(jù)。[〇〇29] HDD 219被構(gòu)造為存儲圖像數(shù)據(jù)和各種程序。本實(shí)施例中的各種程序也存儲在HDD 219中。請注意,從外部信息處理裝置接收到的打印圖像數(shù)據(jù)被臨時存儲在圖像存儲器217 中,并經(jīng)由控制單元218通過打印機(jī)單元214進(jìn)行打印。
[0030]圖3是本實(shí)施例中的分析服務(wù)器102和文件服務(wù)器103中的各個的示例性硬件構(gòu)造圖。分析服務(wù)器102和文件服務(wù)器103中的各個包括:CPU 301,其被構(gòu)造為控制服務(wù)器;RAM 302,為CPU 301提供工作區(qū)域;存儲單元303,其被構(gòu)造為存儲在服務(wù)器上運(yùn)行的程序及設(shè)定;以及網(wǎng)絡(luò)單元304,其被構(gòu)造為經(jīng)由網(wǎng)絡(luò)100與其他裝置進(jìn)行通信;以及主總線300。 [〇〇31] 請注意,除非另外注明,對本實(shí)施例進(jìn)行實(shí)施,使得CPU 301經(jīng)由主總線300對RAM 302、存儲單元303以及網(wǎng)絡(luò)單元304進(jìn)行控制。
[0032]圖4是用于描述本實(shí)施例中的分析服務(wù)器102的軟件構(gòu)造的圖。圖4中示出的各功能單元通過由分析服務(wù)器102的CPU 301運(yùn)行的控制程序來實(shí)施。[0〇33] 分析服務(wù)器102包括通信單元401、分析請求接收處理單元402、分析請求處理單元 403、爬行器單元404、爬行器結(jié)果處理單元405、關(guān)鍵字提取單元406、以及文件信息DB單元 407 〇[〇〇34] 爬行器單元404被構(gòu)造為經(jīng)由通信單元401,對文件服務(wù)器103中存儲的文件(電子數(shù)據(jù))以及表示文件的存儲位置的信息進(jìn)行收集。各存儲位置例如是存儲文件的文件夾等。 表示該存儲位置的信息是文件夾的名稱、關(guān)于指向文件夾的路徑的信息等。爬行器單元404 被構(gòu)造為對關(guān)于要存儲在文件服務(wù)器103中的新文件或更新的文件的信息進(jìn)行收集。爬行器單元404不對關(guān)于已收集的文件的信息進(jìn)行收集。爬行器單元404被構(gòu)造為將收集到的文件及它們的存儲位置信息傳遞到爬行器結(jié)果處理單元405。[〇〇35] 爬行器結(jié)果處理單元405被構(gòu)造為將從爬行器單元404接收到的文件傳遞到關(guān)鍵字提取單元406,并接收作為響應(yīng)的、從文件提取的關(guān)鍵字提取結(jié)果。爬行器結(jié)果處理單元 405被構(gòu)造為隨后將從關(guān)鍵字提取單元406接收到的關(guān)鍵字提取結(jié)果、以及相應(yīng)的存儲位置信息保存到文件信息DB單元407中。因此,在文件信息DB單元407中,與存儲在它們各自存儲位置中的文件相對應(yīng)的合適關(guān)鍵字,與文件的存儲位置信息相關(guān)聯(lián)地被保存。
[0036]關(guān)鍵字提取單元406被構(gòu)造為進(jìn)行從文本數(shù)據(jù)或所接收到的文件提取關(guān)鍵字信息的處理。關(guān)鍵字提取單元406也被構(gòu)造為進(jìn)行對關(guān)鍵字等出現(xiàn)的數(shù)量進(jìn)行計數(shù)的處理。例如,關(guān)鍵字提取單元406從文件的屬性信息提取關(guān)鍵字,或?qū)ξ臋n文件的文本數(shù)據(jù)進(jìn)行分析。然后,關(guān)鍵字提取單元406通過利用諸如出現(xiàn)頻率等的統(tǒng)計的指標(biāo)(statistical index),進(jìn)行對頻繁出現(xiàn)在技術(shù)術(shù)語中的復(fù)合名詞等作為關(guān)鍵字進(jìn)行提取的處理。關(guān)鍵字提取單元406也進(jìn)行分析文本數(shù)據(jù)、并根據(jù)來自稍后將描述的分析請求處理單元403的請求來提取關(guān)鍵字的處理。[0〇37]分析請求接收處理單元402被構(gòu)造為經(jīng)由通信單元401,接收對來自圖像處理裝置 101的文本數(shù)據(jù)進(jìn)行分析的請求。該來自圖像處理裝置101的文本數(shù)據(jù)是通過字符識別處理 (OCR處理)、從由圖像處理裝置101掃描的圖像中提取的文本數(shù)據(jù)??傊治稣埱蠼邮仗幚韱卧?02對從由圖像處理裝置101掃描的圖像中、由圖像處理裝置101通過OCR處理提取的文本數(shù)據(jù)進(jìn)行接收。分析請求接收處理單元402也被構(gòu)造為進(jìn)行如下的處理,S卩,向圖像處理裝置101發(fā)送通過由下面將描述的分析請求處理單元403進(jìn)行的處理而獲得的分析結(jié)果,作為響應(yīng)。[0〇38]分析請求處理單元403被構(gòu)造為將由分析請求接收處理單元402接收到的文本數(shù)據(jù)傳到關(guān)鍵字提取單元406,并接收針對文本數(shù)據(jù)的關(guān)鍵字提取結(jié)果。分析請求處理單元 403也被構(gòu)造為進(jìn)行如下的處理,S卩,獲得諸如文件信息DB單元407中存儲的文件中的關(guān)鍵字等的信息,并將其與針對所接收到的文本數(shù)據(jù)的關(guān)鍵字提取結(jié)果進(jìn)行比較。分析請求處理單元403被構(gòu)造為在比較之后,將列表作為分析結(jié)果傳到分析請求接收處理單元402,該列表表示用于將文件與所接收到的文本數(shù)據(jù)中的關(guān)鍵字相似的關(guān)鍵字相關(guān)聯(lián)地進(jìn)行存儲的候選存儲位置。
[0039]圖5是用于描述本實(shí)施例中的針對配設(shè)給圖像處理裝置101的分析服務(wù)器102的應(yīng)用500的軟件構(gòu)造的圖。在圖像處理裝置101中,應(yīng)用500存儲在ROM 221中,并由CPU 220運(yùn)行。應(yīng)用500包括通信單元501、處理單元502以及窗口顯示單元503。[〇〇4〇] 處理單元502被構(gòu)造為經(jīng)由通信單元501與分析服務(wù)器102和文件服務(wù)器103進(jìn)行通信。請注意,稍后將參照圖8A和圖8B描述主要包含處理單元502的一系列處理的序列。作為主處理,首先,處理單元502經(jīng)由圖像處理裝置101的控制單元218指示掃描器單元213進(jìn)行掃描。然后,處理單元502將從由掃描器單元213通過掃描紙質(zhì)文檔等而獲得的所掃描的圖像數(shù)據(jù)(電子數(shù)據(jù))、通過OCR處理提取的文本數(shù)據(jù),發(fā)送到分析服務(wù)器102。然后,處理單元502接收分析結(jié)果作為響應(yīng)。如上所述,分析結(jié)果是候選存儲位置信息。然后,處理單元 502將通過由掃描器單元213掃描而獲得的所掃描的圖像數(shù)據(jù),發(fā)送到基于候選存儲位置信息選擇的文件服務(wù)器103中的存儲位置,并指示文件服務(wù)器103將文件存儲在該位置。下文中,將所掃描的圖像數(shù)據(jù)簡稱為掃描數(shù)據(jù)。
[0041] 窗口顯示單元503被構(gòu)造為進(jìn)行將操作顯示單元212上的窗口顯示給用戶的處理。 具體而言,窗口顯示單元503顯示操作窗口,并根據(jù)用戶對操作窗口的操作,向處理單元502 做出處理請求。[〇〇42]圖6是本實(shí)施例中的圖像處理裝置101的操作顯示單元212上顯示的操作窗口 600 的示例。在該操作窗口 600中,顯示有能夠?qū)D像處理裝置101上可用的應(yīng)用進(jìn)行訪問的按鈕。用戶一按下按鈕,則啟動所按下的應(yīng)用。請注意,該操作窗口 600是根據(jù)按下配設(shè)給圖像處理裝置101的主菜單鍵(未示出)而顯示的主菜單窗口。例如,一按下按鈕601,則顯示“掃描并發(fā)送”應(yīng)用。[〇〇43]圖7是本實(shí)施例中的圖像處理裝置101的操作顯示單元212的示例,并且是針對用戶用來掃描原稿并發(fā)送所掃描的原稿的應(yīng)用500的窗口的示例。在掃描器單元213上放置了原稿的狀態(tài)下,用戶按下了開始鍵701時,進(jìn)行掃描。[〇〇44]圖8A和圖8B是本實(shí)施例中的、根據(jù)用戶使用應(yīng)用500的操作窗口(圖7中所示)以將掃描數(shù)據(jù)存儲到文件服務(wù)器103的、從對原稿進(jìn)行掃描的整體序列圖。下面將根據(jù)如下的要點(diǎn)來描述該處理,即,在用戶按下圖像處理裝置101的主菜單鍵(未示出)時,顯示圖6所示的操作窗口 600。[〇〇45] 在步驟S801中,操作顯示單元212顯示圖6中所示的主菜單窗口。在所顯示的窗口上通過用戶操作按下了與應(yīng)用500相對應(yīng)的按鈕時,操作顯示單元212在步驟S802中通知應(yīng)用500選擇了該應(yīng)用。在步驟S803中,響應(yīng)于該通知,應(yīng)用500將關(guān)于應(yīng)用500的初始窗口的信息發(fā)送到操作顯示單元212,并指示操作顯示單元212顯示初始窗口。在步驟S804中,操作顯示單元212顯示所接收到的初始窗口。然后,在掃描器單元213上放置了原稿的狀態(tài)下,在通過用戶操作按下了應(yīng)用500的開始鍵時,操作顯示單元212在步驟S805中通知應(yīng)用500按下了開始鍵。在步驟S806中,響應(yīng)于按下了開始鍵的通知,應(yīng)用500指示掃描器單元213進(jìn)行掃描。在步驟S807中,掃描器單元213掃描原稿以生成掃描數(shù)據(jù)(電子數(shù)據(jù))。在步驟S808中, 掃描器單元213通知應(yīng)用500完成了掃描。在步驟S809中,響應(yīng)于完成了掃描的通知,應(yīng)用 500從步驟S807中由掃描器單元213生成的掃描數(shù)據(jù)中進(jìn)行文本提取。具體而言,在步驟 S809中,應(yīng)用500通過對掃描數(shù)據(jù)進(jìn)行字符識別處理(OCR處理)來提取文本數(shù)據(jù)。
[0046]在步驟S810中,應(yīng)用500將所提取的文本數(shù)據(jù)發(fā)送到分析服務(wù)器102,并獲得作為響應(yīng)的分析結(jié)果(針對掃描數(shù)據(jù)的候選存儲位置信息)。請注意,稍后將參照圖10A和圖10B 來描述步驟S810中的處理的詳細(xì)內(nèi)容。[〇〇47]在步驟S811中,應(yīng)用500基于步驟S810中獲得的候選存儲位置信息,生成關(guān)于用來提示用戶選擇存儲位置的窗口的信息。在步驟S812中,應(yīng)用500指示操作顯示單元212顯示該窗口。在步驟S813中,操作顯示單元212顯示該窗口。下面將參照圖9來描述基于候選存儲位置信息而生成的窗口的示例。
[0048]圖9是示出本實(shí)施例中的、基于作為分析服務(wù)器102進(jìn)行的分析結(jié)果的候選存儲位置信息而生成的窗口的示例的圖。窗口900是用于提示用戶從候選存儲位置中選擇合適的存儲位置的窗口。在窗口900中,顯示候選存儲位置901。在該示例中,存儲了存儲位置的文件夾名稱。用戶從候選存儲位置901中選擇期望的存儲位置,并按下發(fā)送按鈕902。結(jié)果是, 步驟S808中獲得的掃描數(shù)據(jù)被發(fā)送到文件服務(wù)器103。[〇〇49]返回參照圖8A和圖8B,將進(jìn)一步描述序列。在用戶操作選擇了候選位置并按下了發(fā)送按鈕時,操作顯示單元212在步驟S814中通知應(yīng)用500按下了發(fā)送按鈕。在步驟S815中, 響應(yīng)于該通知,應(yīng)用500指示網(wǎng)絡(luò)單元216發(fā)送掃描數(shù)據(jù),該指令包括存儲位置的指定。在步驟S816中,響應(yīng)于該指令,網(wǎng)絡(luò)單元216將由掃描器單元213生成的掃描數(shù)據(jù)發(fā)送到文件服務(wù)器103。在步驟S817中,在接收到掃描數(shù)據(jù)時,文件服務(wù)器103將掃描數(shù)據(jù)存儲到指定的保存位置中。在步驟S818中,文件服務(wù)器103返回表示完成了保存處理的響應(yīng)。在步驟S819中, 網(wǎng)絡(luò)單元216向應(yīng)用500返回響應(yīng)。在步驟S820中,應(yīng)用500指示操作顯示單元212顯示發(fā)送完成窗口。在步驟S821中,操作顯示單元212顯示完成窗口,并結(jié)束處理。
[0050]圖10A和圖10B是示出本實(shí)施例中的、圖9中的步驟S810中的文本分析處理的整體流程圖。
[0051]在描述流程圖之前,將簡單描述文本分析處理的概述。在本實(shí)施例中的文本分析處理中,不將由圖像處理裝置101提取的整個文本數(shù)據(jù)發(fā)送到分析服務(wù)器102。而是根據(jù)需要選擇文本數(shù)據(jù)的片段并順次發(fā)送該文本數(shù)據(jù)的片段。首先,分析服務(wù)器102通過利用文本數(shù)據(jù)的第一選擇片段來查找第一分析結(jié)果。然后,分析服務(wù)器102將文本數(shù)據(jù)的第一片段、與在第一片段之后發(fā)送的、作為文本數(shù)據(jù)的所選擇片段的文本數(shù)據(jù)的第二片段進(jìn)行組合, 并通過利用所組合的文本數(shù)據(jù)來查找第二分析結(jié)果。在第一分析結(jié)果與第二分析結(jié)果相似的情況下,不做進(jìn)一步的分析,并將第二分析結(jié)果發(fā)送到圖像處理裝置101。通常,原稿往往在簡介部分和/或前幾頁中包含重要的關(guān)鍵字,而在特定頁之后往往提取到相似的關(guān)鍵字。 考慮到這個方面,在本實(shí)施例中,圖像處理裝置101進(jìn)行向分析服務(wù)器102發(fā)送根據(jù)需要所提取的文本數(shù)據(jù)的片段的處理,而不是發(fā)送整個文本數(shù)據(jù),并接收分析結(jié)果。如上所述,通過避免發(fā)送整個文本數(shù)據(jù)并且避免基于整個文本數(shù)據(jù)的分析處理,能夠向用戶快速呈現(xiàn)分析結(jié)果。下面將隨著流程圖來具體描述文本分析處理。[〇〇52]首先,在步驟S1001中,圖像處理裝置101進(jìn)行初始化處理。在初始化處理中,將部分編號N(part number)初始化為1,并將要用來選擇由圖像處理裝置101提取的文本的片段的選擇開始位置,初始化為頭位置。部分編號代表分配給文本的所選擇的片段的序列號。在本實(shí)施例中,圖像處理裝置101將所提取的文本數(shù)據(jù)的片段發(fā)送到分析服務(wù)器102,而不是發(fā)送整個所提取的文本數(shù)據(jù)。為此,部分編號用作標(biāo)識符,以識別要發(fā)送的文本數(shù)據(jù)的所選擇的片段。
[0053]在步驟S1002中,從所提取的文本數(shù)據(jù)中,圖像處理裝置101從選擇開始位置選擇特定大小的文本數(shù)據(jù)的片段。下文中將特定大小的文本數(shù)據(jù)的片段稱為“文本數(shù)據(jù)的分割片段”。請注意,特定大小可以是特定的文本字符數(shù)或文本數(shù)據(jù)的特定數(shù)據(jù)大小。選擇的大小和設(shè)置大小的方法可以視情況而定。在步驟S1003中,圖像處理裝置101將步驟S1002中選擇的文本數(shù)據(jù)的分割片段與部分編號相關(guān)聯(lián),并將它們發(fā)送到分析服務(wù)器102。[〇〇54]在步驟S1004中,分析服務(wù)器102接收從圖像處理裝置101發(fā)送的文本數(shù)據(jù)的分割片段。在步驟S1005中,分析服務(wù)器102確定所接收到的文本數(shù)據(jù)的分割片段是否為空。例如,在文本數(shù)據(jù)的分割片段中包含的文本字符數(shù)為零的情況下,在文本數(shù)據(jù)的分割片段的數(shù)據(jù)大小是小于預(yù)定值的情況下,或者在其他相似的情況下,文本數(shù)據(jù)的分割片段為空。
[0055]在步驟S1005中確定所接收到的文本數(shù)據(jù)的分割片段為空的情況下,分析服務(wù)器 102在步驟S1006中確定N是否等于1,即,文本數(shù)據(jù)的分割片段是否已經(jīng)根據(jù)第一發(fā)送請求被發(fā)送。在步驟S1006中確定N=1的情況下,由于沒有要分析的文本,所以分析服務(wù)器102在步驟S1007中向圖像處理裝置101返回分析失敗錯誤通知作為響應(yīng)。另一方面,在步驟S1006 中確定N#1的情況下,分析服務(wù)器102確定不存在圖像處理裝置101能夠選擇的文本。然后, 在步驟S1008中,分析服務(wù)器102向圖像處理裝置101返回關(guān)于前一部分編號的分析結(jié)果 (即,一直到部分編號N-1的分析結(jié)果)作為響應(yīng)。
[0056]在步驟S1005中確定文本數(shù)據(jù)的分割片段不為空的情況下,分析服務(wù)器102對步驟 S1009中組合文本數(shù)據(jù)進(jìn)行分析,該組合文本數(shù)據(jù)通過將一直到部分編號N的文本數(shù)據(jù)的所有分割片段進(jìn)行組合而獲得。在步驟S1010中確定N=1的情況下,S卩,文本數(shù)據(jù)的分割片段是第一文本數(shù)據(jù)的分割片段,則分析服務(wù)器102在步驟S1011中將部分編號為1的文本數(shù)據(jù)的片段和分析結(jié)果保存到文件信息DB單元407中。然后,在步驟S1012中,分析服務(wù)器102將用于發(fā)送文本數(shù)據(jù)的另一分割片段的請求發(fā)送到圖像處理裝置101作為響應(yīng)。在本實(shí)施例中,根據(jù)需要,從圖像處理裝置101順次發(fā)送文本數(shù)據(jù)的分割片段。為此,不將關(guān)于作為文本數(shù)據(jù)的第一分割片段的、部分編號為1的文本數(shù)據(jù)的片段的分析結(jié)果發(fā)送到圖像處理裝置 101,而是保存到文件信息DB單元407中。
[0057]在已經(jīng)存在一直到最后一輪(部分編號N-1)文本數(shù)據(jù)的有效片段、并且也已經(jīng)保存了關(guān)于一直到部分編號N-1的文本數(shù)據(jù)的片段的分析結(jié)果的情況下,分析服務(wù)器102在步驟S1010中確定N辛1。因此,在步驟S1010中確定N辛1的情況下,分析服務(wù)器102在步驟S1013 中將一直到部分編號N的分析結(jié)果、與文件信息DB單元407中保存的一直到部分編號N-1的分析結(jié)果(即,一直到最后一輪分析結(jié)果)進(jìn)行比較。在步驟S1014中,在比較結(jié)果是小于閾值的結(jié)果的情況下,必須進(jìn)行額外的分析,因此處理從步驟S1011繼續(xù)。具體而言,如上所述,在步驟S1011中對一直到部分編號N的組合文本數(shù)據(jù)及其分析結(jié)果進(jìn)行保存,并在步驟 S1012中,將用于發(fā)送文本數(shù)據(jù)的另一分割片段的請求,發(fā)送到圖像處理裝置101作為響應(yīng)。 [〇〇58]另一方面,在步驟S1014中,在比較結(jié)果是大于或等于閾值的結(jié)果的情況下,分析服務(wù)器102將步驟S1008中的、作為響應(yīng)的關(guān)于部分編號N的分析結(jié)果,發(fā)送到圖像處理裝置 101。如前所述,分析結(jié)果是表示候選存儲位置的信息。更具體而言,分析結(jié)果可以是以相似度遞減的順序排列的存儲位置的列表。在此,具有高相似度的文件夾可以是“包含多個與文本數(shù)據(jù)相關(guān)的文件”的文件夾、“包含與文本數(shù)據(jù)高度相關(guān)的文件”的文件夾等。在步驟 S1014中,例如,在關(guān)于列表的候選存儲位置的項(xiàng)目和順序依然保持是大于或等于閾值的相似度的情況下(即,實(shí)質(zhì)上未改變),將關(guān)于部分編號N的分析結(jié)果發(fā)送到客戶端。簡言之,如上所述,由于實(shí)際上無需針對文本數(shù)據(jù)的任何進(jìn)一步分析,所以此時終止分析處理。另一方面,在最后分析結(jié)果和當(dāng)前分析結(jié)果之間的比較結(jié)果是小于閾值的情況下(在候選存儲位置列表的內(nèi)容在最后一者與當(dāng)前一者之間是不同的情況下),進(jìn)一步進(jìn)行分析處理。換句話說,在獲得穩(wěn)定的分析結(jié)果之前,通過添加文本數(shù)據(jù)的片段來進(jìn)行分析。[〇〇59]在步驟S1015中,圖像處理裝置101接收來自分析服務(wù)器102的響應(yīng)。在步驟S1016 中,圖像處理裝置101分析所接收到的響應(yīng)的內(nèi)容。在步驟S1016中確定響應(yīng)的內(nèi)容是發(fā)送文本數(shù)據(jù)的另一分割片段的請求的情況下,圖像處理裝置101在步驟S1017中進(jìn)行使部分編號遞增的處理、以及將選擇開始位置移動到完成了最后選擇的位置的處理。在步驟S1017的處理之后,圖像處理裝置101從步驟S1002繼續(xù)文本分析處理。在步驟S1016中確定響應(yīng)的內(nèi)容是分析結(jié)果或分析失敗錯誤的情況下,圖像處理裝置101結(jié)束文本分析處理,并從圖8B中的步驟S811繼續(xù)處理。
[0060]如上所述,在本實(shí)施例中,從由圖像處理裝置101通過掃描獲得的掃描數(shù)據(jù)而提取的文本數(shù)據(jù)中選擇的文本數(shù)據(jù)的片段,根據(jù)需要被順次發(fā)送到分析服務(wù)器102。然后,在由分析服務(wù)器102進(jìn)行的分析結(jié)果實(shí)質(zhì)上未改變時,將該分析結(jié)果作為候選存儲位置信息發(fā)送到圖像處理裝置101。以此方式,能夠縮短向用戶呈現(xiàn)候選存儲位置所花費(fèi)的時間。
[0061][實(shí)施例2][〇〇62]在實(shí)施例1中,已經(jīng)給出了如下實(shí)例的描述,S卩,將關(guān)于一直到部分編號N的文本數(shù)據(jù)的分割片段(由應(yīng)用500發(fā)送)的分析結(jié)果、與一直到部分編號N-1的文本數(shù)據(jù)的分割片段的分析結(jié)果進(jìn)行相互比較,并且在二者之間的相似度是大于或等于閾值(% )的情況下(即, 實(shí)質(zhì)上未改變),返回前者的分析結(jié)果。然而,在從電子數(shù)據(jù)提取的文本數(shù)據(jù)的大小、或者由此選擇的文本數(shù)據(jù)的分割片段的大小很小的情況下,由分析服務(wù)器102進(jìn)行的關(guān)于這樣的文本數(shù)據(jù)的分析很有可能無法提供預(yù)期的結(jié)果。在本實(shí)施例中,將會給出在所提取的文本數(shù)據(jù)的大小或者文本數(shù)據(jù)的分割片段的大小是小于基準(zhǔn)值的情況下進(jìn)行的處理的描述。具體而言,將會給出如下實(shí)例的描述,g卩,在所提取的文本數(shù)據(jù)的大小或者文本數(shù)據(jù)的分割片段的大小是小于基準(zhǔn)值的情況下,圖像處理裝置101將代表通過掃描獲得的圖像的掃描數(shù)據(jù),而不是文本數(shù)據(jù),發(fā)送到分析服務(wù)器102;并且分析服務(wù)器102基于關(guān)于圖像數(shù)據(jù)的分析,而不是關(guān)于文本數(shù)據(jù)的分析,來返回分析結(jié)果。請注意,圖像處理裝置101和分析服務(wù)器 102的構(gòu)造以及處理的序列,總體上與實(shí)施例1中的相似,因而省略其描述。[〇〇63]圖11A和圖11B是示出本實(shí)施例中的處理的整體流程圖,在該處理中,基于文本大小,改變步驟S810的文本分析處理中的、要從圖像處理裝置101發(fā)送到分析服務(wù)器102的數(shù)據(jù)。
[0064]首先,步驟S1101和步驟S1102與步驟S1001和步驟S1002相似。在步驟S1103中,圖像處理裝置101確定在步驟S1102中選擇的分析對象文本數(shù)據(jù)的片段的大小是否是大于或等于基準(zhǔn)值。例如,在基準(zhǔn)值表示諸如100個字符的特定字符數(shù)的情況下,圖像處理裝置101 確定文本數(shù)據(jù)的分割片段中的字符數(shù)是否是大于或等于100。請注意,基準(zhǔn)值可以是文本數(shù)據(jù)的數(shù)據(jù)大小。
[0065]在步驟S1103中確定文本數(shù)據(jù)的分割片段的大小是大于或等于基準(zhǔn)值的情況下, 如實(shí)施例1中,圖像處理裝置101將文本數(shù)據(jù)的分割片段與部分編號相關(guān)聯(lián),并在步驟S1104 中將其發(fā)送到分析服務(wù)器102。在步驟S1103中確定文本數(shù)據(jù)的分割片段的大小是小于基準(zhǔn)值的情況下,圖像處理裝置101在步驟S1105中將掃描數(shù)據(jù)發(fā)送到分析服務(wù)器102,而不是從掃描數(shù)據(jù)中提取的文本數(shù)據(jù)的片段。
[0066]在步驟S1106中,分析服務(wù)器102接收從圖像處理裝置101發(fā)送的數(shù)據(jù)。在步驟 S1107中,分析服務(wù)器102確定所接收到的數(shù)據(jù)是否是掃描數(shù)據(jù)。在步驟S1107中確定所接收到的數(shù)據(jù)是掃描數(shù)據(jù)的情況下,分析服務(wù)器102在步驟S1108中對掃描數(shù)據(jù)進(jìn)行分析。在步驟S1108中,分析服務(wù)器102對通過掃描獲得的圖像數(shù)據(jù)(掃描數(shù)據(jù))進(jìn)行分析,而不是如實(shí)施例1中所描述的基于文本數(shù)據(jù)進(jìn)行分析。在本實(shí)施例中,爬行器單元404收集圖像數(shù)據(jù)文件,而分析服務(wù)器102的分析單元(未示出)計算圖像數(shù)據(jù)片段的特征點(diǎn)。將特征點(diǎn)與圖像數(shù)據(jù)片段的存儲位置相關(guān)聯(lián)地保存到文件信息DB單元407中。在步驟S1108中,分析服務(wù)器102 計算從圖像處理裝置101發(fā)送的掃描數(shù)據(jù)的特征點(diǎn),并將其與所存儲的特征點(diǎn)進(jìn)行比較,以獲得存儲了具有高相似度的文件的候選存儲位置,作為分析結(jié)果。[〇〇67] 在步驟S1109中,分析服務(wù)器102向圖像處理裝置101返回關(guān)于步驟S1106中獲得的掃描數(shù)據(jù)的分析結(jié)果。
[0068]另一方面,在步驟S1107中確定所接收到的數(shù)據(jù)是文本數(shù)據(jù)的片段的情況下,分析服務(wù)器102進(jìn)行到步驟S1110。步驟S1110至S1115的處理與實(shí)施例1中的步驟S1009至S1014 的處理相似,因而省略其描述。
[0069]如上所述,在本實(shí)施例中,在對具有不太多的字符的文檔進(jìn)行掃描的情況下,基于通過掃描獲得的圖像數(shù)據(jù),而不是文本數(shù)據(jù)來進(jìn)行分析。以此方式,能夠向用戶呈現(xiàn)精確的候選存儲位置。
[0070][其他實(shí)施例]
[0071]還可以通過讀出并執(zhí)行記錄在存儲介質(zhì)(例如非臨時性計算機(jī)可讀存儲介質(zhì)等) 上的計算機(jī)可執(zhí)行指令(例如,一個或更多程序)以執(zhí)行上述實(shí)施例中的一個或更多的功能、并且/或者包括用于執(zhí)行上述實(shí)施例中的一個或更多的功能的一個或更多電路(例如, 專用集成電路(ASIC))的系統(tǒng)或裝置的計算機(jī),來實(shí)現(xiàn)本發(fā)明的實(shí)施例,并且,可以利用通過由所述系統(tǒng)或裝置的所述計算機(jī)例如讀出并執(zhí)行來自所述存儲介質(zhì)的所述計算機(jī)可執(zhí)行指令以執(zhí)行上述實(shí)施例中的一個或更多的功能、并且/或者控制所述一個或更多電路執(zhí)行上述實(shí)施例中的一個或更多的功能的方法,來實(shí)現(xiàn)本發(fā)明的實(shí)施例。所述計算機(jī)可以包括一個或更多處理器(例如,中央處理單元(CPU),微處理單元(MPU)),并且可以包括分開的計算機(jī)或分開的處理器的網(wǎng)絡(luò),以讀出并執(zhí)行所述計算機(jī)可執(zhí)行指令。所述計算機(jī)可執(zhí)行指令可以例如從網(wǎng)絡(luò)或所述存儲介質(zhì)被提供給計算機(jī)。所述存儲介質(zhì)可以包括例如硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、分布式計算系統(tǒng)的存儲器、光盤(諸如壓縮光盤(CD)、數(shù)字通用光盤(DVD)或藍(lán)光光盤(BD)?)、閃存設(shè)備以及存儲卡等中的一者或更多。
[0072]本發(fā)明的實(shí)施例還可以通過如下的方法來實(shí)現(xiàn),S卩,通過網(wǎng)絡(luò)或者各種存儲介質(zhì)將執(zhí)行上述實(shí)施例的功能的軟件(程序)提供給系統(tǒng)或裝置,該系統(tǒng)或裝置的計算機(jī)或是中央處理單元(CPU)、微處理單元(MPU)讀出并執(zhí)行程序的方法。
[0073]利用本發(fā)明,在圖像處理裝置上開始掃描之后,能夠縮短在圖像處理裝置上呈現(xiàn)候選存儲位置所花費(fèi)的時間。
[0074]雖然參照示例性實(shí)施例對本發(fā)明進(jìn)行了描述,但是應(yīng)當(dāng)理解,本發(fā)明并不限于所公開的示例性實(shí)施例。應(yīng)當(dāng)對所附權(quán)利要求的范圍給予最寬的解釋,以使其涵蓋所有這些變型例以及等同的結(jié)構(gòu)和功能。
【主權(quán)項(xiàng)】
1.一種文檔分析系統(tǒng),所述文檔分析系統(tǒng)包括:圖像處理裝置;以及分析服務(wù)器,其中 所述圖像處理裝置包括:提取單元,其被構(gòu)造為從通過掃描文檔而獲得的圖像數(shù)據(jù)提取文本數(shù)據(jù);第一發(fā)送單元,其被構(gòu)造為向所述分析服務(wù)器順次發(fā)送文本數(shù)據(jù)的分割片段,直到從 所述分析服務(wù)器接收到針對所述圖像數(shù)據(jù)的候選存儲位置為止;選擇單元,其被構(gòu)造為呈現(xiàn)從所述分析服務(wù)器接收到的候選存儲位置,并提示用戶選 擇存儲位置;以及第二發(fā)送單元,其被構(gòu)造為向由用戶所選擇的存儲位置發(fā)送所述圖像數(shù)據(jù),并且 所述分析服務(wù)器包括:分析單元,其被構(gòu)造為通過對從所述第一發(fā)送單元順次發(fā)送的文本數(shù)據(jù)的分割片段順 次進(jìn)行分析,來獲得候選存儲位置;以及返回單元,其被構(gòu)造為在所述分析單元獲得候選存儲位置時,向所述圖像處理裝置返 回候選存儲位置。2.根據(jù)權(quán)利要求1所述的文檔分析系統(tǒng),其中,所述分析單元將第一分析結(jié)果與第二分 析結(jié)果相互比較,并在比較結(jié)果是大于或等于閾值的情況下,確定所述第二分析結(jié)果為候 選存儲位置,所述第一分析結(jié)果通過使用文本數(shù)據(jù)的第一分割片段來獲得,所述第二分析 結(jié)果通過使用包括所述文本數(shù)據(jù)的第一分割片段、與在所述文本數(shù)據(jù)的第一分割片段之后 從所述第一發(fā)送單元發(fā)送的文本數(shù)據(jù)的第二分割片段的組合文本數(shù)據(jù)來獲得。3.根據(jù)權(quán)利要求2所述的文檔分析系統(tǒng),其中,在所述比較結(jié)果不是大于或等于所述閾 值的情況下,所述返回單元向所述圖像處理裝置發(fā)送用于額外發(fā)送文本數(shù)據(jù)的一個分割片 段的請求。4.根據(jù)權(quán)利要求3所述的文檔分析系統(tǒng),其中,在每接收到發(fā)送請求時,所述第一發(fā)送 單元就發(fā)送從所提取的文本數(shù)據(jù)上的不同位置選擇的文本數(shù)據(jù)的分割片段中的一個。5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的文檔分析系統(tǒng),其中,所述分析單元通過從文本 數(shù)據(jù)提取關(guān)鍵字,并將所提取的關(guān)鍵字與對應(yīng)于存儲位置的關(guān)鍵字比較,來確定候選存儲 位置作為分析結(jié)果。6.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的文檔分析系統(tǒng),其中,在文本數(shù)據(jù)的分割片段是 小于基準(zhǔn)值的情況下,所述第一發(fā)送單元發(fā)送通過掃描所述文檔而獲得的所述圖像數(shù)據(jù), 并且所述分析單元使用所述圖像數(shù)據(jù)進(jìn)行分析。7.根據(jù)權(quán)利要求6所述的文檔分析系統(tǒng),其中,所述分析單元基于所述圖像數(shù)據(jù)表示的 圖像的特征點(diǎn),確定候選存儲位置作為分析結(jié)果。8.—種圖像處理裝置,所述圖像處理裝置包括:提取單元,其被構(gòu)造為從通過掃描文檔而獲得的圖像數(shù)據(jù)提取文本數(shù)據(jù);第一發(fā)送單元,其被構(gòu)造為向分析服務(wù)器順次發(fā)送文本數(shù)據(jù)的分割片段,直到從分析 服務(wù)器接收到針對所述圖像數(shù)據(jù)的候選存儲位置為止;選擇單元,其被構(gòu)造為呈現(xiàn)從所述分析服務(wù)器接收到的候選存儲位置,并提示用戶選 擇存儲位置;以及第二發(fā)送單元,其被構(gòu)造為向由用戶選擇的所述存儲位置發(fā)送所述圖像數(shù)據(jù)。9.一種分析服務(wù)器,所述分析服務(wù)器包括:接收單元,其被構(gòu)造為從圖像處理裝置順次接收文本數(shù)據(jù)的分割片段,該文本數(shù)據(jù)的 分割片段由所述圖像處理裝置通過掃描文檔以獲得圖像數(shù)據(jù)、從所述圖像數(shù)據(jù)提取文本數(shù) 據(jù)、并對所述文本數(shù)據(jù)進(jìn)行分割而獲得;分析單元,其被構(gòu)造為通過對所接收到的文本數(shù)據(jù)的分割片段順次進(jìn)行分析,來獲得 候選存儲位置;以及返回單元,其被構(gòu)造為在所述分析單元獲得候選存儲位置時,向所述圖像處理裝置返 回針對所述圖像數(shù)據(jù)的候選存儲位置。
【文檔編號】G06F17/30GK106095765SQ201610269573
【公開日】2016年11月9日
【申請日】2016年4月27日 公開號201610269573.3, CN 106095765 A, CN 106095765A, CN 201610269573, CN-A-106095765, CN106095765 A, CN106095765A, CN201610269573, CN201610269573.3
【發(fā)明人】鴇田憲
【申請人】佳能株式會社