午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

自然語言語音服務環(huán)境中的混合處理的系統(tǒng)及方法

文檔序號:6351793閱讀:251來源:國知局
專利名稱:自然語言語音服務環(huán)境中的混合處理的系統(tǒng)及方法
技術領域
本發(fā)明涉及包括多個多模式設備的自然語言語音服務環(huán)境中的混合處理,其中,自然語言語音服務環(huán)境中的混合處理可以包括多個多模式設備合作地解釋和處理包括在一個或多個多模式請求中的一個或多個自然語言發(fā)聲。
背景技術
近年來,隨著技術的進步,在許多人的日常生活中,消費性電子設備已變得幾乎無處不在。為了滿足手機、導航設備、嵌入式設備及其它這樣的設備的功能性和移動性的發(fā)展而引起的日益增長的需求,許多設備除了核心應用之外,還提供豐富的特性和功能。然而,更強大的功能性也帶來了折中,包括通常抑制用戶充分利用其電子設備的所有性能的學習曲線(learning curve)。例如,許多現(xiàn)有的電子設備包括可能不是特別方便用戶使用的復雜的人機界面,這會妨礙許多技術的大規(guī)模市場采用。此外,繁瑣的界面還經常會導致難以發(fā)現(xiàn)或使用所需的特性(例如,因為菜單復雜或導航起來很冗長繁瑣)。因此,許多用戶往往不使用或甚至不知道其設備的許多潛在性能。因此,電子設備的增加的功能性經常傾向于被浪費,正如市場調查表明,許多用戶只使用給定設備上的可用特性或應用的僅一小部分。此外,在無線聯(lián)網和寬帶接入越來越普遍的社會中,消費者自然傾向于要求其電子設備具有無縫移動性能。因此,隨著消費者對更簡單的與電子設備交互的機制的需求加強,妨礙快速和集約化交互的繁瑣界面成為重點關注的問題。然而,對使用以直觀方式的技術的機制的日益增長的需求仍未得到充分滿足。一種趨于簡化電子設備中的人機交互的方法已包括使用語音識別軟件,該語音識別軟件具有使用戶利用不熟悉的、未知的或難以使用的特性的潛力。例如,最近由Navteq公司進行的提供各種應用(例如汽車導航和基于網絡的應用)中所使用的數(shù)據(jù)的一項調查表明,語音識別通常在電子設備的消費者所最期望的特性中占首位。即便如此,現(xiàn)有的語音用戶界面在實際工作時,仍要求用戶大量學習。例如,許多現(xiàn)有的語音用戶界面只支持根據(jù)特定的命令與控制序列或語法所制定的請求。此外,許多現(xiàn)有的語音用戶界面因為不準確的語音識別而導致用戶受挫或不滿。類似地,通過迫使用戶提供預先建立的命令或關鍵字來以系統(tǒng)能理解的方式傳遞請求,現(xiàn)有的語音用戶界面未有效地使用戶參與富有成效的、合作的對話中來解析請求并促進會話朝著令人滿意的目標進行(例如,當用戶可能對特定需要、可用信息、設備性能等不確定時)。因此,現(xiàn)有的語音用戶界面往往遭受各種各樣的缺點,包括對使用戶以合作和會話的方式參與對話有很大的局限性。
另外,許多現(xiàn)有的語音用戶界面達不到利用分布在不同領域、設備和應用程序中的信息以解析基于自然語言語音的輸入。因此,現(xiàn)有的語音用戶界面遭受到局限于一組有限的應用程序(所述語音用戶界面針對所述應用程序設計)或局限于存在有所述語音用戶界面的設備。盡管技術進步已使用戶經常使用幾個設備來滿足其各種需要,但現(xiàn)有的語音用戶界面未使用戶充分擺脫設備限制。例如,用戶可能對與不同應用程序和設備相關的服務感興趣,但現(xiàn)有的語音用戶界面往往限制用戶訪問其認為合適的應用程序和設備。此外,在任一給定時間,用戶通常只能實際攜帶有限數(shù)量的設備,而在各種情況下,可能會需要用戶設備所關聯(lián)的、與當前正使用的內容或服務不同的內容或服務。因此,雖然用戶往往具有不同需要,其中在各種背景或環(huán)境中可能需要與不同設備相關的內容或服務,但現(xiàn)有的語音技術往往不足以提供這樣的綜合環(huán)境用戶可請求幾乎與任何設備或網絡相關的內容或服務。因此,現(xiàn)有的語音服務環(huán)境中對信息可用性和設備交互機制的限制往往妨礙用戶以直觀的、自然的且有效的方式體驗技術。例如,當用戶希望使用給定電子設備執(zhí)行給定功能、但不一定知道如何去執(zhí)行該功能時,用戶通常不能參與與設備的合作的、多模式的交互以僅發(fā)出自然語言的詞來請求該功能。此外,使用不具有語音識別性能的電子設備執(zhí)行相對簡單的功能通常是很繁瑣的。例如,購買新的手機鈴音往往是相對簡單的過程,但用戶通常必須導航幾個菜單和按許多不同的按鈕來完成該過程。因此,很顯然,如果用戶能夠使用自然語言來利用隱藏的或難以使用的功能,則與電子設備的交互可以有效得多?,F(xiàn)有的系統(tǒng)具有這些問題和其它問題。

發(fā)明內容
根據(jù)本發(fā)明的一個方面,一種自然語言語音服務環(huán)境中的混合處理的系統(tǒng)及方法可以解決現(xiàn)有系統(tǒng)的前述問題中的一個或多個問題。特別地,自然語言語音服務環(huán)境中的混合處理通??梢园ǘ鄠€多模式設備合作地解釋和處理包括在一個或多個多模式請求中的一個或多個自然語言發(fā)聲,如本申請中更詳細地描述。根據(jù)本發(fā)明的一個方面,自然語言語音服務環(huán)境中的混合處理通??梢园ǘ鄠€多模式設備合作地解釋和處理包括在一個或多個多模式請求中的一個或多個自然語言發(fā)聲。例如,虛擬路由器可以接收包括自然語言發(fā)聲所對應的編碼的音頻的各種消息,自然 語言發(fā)聲包含在提供給所述設備中的一個或多個設備的多模式交互中。然后虛擬路由器可以分析編碼的音頻以選擇自然語言發(fā)聲的最干凈的樣本,并與環(huán)境中的一個或多個其它設備通信以確定多模式交互的目的。然后虛擬路由器可以根據(jù)多模式交互的目的協(xié)調解析多模式交互。根據(jù)本發(fā)明的一個方面,一種自然語言語音服務環(huán)境中的混合處理的方法可以包括電子設備檢測至少一個多模式交互,其中,所述多模式交互至少包括自然語言發(fā)聲。然后可以將包含與所述多模式交互相關的信息的一個或多個消息傳遞給與所述電子設備通信的虛擬路由器,其中,所述電子設備通過消息傳送接口將所述一個或多個消息傳遞給所述虛擬路由器。該方法還可以包括所述電子設備通過消息傳送接口接收包含與所述多模式交互的目的相關的信息的一個或多個消息。因此,所述電子設備可以根據(jù)包含在從所述虛擬路由器所接收的一個或多個消息中的信息解析所述多模式交互。根據(jù)本發(fā)明的一個方面,一種自然語言語音服務環(huán)境中的混合處理的方法可以包括與虛擬路由器通信的一個或多個電子設備。具體地,所述電子設備可以配置為檢測至少一個至少包括自然語言發(fā)聲的多模式交互,并通過消息傳送接口將包含與所述多模式交互相關的信息的一個或多個消息傳遞給虛擬路由器。然后所述電子設備可以通過所述消息傳送接口從所述虛擬路由器接收包含與所述多模式交互的目的相關的信息的一個或多個消息,且所述電子設備根據(jù)包含在從所述虛擬路由器所接收的一個或多個消息中的信息解析所述多模式交互。根據(jù)以下附圖和詳細的描述,本發(fā)明的其它目的和優(yōu)勢將變得明顯。


圖I示出根據(jù)本發(fā)明的一個方面的可用于自然語言語音服務環(huán)境中的混合處理的示例性語音支持設備的框圖;圖2示出根據(jù)本發(fā)明的一個方面的自然語言語音服務環(huán)境中的混合處理的示例 性系統(tǒng)的框圖;圖3示出根據(jù)本發(fā)明的一個方面的初始化合作執(zhí)行自然語言語音服務環(huán)境中的混合處理的各種設備的示例性方法的流程圖;圖4到圖5示出根據(jù)本發(fā)明的一個方面的自然語言語音服務環(huán)境中的混合處理的示例性方法的流程圖。
具體實施例方式根據(jù)本發(fā)明的一個方面,圖I示出可用于自然語言語音服務環(huán)境中的混合處理的示例性語音支持(voice-enabled)設備100的框圖。從本申請所要提供的進一步描述中將了解到,圖I所示的語音支持設備100通常可包括輸入設備112或輸入設備112的組合,輸入設備112可以使用戶以多模式方式與語音支持設備100交互。具體地,輸入設備112通常可包括至少一個語音輸入設備112 (例如,麥克風)和至少一個非語音輸入設備112 (例如,鼠標、觸摸屏顯示器、滾輪選擇器(wheel selector)等)的任一適當組合。因此,輸入設備112可以包括具有接收基于語音的輸入和基于非語音的輸入的機構的電子設備的任一適當組合(例如,連接到車載通信設備、個人導航設備、手機、VoIP (互聯(lián)網語音傳輸協(xié)議)節(jié)點、個人電腦、媒體設備、嵌入式設備、服務器或其它電子設備中的一個或多個設備的麥克風)。在一個實現(xiàn)中,語音支持設備100可以使用戶參與各種多模式會話性交互,該語音支持設備100可以以形式自由且合作的方式處理所述多模式會話交互,以執(zhí)行各種任務、解析各種查詢或者解析多模式交互中所包括的各種自然語言請求。例如,在一個實現(xiàn)中,語音支持設備100可以包括各種自然語言處理部件,所述自然語言處理部件至少包括連接到一個或多個輸入設備112的語音點擊模塊,如在2009年2月20日提交的、名稱為“System and Method for Processing Multi-Modal Device Interactions in a NaturalLanguage Voice Services Environment”、序號為12/389,678的共同代決的美國專利申請中的更詳細描述,該美國專利申請的全部內容通過引用結合在本申請中。因此,在本申請中將進行更詳細地描述,一個或多個輸入設備112和語音點擊模塊可以共同配置為處理用戶和語音支持設備100之間的各種多模式交互。例如,在一個實現(xiàn)中,多模式交互可以包括至少一個自然語言發(fā)聲,其中,可將自然語言發(fā)聲轉換為電子信號。然后可將該電子信號提供給自動語音識別器(ASR) 120,ASR120也可以被稱為語音識別引擎120和/或多通道語音識別引擎120。響應于接收該發(fā)聲所對應的電子信號,ASR 120可以產生該發(fā)聲的一個或多個初步解釋,并將該初步解釋提供給會話語言處理器130。此外,在一個實現(xiàn)中,多模式交互可以包括與一個或多個輸入設備112的一個或多個非語音交互(例如,按鈕推動、多點觸控手勢、焦點或關注的焦點選擇等)。因此,語音點擊模塊可以從非語音交互中提取上下文,并將上下文提供給會話語言處理器130 (即通過圖I中所示的虛線)以在產生發(fā)聲的解釋中使用。因此,如以下更詳細描述的,會話語言處理器130可以分析發(fā)聲和任何伴隨的非語音交互,以確定與語音支持設備100的多模式交互的目的。在一個實現(xiàn)中,如上所述,語音支持設備100可以包括各種可支持形式自由的發(fā)聲和/或其它形式的非語音設備交互的自然語言處理部件,這可將用戶從與制定命令、查詢或其它請求的方式有關的限制中解放出來。因此,用戶可使用任一說話方式來將發(fā)聲提供給語音輸入設備112,且還可將其它非語音交互提供給非語音輸入設備112,以通過語音支持設備100請求可用的任何內容或服務。例如,在一個實現(xiàn)中,響應于語音輸入設備112接收到發(fā)聲,可使用在2008年7月8日被授權為第7,398,209號美國專利的、名稱為“Systems and Methods for Responding to Natural Language Speech Utteranc e,,的序號為10/452,147的美國專利申請和在2003年6月15日提交的、名稱為“Mobile Systems andMethods forResponding to Natural Language Speech Utterance,,的序號為 10/618,633的共同代決的美國專利申請中所描述的技術來處理該發(fā)聲,上述美國專利申請的全部內容通過引用結合在本申請中。此外,用戶可以與非語音輸入設備112中的一個或多個進行交互,以提供按鈕推動、多點觸控手勢、焦點或關注的焦點選擇或其它非語音設備交互,這可以提供與自然語言發(fā)聲和/或所請求的內容或服務相關的進一步上下文信息或其它信息。在一個實現(xiàn)中,語音支持設備100可以連接到一個或多個附加系統(tǒng),該一個或多個附加系統(tǒng)可以配置為與語音支持設備100合作以解釋或處理包括自然語言發(fā)聲和/或非語音設備交互的組合的多模式交互。例如,如下文結合圖2的更詳細的描述,所述一個或多個附加系統(tǒng)可以包括一個或多個具有與語音支持設備100相似的自然語言處理性能的多模式語音支持設備、一個或多個具有數(shù)據(jù)檢索和/或任務執(zhí)行性能的非語音設備以及協(xié)調語音支持設備100和所述附加系統(tǒng)之間的交互的虛擬路由器。因此,語音支持設備100可以包括到包括多個多模式設備的綜合自然語言語音服務環(huán)境的接口,其中,用戶可以通過任一多模式設備來請求可用內容或服務。例如,在一個實現(xiàn)中,會話語言處理器130可以包括星座模型132b,星座模型132b提供與語音服務環(huán)境中可用的內容、服務、應用程序、目的確定性能和其它特性相關的知識,如在 2008 年 5 月 27 日提交的、名稱為 “System and Method for an Integrated,Multi-Modal, Multi-Device Natural Language Voice Services Environment,,、序號為12/127,343的共同代決的美國專利申請中所述的,該美國專利申請的全部內容通過引用結合在本申請中。因此,語音支持設備100可以利用各種系統(tǒng)和多模式設備所共享的與自然語言處理性能、上下文、在前交互、領域知識、短期知識、長期知識和認知模型相關的知識,為解析語音支持設備100所接收的多模式交互提供合作環(huán)境。在一個實現(xiàn)中,輸入設備112及其連接的語音點擊模塊可以配置為持續(xù)監(jiān)控語音支持設備100所接收的一個或多個多模式交互。特別地,輸入設備112和語音點擊模塊可以持續(xù)監(jiān)控一個或多個自然語言發(fā)聲和/或一個或多個可區(qū)別的非語音設備交互,所述一個或多個自然語言發(fā)聲和/或一個或多個可區(qū)別的非語音設備交互可以共同提供用以檢索內容、執(zhí)行任務、調用服務或命令、或處理任何其它合適請求的相關上下文。因此,響應于檢測到一個或多個多模式交互,輸入設備112和/或語音點擊模塊可以發(fā)信號來向該語音支持設備100通知已接收到發(fā)聲和/或非語音交互。例如,在一個實現(xiàn)中,非語音交互可以提供用以增強識別、解釋和理解所伴隨的發(fā)聲的上下文,此外,該發(fā)聲可以提供用以提高所伴隨的非語音交互的解釋的進一步的上下文。因此,發(fā)聲和非語音交互可以共同提供相關上下文,各種自然語言處理部件可以使用該相關上下文來確定包括發(fā)聲和非語音交互的多模式交互的目的。在一個實現(xiàn)中,如上所述,可以在ASR 120上發(fā)起處理包括在多模式交互中的發(fā)聲,其中,ASR 120可以產生該發(fā)聲的一個或多個初步解釋。在一個實現(xiàn)中,為了產生該發(fā) 聲的初步解釋,ASR 120可以配置為利用一種或多種動態(tài)識別語法和/或聲學模型識別來自該發(fā)聲的一個或多個音節(jié)、詞、語段或其它聲學特性。例如,在一個實現(xiàn)中,ASR 120可以根據(jù)語音聽寫技術來使用動態(tài)識別語法和/或聲學模型識別來自發(fā)聲的一連串音位,如在2009年12月15日被授權為第7,634,409號美國專利的、名稱為“Dynamic SpeechSharpening”、序號為11/513,269的美國專利申請所述的,該美國專利申請的全部內容通過引用結合在本申請中。此外,動態(tài)識別語法和/或聲學模型可以包括不重讀的中元音(例如,“弱讀元音”),所述不重讀的中元音可以減小用于識別發(fā)聲的一連串音位的搜索空間。此外,在一個實現(xiàn)中,ASR 120可以配置為多通道語音識別引擎120,如在2009年12月29日被授權為第7,640,160號美國專利的、名稱為“Systems and Methods forResponding to Natural Language Speech Utterance,,、序號為 11/197,504 的美國專利申請所述的,該美國專利申請的全部內容通過引用結合在本申請中。多通道語音識別引擎120可以配置為首先調用初級語音識別引擎以產生發(fā)聲的第一轉譯,且還可選地隨后調用一個或多個次級語音識別引擎以產生發(fā)聲的一個或多個第二轉譯。在一個實現(xiàn)中,可利用一大列表的聽寫語法產生第一轉譯,而可利用虛擬聽寫語法或其它動態(tài)識別語法產生第二轉譯,該虛擬聽寫語法具有詞匯表外的字、源自會話歷史的減少的詞匯表的誘導詞。例如,在一個實現(xiàn)中,如果第一轉譯的可信度不能達到或超過一閾值,則可以調用次級語音識別引擎以增強初級語音識別引擎的解釋。然而,顯然,多通道語音識別引擎120可利用技術的任一適當組合來解釋該發(fā)聲,該任一適當組合形成用于該發(fā)聲的源自多個轉譯通道的初步解釋(例如,可以不管第一轉譯的可信度如何,都調用次級語音識別引擎,或者初級語音識別引擎和/或次級語音識別引擎可以使用相同的或針對特定的解釋上下文優(yōu)化的識別語
抹坐坐、
YZa,-rf* -rf* J o因此,在一個實現(xiàn)中,可以針對不同的語言、上下文、領域、內存限制和/或其它合適的標準,優(yōu)化ASR 120中所使用的動態(tài)識別語法。例如,在一個實現(xiàn)中,語音支持設備100可以包括一個或多個為特定上下文或領域提供內容或服務的應用程序134,例如導航應用程序134。因此,響應于ASR 120將導航確定為發(fā)聲的最可能的上下文,可以針對各種物理的、時間的、方向的或其它地理的特性,優(yōu)化動態(tài)識別語法(例如,如在2007年12月 11 日提交的、名稱為 “System and Method for Providing a Natural Language VoiceUser Interface in an Integrated Voice Navigation Services Environment,,、序號為11/954,064的共同代決的美國專利申請所述,該美國專利申請的全部內容通過引用結合在本申請中)。在另一示例中,包含詞“交通(traffic)”的發(fā)聲可能有不同的解釋,這取決于用戶是否意指導航上下文(即路面交通)、音樂上下文(即二十世紀六十年代的搖滾樂隊)或電影上下文(即Steven Soderbergh的電影)。因此,在ASR 120中所使用的識別語法可以動態(tài)地適用于優(yōu)化任何給定發(fā)聲的準確識別(例如,響應于錯誤地解釋包含特定詞或語句的發(fā)聲,可將錯誤解釋從識別語法中去除,以防止重復發(fā)生該錯誤解釋)。在一個實現(xiàn)中,響應于ASR 120使用一種或多種上述技術產生包括在多模式交互中的發(fā)聲的初步解釋,ASR 120可以將初步解釋提供給會話語言處理器130。會話語言處理器130通??砂ǜ鞣N自然語言處理部件,所述各種自然語言處理部件可以配置為對人與 人的會話或交互建模。因此,會話語言處理器130可調用自然語言處理部件中的一個或多個來進一步分析發(fā)聲的初步解釋和任何伴隨的非語音交互,以確定語音支持設備100所接收的多模式交互的目的。在一個實現(xiàn)中,會話語言處理器120可以調用目的確定引擎130a,該目的確定引擎配置為確定語音支持設備100所接收的多模式交互的目的。在一個實現(xiàn)中,目的確定引擎130a可調用為確定目的而提供長期和短期語義知識的知識增強的語音識別引擎,如在2005 年 8 月 29 日提交的、名稱為“Mobile Systems and Methods of Supporting NaturalLanguage Human-Machine Interactions”、序號為11/212,693的共同代決的美國專利申請所述,其全部內容通過引用結合在本申請中。例如,在一個實現(xiàn)中,語義知識可以基于源自一個或多個與用戶的在前交互的個性化認知模型,源自一個或多個與各種不同用戶的在前交互的一般認知模型,和/或源自與用戶、語音支持設備100相關的環(huán)境和/或語音服務環(huán)境(例如,環(huán)境噪聲特性、位置敏感信息等)的環(huán)境認知模型。此外,目的確定引擎132a可調用上下文跟蹤引擎132d,以確定多模式交互的上下文。例如,可將源自多模式交互中的自然語言發(fā)聲和/或非語音交互的任何上下文推送到與上下文跟蹤引擎132d相關的上下文堆棧,其中,該上下文堆??梢园ǜ鞣N條目,可根據(jù)一個或多個從認知模型所確定的上下文和當前多模式交互的上下文加權或排列所述各種條目。因此,上下文跟蹤引擎132d可以確定上下文堆棧中的一個或多個與當前多模式交互所相關的信息匹配的條目,以確定當前多模式交互的最可能的上下文。然后上下文跟蹤引擎132d可將該最可能的上下文提供給目的確定引擎132a,該目的確定引擎可以基于最可能的上下文確定多模式交互的目的。此外,根據(jù)最可能的上下文,目的確定引擎132a可以參考星座模型132b,以確定是否調用語音服務環(huán)境中的各種系統(tǒng)或多模式設備中的任何一種。例如,如上所述,星座模型132b可以提供通過所述各種系統(tǒng)和多模式設備可用的目的確定性能、領域知識、語義知識、認知模型和其它信息。因此,目的確定引擎132a可以參考星座模型132b,以確定其它系統(tǒng)和/或多模式設備中的一個或多個是否應當參與確定多模式交互的目的。例如,響應于星座模型132b指示其它系統(tǒng)和/或多模式設備中的一個或多個具有針對最可能的上下文的優(yōu)化的自然語言處理性能,目的確定引擎132a可將與多模式交互相關的信息轉發(fā)給這樣的系統(tǒng)和/或多模式設備,這樣的系統(tǒng)和/或多模式設備然后可確定多模式交互的目的并將目的確定返回到語音支持設備100。
在一個實現(xiàn)中,會話語言處理器130可配置為使用戶參與一個或多個合作性會話中以解析目的或處理多模式交互,如在2006年10月16日提交的、名稱為“System andMethod for a Cooperative Conversational Voice User Interface,,、序號為 11/580,926的共同代決的美國專利申請所述,該美國專利申請的全部內容通過引用結合在本申請中。特別地,會話語言處理器130通常可確定多模式交互的會話目標,其中,該會話目標可以從分析發(fā)聲、非語音交互、最可能的上下文和/或確定的目的而確定。因此,針對多模式交互所確定的的會話目標通??煽刂茣捳Z言處理器130和用戶之間的合作性會話。例如,會話語言處理器130通??墒褂脩魠⑴c一個或多個查詢會話、教導會話和/或探索性會話中以解析或處理多模式交互。具體地,響應于確定出會話目標涉及檢索離散信息或執(zhí)行特定功能,則會話語言處理器130可以使用戶參與查詢回話。因此,在合作性查詢會話中,用戶可以將會話導向實現(xiàn)特定會話目標,而會話語言處理器130可以發(fā)起一個或多個查詢、任務、命令或其它請求 以實現(xiàn)該目標,從而支持會話中的用戶。響應于多模式交互的目的的歧義性或不確定性,會話語言處理器130可以使用戶參與教導會話以解決歧義性或不確定性(例如,噪聲或用詞錯誤干擾解釋發(fā)聲,無法對多個可能的上下文消除歧義,等等)。因此,在合作性教導會話中,會話語言處理器130可以將會話導向弄清多模式交互的目的(例如,產生通過輸出設備114所提供的反饋),而用戶可以調節(jié)會話并提供附加的多模式交互以弄清目的。響應于確定具有適當可信度的多模式交互的目的,其中該目的指示歧義的或不確定的目標,則會話語言處理器130可使用戶參與探索性會話以解析該目標。在合作性的探索性會話中,會話語言處理器130和用戶可以共享領導者和支持者的角色,其中,在會話過程中可以改進或完善歧義的或不確定的目標。因此,會話語言處理器130通??蓞⑴c到一個或多個合作性會話中以為語音支持設備100所接收的多模式交互確定目的和解析特定目標。然后,會話語言處理器130可以發(fā)起一個或多個促成針對多模式交互所確定的目的和目標的查詢、任務、命令或其它請求。例如,在一個實現(xiàn)中,會話語言處理器130可以調用一個或多個代理132c,所述一個或多個代理具有處理特定領域或應用程序134中的請求的性能;語音搜索引擎132f,所述語音搜索引擎具有檢索多模式交互中請求的信息的性能(例如,從一個或多個數(shù)據(jù)存儲庫136、網絡或連接到語音支持設備100的其它信息源);或者一個或多個其他系統(tǒng)或多模式設備,所述其他系統(tǒng)或多模式設備具有用于促進多模式交互的目的和目標(例如,如從星座模型132b所確定的)的合適的處理性能。此外,在一個實現(xiàn)中,會話語言處理器130可以調用涉及發(fā)起以處理多模式交互的查詢、任務、命令或其它請求的廣告應用程序134,其中,廣告應用程序134可以配置為選擇一個或多個可能與多模式交互的目的和/或目標相關的廣告,如在2007年2月6日提交的、名稱為 “System and Method for Selecting and Presenting Advertisements Basedon Natural Language Processing of Voice-Based Input,,、序號為 11/671,526 的共同代決的美國專利申請所述,該美國專利申請的全部內容通過引用結合在本申請中。在一個實現(xiàn)中,響應于接收來自針對多模式交互所處理的查詢、任務、命令或其它請求的任一合適組合的結果,會話語言處理器130可將該結果格式化以通過輸出設備114顯示給用戶。例如,該結果可被格式化為自然語言發(fā)聲,該自然語言發(fā)聲可轉換成電信號并通過連接至輸出設備114的揚聲器提供給用戶,或者該結果可以被可視地呈現(xiàn)在連接至輸出設備114的顯示器上,或者該結果可以采用任何其它合適的方式(例如,該結果可以指示是否成功地執(zhí)行了特定任務或命令,或者該結果可以包括響應于一個或多個查詢而檢索到的信息,或者如果該結果是歧義的或不完整的,則其可包括制定隨后的多模式交互的請求,
寸寸7 o此外,在一個實現(xiàn)中,會話語言處理器130可以包括錯誤識別引擎132e,該錯誤識別引擎配置為確定會話語言處理器130是否錯誤地確定了多模式交互的目的。在一個實現(xiàn)中,響應于在時間上接近于在前的多模式交互提供的一個或多個隨后的多模式交互,錯誤識別引擎132e可以確定會話語言處理器130錯誤地確定了目的,如在2009年11月17日被授權為第 7,620,549 號美國專利的、名稱為“System and Method of Supporting AdaptiveMisrecognition in Conversational Speech”、序號為 11/200,164 的美國專利申請所述的,該美國專利的全部內容通過引用結合在本申請中。例如,錯誤識別引擎132e可以監(jiān)控包括停用詞的一個或多個隨后的多模式交互、推翻當前請求、或者指示未識別或誤識別的事件。然后錯誤識別引擎132e可以為與ASR 120和/或會話語言處理器130相關的各種 部件確定一個或多個調整參數(shù),以改進隨后的解釋。因此,如上文更詳細的描述,語音支持設備100通??梢园捎糜谧匀徽Z言語音服務環(huán)境中的混合處理的各種自然語言處理部件和性能。具體地,語音支持設備100可以配置為確定包括自然語言發(fā)聲和/或非語音交互的任一適當組合的各種多模式交互的目的,并根據(jù)所確定的目的處理一個或多個查詢、任務、命令或其它請求。此外,如上所述和如下更詳細的描述,一個或多個其它系統(tǒng)和/或多模式設備可以參與為多模式交互確定目的和處理查詢、任務、命令或其它請求,以提供混合處理方法,其中,語音支持設備100與各種其它系統(tǒng)和多模式設備可以各執(zhí)行部分處理以確定目的,以及以合作的方式處理多模式交互。例如,在一個實現(xiàn)中,合作處理的多模式交互可以包括致力于內容(例如,到特定的人物或實體)的請求,其中,可以使用在2009年11月10日提交的、名稱為“System and Methodfor Providing a Natural Language Content Dedication Service,,、序號為 61/259,820的美國臨時專利申請中所描述的技術處理多模式交互,該美國臨時專利申請的全部內容通過引用結合在本申請中。根據(jù)本發(fā)明的一個方面,圖2示出自然語言語音服務環(huán)境中的混合處理的示例性系統(tǒng)的框圖。具體地,圖2中所示的系統(tǒng)通??梢园愃朴谏衔慕Y合圖I描述的語音支持設備的語音支持客戶端設備210。例如,語音支持客戶端設備210可以包括分別用于接收自然語言多模式交互和提供自然語言多模式交互的響應的輸入設備和輸出設備215a的任一適當組合。此外,語音支持客戶端設備210可以包括自動語音識別器(ASR) 220a, ASR220a配置為產生輸入設備215a所接收的自然語言發(fā)聲的一個或多個初步解釋且還配置為將所述初步解釋提供給會話語言處理器230a。在一個實現(xiàn)中,語音支持客戶端設備210上的會話語言處理器230a可以包括一個或多個自然語言處理部件,可調用所述一個或多個自然語言處理部件以確定語音支持客戶端設備210所接收的多模式交互的目的。然后會話語言處理器230a可以發(fā)起一個或多個查詢、任務、命令或其它請求以解析所確定的目的。例如,會話語言處理器230a可以調用一個或多個應用程序234a以處理特定領域中的請求,查詢一個或多個數(shù)據(jù)存儲庫236a以檢索多模式交互中請求的信息,或參與一個或多個與語音支持客戶端設備210的用戶的合作性會話以解析所確定的目的。此外,如上文結合圖I所述,語音支持客戶端設備210還可與一個或多個具有用于發(fā)起查詢、任務、命令或其它請求以解析多模式交互的目的的適當?shù)奶幚硇阅艿钠渌到y(tǒng)或多模式設備合作。具體地,為了在混合處理環(huán)境中與其它系統(tǒng)或多模式設備合作,語音支持客戶端設備210可以使用消息傳送接口 250a來與虛擬路由器260進行通信,其中,消息傳送接口250a通??砂ㄝp客戶端(或瘦客戶端),輕客戶端為語音支持客戶端設備210提供向虛擬路由器260發(fā)送輸入和從虛擬路由器260接收輸出的機制。此外,虛擬路由器260還可以包括消息傳送接口 250b,消息傳送接口 250b提供用以與一個或多個附加的語音支持設備270a-n、一個或多個非語音設備280a_n和語音支持服務器240通信的機制。另外,盡管圖2將消息傳送接口 250a和消息傳送接口 250b示為與其所通信地連接的設備分開的部件,但是顯然,這樣的圖示僅為了便于描述,因為可將消息傳送接口 250a-b設置為實施在圖2中 所示的各種設備上的板上部件,以促進混合處理環(huán)境中的各種設備之間的通信。例如,在一個實現(xiàn)中,實施在語音支持客戶端設備210上的消息傳送接口 250a可以將來自語音支持客戶端設備210的輸入在一個或多個XML消息內發(fā)送給虛擬路由器260,其中,所述輸入可以包括自然語言發(fā)聲所對應的編碼的音頻、自然語言發(fā)聲的初步解釋、多點觸控手勢、焦點或關注的焦點選擇和/或其它多模式交互所對應的數(shù)據(jù)。在一個實現(xiàn)中,然后虛擬路由器260可以使用會話語言處理器230c進一步處理該輸入,會話語言處理器230c具有語音識別、目的確定、適應性錯誤識別和/或其它自然語言處理的性能。此外,會話語言處理器230c可以包括與通過混合處理環(huán)境中的各種設備可用的內容、服務、應用程序、自然語言處理性能和其它特性相關的知識。因此,在一個實現(xiàn)中,虛擬路由器260還可以通過消息傳送接口 250b來與語音支持設備270、非語音設備280和/或語音支持服務器240通信,以協(xié)調處理從語音支持客戶端設備210所接收的輸入。例如,根據(jù)與混合處理環(huán)境中的各種設備的特性和性能相關的知識,虛擬路由器260可以確定設備中具有用于解析從語音支持客戶端設備210所接收的輸入的目的的合適的特性和/或性能的一個或多個設備。然后虛擬路由器260可通過相應的消息傳送接口 250b來將該輸入的一個或多個要素轉發(fā)給所確定的設備,其中,可以調用所確定的設備以對從虛擬路由器260所轉發(fā)的輸入的要素進行任何適當?shù)奶幚?。在一個實現(xiàn)中,然后所確定的設備可通過相應的消息傳送接口 250b將任何處理結果返回給虛擬路由器260,其中,虛擬路由器260可以校對處理結果并通過消息傳送接口 250a將結果返回給語音支持客戶端設備210。因此,虛擬路由器260可通過消息傳送接口 250a_b與混合處理環(huán)境中的任何可用設備通信,以協(xié)調多模式交互或從語音客戶端設備210所接收的其它自然語言輸入的合作性混合處理。例如,在一個實現(xiàn)中,合作性混合處理可用于提高嵌入式處理架構中的性能,在該嵌入式處理架構中,語音支持客戶端設備210包括有限數(shù)量的資源(例如,語音支持客戶端設備210可以為具有有限數(shù)量的內存儲器或用于自然語言處理的其他專用資源的移動設備)。因此,當語音支持客戶端設備210具有嵌入式處理架構時,語音支持客戶端設備210的一個或多個部件可以配置為優(yōu)化板上自然語言處理的效率,以減少或消除瓶頸、長響應時間或性能降級。
例如,在一個實現(xiàn)中,優(yōu)化板上自然語言處理的效率可以包括將ASR 220a配置成使用具有詞匯表外的字、源自會話歷史的減少的詞匯表的誘導詞的虛擬聽寫語法或其它動態(tài)識別語法(例如,為特定語言、上下文、領域、內存限制和/或其它合適的標準而優(yōu)化的語法)。在另一示例中,板上應用程序234a和/或數(shù)據(jù)存儲庫236a可以與為語音支持客戶端設備210提供特定特性和性能的嵌入式應用程序組相關聯(lián)。例如,可以將語音支持客戶端設備210嵌入在汽車車載通信系統(tǒng)、個人導航設備、全球定位系統(tǒng)、手機或用戶經常請求基于位置的服務的另一設備中。因此,在這種情況下,可以優(yōu)化嵌入式應用程序組中的板上應用程序234a和數(shù)據(jù)存儲庫236a,以提供可在板上有效處理的某些基于位置的服務(例如,目的地輸入、導航、地圖控制、音樂搜索、免提撥號等)。此外,盡管可針對嵌入式架構中的效率優(yōu)化語音支持客戶端設備210的部件,但用戶可以請求混合處理環(huán)境中可用的任何合適的內容、服務、應用程序和/或其它特性,且在混合處理環(huán)境中的其它設備可以共同提供自然語言處理性能,以為語音支持客戶端設備210補充嵌入式自然語言處理性能。例如,語音支持客戶端設備210可使用嵌入式自然語言處理性能,對特定的多模式交互進行初步處理(例如,板上ASR 220a可以進行高級虛擬聽寫以部分地轉譯多模式交互中的發(fā)聲,板上會話語言處理器230a可以確定多模式交互的 初步目的等),其中,可將初步處理的結果提供給虛擬路由器260以進一步處理。在一個實現(xiàn)中,響應于確定出板上性能不能適當?shù)亟忉尳换?例如,如果部分轉譯的可信度不滿足特定閾值),或者響應于確定出應在板外處理交互(例如,如果初步解釋指示交互涉及要求在語音支持服務器240上進行大型計算的本地搜索請求),語音支持客戶端設備210還可以將多模式交互所對應的輸入傳送給虛擬路由器260。因此,虛擬路由器260可以捕獲從語音支持客戶端設備210所接收的輸入,并協(xié)調提供自然語言處理性能的語音支持設備270和語音支持服務器240以及提供檢索數(shù)據(jù)或執(zhí)行任務的性能的非語音設備280之間的進一步處理。此外,響應于虛擬路由器260調用語音支持設備270中的一個或多個,可以優(yōu)化提供給語音支持設備270的輸入,以適應從被調用的語音支持設備270所請求的處理(例如,為了避免過度征用處理資源,特定的語音支持設備270可被提供部分轉譯或初步解釋,且針對給定上下文或領域解析目的)??商孢x地,響應于虛擬路由器260調用語音支持服務器240,提供給語音支持設備270的輸入還可以包括自然語言發(fā)聲所對應的編碼的音頻和任何其它與多模式交互相關的數(shù)據(jù)。具體地,如圖2所示,除了語音支持服務器240可包括消除了語音支持客戶端設備210所經受的限制的大量處理資源之外,語音支持服務器240可以具有類似于語音支持客戶端設備210的自然語言處理架構。因此,當語音支持服務器240在多模式交互的混合處理中協(xié)作時,可以將自然語言發(fā)聲所對應的編碼的音頻和任何其它與多模式交互相關的數(shù)據(jù)提供給語音支持服務器240,以最大化語音支持服務器240正確確定多模式交互的目的的可能性(例如,ASR 220b可以進行多通道語音識別,以產生自然語言發(fā)聲的準確轉譯,會話語言處理器230b可以在任意數(shù)量的不同上下文或領域中所進行的目的確定之間進行仲裁,等等)。因此,總之,在圖2所示的環(huán)境中所進行的混合處理技術通常可以包括各種不同的設備,這些設備可以包括或不包括自然語言性能、合作地確定特定多模式交互的目的以及采取行動以解析該目的。盡管已在嵌入式處理架構的背景下具體地描述了上述的合作性混合處理技術,但這種技術不一定局限于嵌入式處理架構。具體地,同樣的技術可以應用在具有各種設備的任何適當?shù)恼Z音服務環(huán)境中,所述各種設備可以協(xié)作以發(fā)起查詢、任務、命令或其它請求以解析多模式交互的目的。此外,在一個實現(xiàn)中,語音支持客戶端設備210可以包括適當數(shù)量的存儲器或可致力于自然語言處理的其它資源(例如,語音支持客戶端設備210可以為臺式電腦或可處理自然語言而基本不降低性能的其它設備)。在這種情況下,語音支持客戶端設備210的部件中的一個或多個部件可以配置為以可以在嵌入式架構中導致瓶頸、長響應時間或性能降級的方式優(yōu)化板上自然語言處理。例如,在一個實現(xiàn)中,優(yōu)化板上自然語言處理可以包括將ASR 220a配置成除了和/或替代在嵌入式處理架構中所使用的虛擬聽寫語法,使用一大列表的聽寫語法。盡管如此,如下文參照圖3 圖5的更詳細的描述,合作性混合處理技術可以是基本相似的,不管語音支持客戶端設備210是具有嵌入式架構還是具有非嵌入式架構。具體地,不管語音支持客戶端設備210的架構如何,合作性混合處理都可以包括語音支持客戶端設備210可選地執(zhí)行自然語言多模式交互的初步處理以及通過消息傳送接口 250a將多模式交互所對應的輸入傳送給虛擬路由器260以進一步處理??商孢x地(或另外),合作性混合處理可以包括虛擬路由器260通過消息傳送接口 250b協(xié)調混合環(huán)境中的各種設備間 的輸入的進一步處理以及隨后通過消息傳送接口 250a將任何處理結果返回給語音支持客戶端設備210。根據(jù)本發(fā)明的各個方面,圖3示出用于初始化合作執(zhí)行自然語言語音服務環(huán)境中的混合處理的各種設備的示例性方法的流程圖。具體地,如上所述,混合處理環(huán)境通??梢园珊献魈幚碜匀徽Z言多模式交互的各種不同設備間的通信。例如,在一個實現(xiàn)中,在混合處理環(huán)境中的各種設備可以包括虛擬路由器,該虛擬路由器具有用于與一個或多個語音支持設備、一個或多個非語音設備和/或語音支持服務器通信的一個或多個消息傳送接口。因此,在一個實現(xiàn)中,圖3所示的方法可以用于初始化混合處理環(huán)境中的通信,以開啟隨后的在混合處理環(huán)境中的任一特定設備上所接收的一個或多個自然語言多模式交互的合作處理。在一個實現(xiàn)中,在混合處理環(huán)境中的各種設備可以配置為連續(xù)地監(jiān)聽或監(jiān)控相應的輸入設備,以確定自然語言多模式交互是否發(fā)生。因此,圖3所示的方法可以用于校準、同步或初始化連續(xù)監(jiān)聽自然語言多模式交互的各種設備。例如,如上文參照圖2所述,混合處理環(huán)境中的虛擬路由器、語音支持設備、非語音設備、語音支持服務器和/或其它設備可以配置為提供各種不同的性能或服務,其中,圖3所示的初始化方法可以用于確?;旌咸幚憝h(huán)境獲得適當?shù)男盘?,以處理任一特定的自然語言多模式交互并適當調用設備中的一個或多個設備來合作處理自然語言多模式交互。此外,可以調用圖3所示的且本申請所述的方法,以注冊混合處理環(huán)境中的各種設備、注冊添加到混合處理環(huán)境的新設備、公布領域、服務、目的確定性能和/或其它在注冊的設備上所支持的特性、同步注冊的設備的本地計時和/或初始化混合處理環(huán)境中的設備的任何其它適當?shù)姆矫妗T谝粋€實現(xiàn)中,初始化混合處理環(huán)境中的各種設備可以包括操作310,其中,可以為混合處理環(huán)境中的每個設備建立設備監(jiān)聽器。在操作310中所建立的設備監(jiān)聽器通??梢园稍诟鞣N設備上執(zhí)行的指令、固件或其它例程的任一適當組合,以確定性能、特性、所支持的領域或其它與設備相關的信息。例如,在一個實現(xiàn)中,在操作310中所建立的設備監(jiān)聽器可以配置為使用針對輔助計算機設備所設計的通用即插即用協(xié)議與相應的設備通信,但很顯然,可合適地替代與各種設備通信的任一適當機制。響應于為混合處理環(huán)境中所注冊的每個設備建立設備監(jiān)聽器(或響應于為混合處理環(huán)境中所新注冊的任一設備建立設備監(jiān)聽器),在操作320中,可以同步設備監(jiān)聽器。具體地,每個注冊設備可以具有為輸入的自然語言多模式交互指示本地計時的內部時鐘或其它計時機制,其中,操作320可以用于根據(jù)相應設備的內部時鐘或計時機制來同步操作310中所建立的設備監(jiān)聽器。因此,在一個實現(xiàn)中,在操作320中的使設備監(jiān)聽器同步可以包括每個設備監(jiān)聽器公布與相應設備的內部時鐘或本地計時相關的信息。例如,設備監(jiān)聽器可以向虛擬路由器公布與內部時鐘或本地計時相關的信息,從而虛擬路由器可以隨后協(xié)調在混合處理環(huán)境中的設備中的一個或多個設備上所接收的自然語言多模式交互的合作混合處理。然而,顯然,可將與混合處理環(huán)境中的各種設備的內部時鐘或本地計時相關的信息公布給其它語音支持設備、其它非語音設備、語音支持服務器和/或任何其它可參與提供給混合處理環(huán)境的自然語言多模式交互的合作處理的適當設備。在一個實現(xiàn)中,響應于為在混合處理環(huán)境中所注冊的各種設備建立和同步設備監(jiān) 聽器,在操作330中,設備監(jiān)聽器可以連續(xù)地監(jiān)聽或監(jiān)控相應地所注冊設備上的相應設備,以檢測與一個或多個自然語言多模式交互相關的信息。例如,設備監(jiān)聽器可以配置為響應于檢測輸入的自然語言發(fā)聲、與輸入的自然語言發(fā)聲相關的焦點或關注的焦點選擇和/或與輸入的自然語言多模式交互相關的另一交互或交互序列,來檢測自然語言多模式交互的發(fā)生。此外,操作330還可以包括適當?shù)脑O備監(jiān)聽器捕獲自然語言發(fā)聲和/或與自然語言發(fā)聲相關的非語音設備交互。在一個實現(xiàn)中,接著在操作340中,可以分析捕獲的自然語言發(fā)聲和相關的非語音設備交互,以管理混合處理環(huán)境中的隨后的合作處理。在一個實現(xiàn)中,例如,操作340可以確定是一個設備監(jiān)聽器還是多個設備監(jiān)聽器捕獲與在操作330中所檢測的自然語言多模式交互相關的信息。具體地,如上所述,混合處理環(huán)境通常可以包括合作處理自然語言多模式交互的各種不同設備,從而可將與自然語言多模式交互相關的信息提供給混合處理環(huán)境中的一個或多個設備。因此,操作340可以確定是一個設備監(jiān)聽器還是多個設備監(jiān)聽器捕獲與自然語言多模式交互相關的信息,以便確定混合處理環(huán)境是否需要使信號在捕獲與多模式交互相關的信息的各種設備監(jiān)聽器之間同步。例如,與混合處理環(huán)境進行交互的用戶可以瀏覽呈現(xiàn)在非語音顯示設備上呈現(xiàn)的網頁,并提供請求更多關于購買網頁上所顯示的產品的信息的自然語言多模式交互。然后用戶可以使用鼠標、鍵盤或其它非語音輸入設備來在該網頁上選擇包含該產品名稱的文本,并將自然語言發(fā)聲提供給麥克風或其它語音支持設備,例如“這在亞馬遜網站上有售嗎? ”在本示例中,在操作330中,與非語音顯示設備相關的設備監(jiān)聽器可以檢測關于該產品名稱的文本選擇,且在操作330中,與語音支持設備相關的設備監(jiān)聽器可以進一步檢測詢問產品可購性的自然語言發(fā)聲。此外,在一個實現(xiàn)中,用戶可能在多個語音支持設備的適用范圍內,這可導致多個設備監(jiān)聽器捕獲自然語言發(fā)聲所對應的不同信號(例如,交互可以發(fā)生在語音支持手機、語音支持車載設備和/或其它語音支持設備的范圍內,這取決于混合處理環(huán)境中的各種設備的布置和配置)。因此,如本申請更詳細的描述,響應于操作340確定多個設備監(jiān)聽器捕獲與自然語言多模式交互相關的信息,可以發(fā)起使與多個設備監(jiān)聽器所接收的多模式交互相關的不同信號同步的一系列操作。另一方面,響應于操作340確定僅一個設備監(jiān)聽器捕獲與自然語言多模式交互相關的信息,可在操作390中處理自然語言多模式交互,而不執(zhí)行使不同信號同步的一系列操作(即,該一個設備監(jiān)聽器提供與多模式交互相關的全部輸入信息,使得可在操作390中發(fā)起交互的混合處理,而不使不同的輸入信號同步)。然而,在一個實現(xiàn)中,響應于一個設備監(jiān)聽器捕獲自然語言發(fā)聲和一個或多個非語音交互,也可發(fā)起該系列同步操作,以將與自然語言多模式交互相關的不同信號對齊,如本申請更詳細的描述。如上所述,接收到與在操作330中所檢測的自然語言多模式交互相關的輸入的設備監(jiān)聽器可以具有內部時鐘或其它本地計時機制。因此,響應于在操作340中確定一個或多個設備監(jiān)聽器捕獲與自然語言多模式交互相關的不同信號,可在操作350中發(fā)起針對不同信號的該系列同步操作。具體地,操作350可以包括一個或多個設備監(jiān)聽器根據(jù)與相應設備監(jiān)聽器相關的內部時鐘或其它本地計時機制確定相應信號的本地計時信息,其中,接著可以同步針對相應信號所確定的本地計時信息。例如,在一個實現(xiàn)中,可在操作360中發(fā)起使相應信號的本地計時信息同步。具體 地,操作360通??梢园ㄏ蚪邮盏脚c多模式交互相關的輸入的每個設備監(jiān)聽器通知針對每個相應信號所確定的本地計時信息。例如,在一個實現(xiàn)中,每個設備監(jiān)聽器可以將相應信號的本地計時信息提供給虛擬路由器,然后虛擬路由器可以將所有信號的本地計時信息提供給每個設備監(jiān)聽器。因此,在一個實現(xiàn)中,操作360可以引起每個設備監(jiān)聽器接收到一通知,該通知包括與在操作330中所檢測的自然語言多模式交互相關的每個不同信號的本地計時信息。可替選地(或另外),虛擬路由器可以從每個設備監(jiān)聽器收集每個不同信號的本地計時信息,并進一步同步不同信號的本地計時信息,以啟動自然語言多模式交互的混合處理。在一個實現(xiàn)中,任一具體的自然語言多模式交互可以至少包括自然語言發(fā)聲,且還可以包括一個或多個與自然語言發(fā)聲相關的附加設備交互。如上所述,通??梢栽诟郊釉O備交互之前、同時或之后接收發(fā)聲。因此,可以在操作370中同步不同信號的本地計時信息,以啟動自然語言多模式交互的混合處理。具體地,操作370可以包括將自然語言發(fā)聲所對應的一個或多個信號的本地計時信息和/或任何與自然語言發(fā)聲相關的附加設備交互所對應的一個或多個信號的本地計時信息對齊。此外,操作370還可以包括將自然語言發(fā)聲信號和附加設備交互所對應的信號的本地計時信息對齊。因此,在匹配發(fā)聲信號和非語音設備交互信號時,可以向參與自然語言多模式交互的混合處理的任何設備提供彼此對齊的語音成分和/或非語音成分。例如,在一個實現(xiàn)中,可以在虛擬路由器上執(zhí)行操作370,然后虛擬路由器可將對齊的計時信息提供給在混合處理中可以被調用的任何其它設備。可替選地(或另外),參與混合處理的其它設備中的一個或多個可以本地地對齊計時信息(例如,響應于虛擬路由器調用混合處理中的語音支持服務器,可以利用與語音支持服務器相關的資源對齊計時信息并保留虛擬路由器上的通信帶寬)。此外,在一個實現(xiàn)中,在操作380中,虛擬路由器和/或混合處理環(huán)境中的其它設備可以分析自然語言發(fā)聲所對應的信號,以選擇最干凈的樣本來進一步處理。具體地,如上所述,虛擬路由器可以包括用以從一個或多個語音支持設備接收自然語言發(fā)聲所對應的編碼的音頻樣本的消息傳送接口。例如,虛擬路由器所接收的音頻樣本可以包括以MPEG-I音頻層3 (MP3)格式或另一有損格式所編碼的自然語言發(fā)聲,以保留混合處理環(huán)境中的通信帶寬。然而,顯然,可替選地(或另外),響應于混合處理環(huán)境具有足夠的通信帶寬用于處理可提供更好的自然語言發(fā)聲樣本的無損音頻,可以使用無損音頻壓縮編碼(FLAC)格式或另一無損格式編碼音頻樣本。不管是以有損格式還是以無損格式編碼音頻樣本,在操作380中,可以選擇自然語言發(fā)聲所對應的提供最干凈的樣本的信號。例如,一個語音支持設備可以在噪音環(huán)境中或與干擾產生干凈的音頻樣本的條件相關,而另一語音支持設備可以包括麥克風陣列或配置為采用使編碼的語音的保真度最大化的技術。因此,響應于在操作330中接收自然語言發(fā)聲所對應的多個信號,在操作380中可以選擇最干凈的信號,然后在操作390中可以發(fā)起自然語言發(fā)聲的混合處理。因此,在圖3中所示出的且在本申請中所描述的同步和初始化技術可以確?;旌咸幚憝h(huán)境同步自然語言多模式交互所對應的每個信號且產生用以在操作390中進一步處 理的輸入,以最可能形成正確的目的確定。此外,在使信號同步和選擇最干凈的音頻樣本以在操作390中進一步處理時,在圖3中所示出的且在本申請中所描述的技術可以確保混合處理環(huán)境中沒有設備對自然語言多模式交互采取行動,直到識別出在操作390中所要使用的適當信號。因此,在操作390中可以發(fā)起自然語言多模式交互的混合處理,如本申請中更詳細地描述的。根據(jù)本發(fā)明的一個方面,圖4示出在自然語言語音服務環(huán)境中的一個或多個客戶端設備上執(zhí)行混合處理的示例性方法的流程圖。具體地,如下文將參照圖5進行更詳細的描述的,一個或多個客戶端設備可以通過消息傳送接口來與虛擬路由器合作執(zhí)行混合處理,該消息傳送接口通信地連接客戶端設備和虛擬路由器。例如,在一個實現(xiàn)中,消息傳送接口通??梢园ㄝp客戶端(或瘦客戶端),輕客戶端為客戶端設備提供用以向虛擬路由器發(fā)送與自然語言多模式交互相關的輸入的機制,且輕客戶端還為客戶端設備提供用以從虛擬路由器接收與自然語言多模式交互相關的輸出的機制。例如,在一個實現(xiàn)中,響應于在操作410中客戶端設備中的一個或多個接收自然語言多模式交互,可以發(fā)起客戶端設備上的混合處理。具體地,自然語言多模式交互通??梢园ㄔ谶B接至接收了自然語言多模式交互的客戶端設備的麥克風或其它語音支持輸入設備上所接收的自然語言發(fā)聲,且還可以包括一個或多個與自然語言發(fā)聲相關的其它附加輸入形式(例如,文本選擇、按鈕按下、多點觸控手勢等)。因此,在操作410中所接收的自然語言多模式交互可以包括提供給客戶端設備的一個或多個查詢、命令或其它請求,其中,然后可以在操作420中發(fā)起自然語言多模式交互的混合處理。如上文更詳細地描述的,自然語言語音服務環(huán)境通??梢园ㄒ粋€或多個語音支持客戶端設備、一個或多個非語音設備、語音支持服務器和虛擬路由器,該虛擬路由器布置成與語音支持客戶端設備、非語音設備和語音支持服務器中的每一個通信。在一個實現(xiàn)中,因此,虛擬路由器可以協(xié)調語音支持客戶端設備、非語音設備和語音支持服務器之間的針對自然語言多模式交互的混合處理。因此,本申請所描述的混合處理技術通??梢灾柑摂M路由器以涉及在多個階段中解析自然語言多模式交互的目的的方式,協(xié)調自然語言多模式交互的合作處理。
具體地,如上文參照圖3的描述,可以初始化合作執(zhí)行混合處理的各種設備,以啟動自然語言多模式交互的合作處理。因此,在一個實現(xiàn)中,在操作420中,響應于初始化各種設備,接收與自然語言多模式交互相關的輸入的每個客戶端設備可以進行相應輸入的初步處理。例如,在一個實現(xiàn)中,在操作420中,接收包括在多模式交互中的自然語言發(fā)聲的客戶端設備可以執(zhí)行初始處理,該初始處理包括編碼發(fā)聲所對應的音頻樣本、部分或完全轉譯發(fā)聲、確定發(fā)聲的初步目的、或針對發(fā)聲執(zhí)行任何其它合適的初步處理。此外,也可以在接收與發(fā)聲相關的附加輸入形式中的一個或多個的客戶端設備上執(zhí)行操作420中的初始處理。例如,在操作420中為附加輸入形式所執(zhí)行的初始處理可以包括識別選擇的文本、選擇的焦點或關注的焦點,或者產生任何其它可用于進一步解釋發(fā)聲的合適的數(shù)據(jù)。在一個實現(xiàn)中,接著操作430可以包括確定混合處理環(huán)境是否已被配置為自動地將與自然語言多模式交互相關的輸入路由至虛擬路由器。例如,在一個實現(xiàn)中,響應于在操作410中多個客戶端設備接收包括在多模式交互中的自然語言發(fā)聲,操作430可以確定已配置發(fā)生自動路由。在本示例中,操作420中所執(zhí)行的初始處理可以包括多個客戶端設備編碼發(fā)聲所對應的相應的音頻樣本,其中,然后在操作460中,可將包括編碼的音頻樣本的消息發(fā)送給虛擬路由器。然后虛擬路由器可以 選擇一個提供最干凈的信號的編碼的音頻樣本并協(xié)調隨后的針對自然語言多模式交互的混合處理,如下文參照圖5的更詳細的描述。在另一示例中,響應于引起確定多模式交互涉及可能最適合于在語音支持服務器上處理的請求的初始處理(例如,該請求可以涉及基于位置的搜索查詢或者另一命令或任務,該另一命令或任務要求語音支持服務器上所管理的資源、內容、應用程序、領域或存在于與接收請求的客戶端設備不同的一個或多個設備上的其它信息等),操作430可以確定已配置發(fā)生自動路由。然而,顯然,混合處理環(huán)境可以酌情配置為響應于其它條件和/或不管任何附加條件是否存在而自動路由。在一個實現(xiàn)中,響應于虛擬路由器協(xié)調自然語言多模式交互的混合處理,在操作470中,虛擬路由器可將混合處理的結果提供給客戶端設備。例如,在操作470中提供給客戶端設備的結果可以包括自然語言多模式交互的最終目的確定、在交互中所請求的信息、響應于執(zhí)行交互中所請求的命令或任務而產生的數(shù)據(jù)和/或使客戶端設備在操作480中完成自然語言請求的處理的其它結果。例如,在一個實現(xiàn)中,操作480可以包括客戶端設備根據(jù)從虛擬路由器返回的最終目的確定來執(zhí)行查詢、命令、任務或其它請求,呈現(xiàn)從虛擬路由器返回的所請求的信息,確認已執(zhí)行所請求的命令或任務,和/或執(zhí)行任何附加處理以解析自然語g請求。回顧操作430,響應于確定出未滿足觸發(fā)自動路由的條件或者未配置自動路由器,則在操作440中客戶端設備可以進一步處理自然語言多模式交互。在一個實現(xiàn)中,在操作440中的進一步處理可以包括客戶端設備使用本地自然語言處理性能試圖確定自然語言多模式交互的目的。例如,客戶端設備可將包括在多模式交互中的任何非語音輸入形式合并在包括在多模式交互中的發(fā)聲的轉譯中。接著客戶端設備上的會話語言處理器可以利用與上下文、領域、共享知識、標準值或其它信息相關的本地信息確定多模式交互的目的。然后客戶端設備可以產生發(fā)聲的一個或多個解釋,以確定多模式交互的目的(例如,識別會話類型、包含在交互中的一個或多個請求等)。在一個實現(xiàn)中,操作440還可以包括確定在客戶端設備上所產生的目的確定的可信度(例如,可以響應于客戶端設備是否包括多通道語音識別引擎、發(fā)聲是否包含任何有歧義的詞或語句、目的是否隨上下文而不同等,得出可信度)。在一個實現(xiàn)中,接著操作450可以根據(jù)在操作440中所確定的可信度確定是否調用板外處理。例如,操作450通??梢园ù_定在操作440中所確定的目的是否滿足特定閾值,該特定閾值指示對確定的目的采取行動的可接受的可信度。因此,響應于目的確定的可信度滿足閾值,操作450可以確定不調用板外處理。特別地,可信度滿足閾值可以指示客戶端設備具有足夠的信息對確定的目的采取行動,從而在操作480中,客戶端設備可以處理一個或多個查詢、命令、任務或其它請求以解析多模式交互??商孢x地,響應于目的確定的可信度不滿足閾值,操作450可以調用板外處理,板外處理可以包括在操作460中發(fā)送一個或多個消息給虛擬路由器。該一個或多個消息可以使虛擬路由器以上述類似的方式調用多模式交互的附加混合處理,且本申請將參照圖5進行更詳細地描述。根據(jù)本發(fā)明的一個方面,圖5示出在自然語言語音服務環(huán)境中的虛擬路由器上執(zhí) 行混合處理的示例性方法的流程圖。具體地,虛擬路由器可以協(xié)調在一個或多個客戶端設備上所接收的自然語言多模式交互的混合處理。在一個實現(xiàn)中,在操作510中,虛擬路由器可以接收與在語音服務環(huán)境中的客戶端設備中的一個或多個客戶端設備上所接收的自然語言多模式交互相關的一個或多個消息。例如,虛擬路由器可以包括將虛擬路由器通信地連接到客戶端設備和語音支持服務器的消息傳送接口,其中,該消息傳送接口通??梢园ㄝp客戶端(或瘦客戶端),輕客戶端為虛擬路由器提供用以從一個或多個客戶端設備和/或語音支持服務器接收輸入、且還向一個或多個客戶端設備和/或語音支持服務器發(fā)送輸出的機制。在操作510中所接收的消息通常可以包括多模式交互的任何合適的處理結果,從而虛擬路由器可以以包括可發(fā)生在虛擬路由器、客戶端設備中的一個或多個客戶端設備、語音支持服務器或其任一合適組合上的多個處理階段的方式協(xié)調混合處理。在一個實現(xiàn)中,虛擬路由器可以分析在操作510中所接收的消息以確定是否調用點對點模式的混合處理。例如,消息中的一個或多個消息可以包括初步目的確定,虛擬路由器可以使用該初步目的確定來確定是否調用客戶端設備中的一個或多個客戶端設備、語音支持服務器或其各種組合,以便執(zhí)行多模式交互的多個處理階段中的一個或多個處理階段。在另一示例中,消息中的一個或多個消息可以包括編碼的音頻樣本,虛擬路由器將該編碼的音頻樣本轉發(fā)給混合處理環(huán)境中的各種設備中的一個或多個設備。因此,在一個實現(xiàn)中,虛擬路由器可以分析在操作510中所接收的消息以確定是否調用語音支持服務器來處理多模式交互(例如,消息可以包括初步目的確定,該初步目的確定指示多模式交互包括需要存在于服務器上的資源的基于位置的請求)。響應于虛擬路由器確定調用語音支持服務器,在操作530中,虛擬路由器可以將消息轉發(fā)給服務器。具體地,轉發(fā)給服務器的消息通常可以包括自然語言發(fā)聲所對應的編碼的音頻和涉及其它與發(fā)聲有關的輸入形式的任何附加信息。例如,如上文參照圖2的更詳細地描述,語音支持服務器可以包括可適當?shù)卮_定多模式交互的目的的各種自然語言處理部件,從而發(fā)送給語音支持服務器的消息可以包括編碼的音頻,以便允許語音支持服務器獨立于客戶端設備上的可能不準確或不完全的任何初步處理來確定目的。響應于語音支持服務器處理從虛擬路由器所接收的消息,在操作570中,接著可將處理結果返回給虛擬路由器。例如,很明顯,結果可以包括自然語言多模式交互的目的確定,響應于確定的目的所執(zhí)行的任何查詢、命令、任務或其它請求的結果,或者任何其它合適的結果。可替選地,響應于操作520中的虛擬路由器確定出調用點對點模式,虛擬路由器可以協(xié)調一個或多個客戶端設備、語音支持服務器或其任一適當組合之間的混合處理。例如,在一個實現(xiàn)中,在操作540中,虛擬路由器可以確定自然語言多模式交互的上下文,且在操作550中,根據(jù)確定的上下文選擇一個或多個對等設備。例如,客戶端設備中的一個或多個可以配置為提供按照確定的上下文的內容或服務,從而在操作560中,虛擬路由器可以將一個或多個消息發(fā)送給這種設備,以便請求這種內容和/或服務。在另一示例中,多模式交互可以包括涉及不同設備上所支持的多個上下文的復合請求,從而在操作560中,虛擬路由器可以將消息轉發(fā)給每個這種設備,以便請求按照不同的上下文的適當內容和/或服務。在又一示例中,交互可以包括將要在語音支持服務器上處理的請求,然而該請求 可要求存在于客戶端設備中的一個或多個客戶端設備上的內容和/或服務(例如,涉及客戶端設備中的一個或多個客戶端設備上的地址簿中的條目的基于位置的查詢)。因此,在操作560中,虛擬路由器通常可以將各種消息轉發(fā)給所選的對等設備,以管理本申請中所描述的混合處理技術中的多個階段。例如,虛擬路由器可將消息發(fā)送給一個或多個具有按照特定上下文的目的確定性能的語音支持客戶端設備、一個或多個使用內容、服務和/或處理多模式交互所需的其它資源的非語音客戶端設備、或其任一適當組合。因此,虛擬路由器可在操作560中發(fā)送消息給客戶端設備和/或語音支持服務器,且在操作570中以任一適當方式(例如,并行地、順序地、迭代地等)從客戶端設備和/或語音支持服務器接收響應消息。然后在操作580中,虛擬路由器可以校對在響應消息中所接收的結果,且將結果返回給客戶端設備中的一個或多個,用以結果的任何最終處理和/或呈現(xiàn)。可以以硬件、固件、軟件或其各種組合的方式進行本發(fā)明的實現(xiàn)。也可將本發(fā)明實現(xiàn)為存儲在機器可讀介質上的可通過一個或多個處理器讀取和執(zhí)行的指令。機器可讀介質可以包括用以存儲或發(fā)送機器(例如,計算設備)可讀形式的信息的各種機制。例如,機器可讀存儲介質可以包括只讀存儲器、隨機存取存儲器、磁盤存儲介質、光學存儲介質、閃存設備或其它存儲介質,機器可讀發(fā)送介質可以包括各種形式的傳播信號,例如載波、紅外信號、數(shù)字信號或其它發(fā)送介質。此外,可以在以上公開內容中就本發(fā)明的具體示例方面和實現(xiàn)方式以及執(zhí)行某些動作這些方面來描述固件、軟件、程序或指令。然而,顯然,這些描述僅是為了方便,且這些動作實際上由執(zhí)行所述固件、軟件、程序或指令的計算設備、處理器、控制器或其他裝置產生。因此,本發(fā)明的方面和實現(xiàn)方式可以在本文中描述為包括具體的特征、結構或性質,但將明顯的是,每一方面或實現(xiàn)方式可以或者可以不一定包括具體的特征、結構或性質。此外,當具體的特征、結構或者性質已結合一給定的方面或實現(xiàn)方式予以描述時,應當理解,無論是否明確描述,這樣的特征、結構或性質也可以包括在其他的方面或實現(xiàn)方式中。因此,可以對以上描述進行各種改變或修改,而不脫離本發(fā)明的精神或范圍,因此,本說明書和附圖應當僅看作示例性的,本發(fā)明的范圍僅由所附權利要求確定。
權利要求
1.一種用于自然語言語音服務環(huán)境中的混合處理的方法,該方法包括 電子設備檢測至少一個多模式交互,其中,所述多模式交互至少包括自然語言發(fā)聲; 將包含與所述多模式交互相關的信息的一個或多個消息傳送給與所述電子設備通信的虛擬路由器,其中,所述電子設備通過消息傳送接口將所述一個或多個消息傳送給所述虛擬路由器; 所述電子設備接收包含與所述多模式交互的目的相關的信息的一個或多個消息,其中,所述電子設備通過所述消息傳送接口從所述虛擬路由器接收所述一個或多個消息;以及 所述電子設備根據(jù)從所述虛擬路由器接收的一個或多個消息中所包含的信息解析所述多模式交互。
2.如權利要求I所述的方法,其中,所述虛擬路由器與一個或多個附加電子設備通信,以確定所述多模式交互的目的。
3.如權利要求2所述的方法,其中,所述虛擬路由器確定所述多模式交互的上下文,并響應于所確定的上下文而與所述一個或多個附加電子設備通信。
4.如權利要求I所述的方法,其中,所述虛擬路由器與多個附加電子設備通信,以確定所述多模式交互的目的。
5.如權利要求I所述的方法,其中,傳送給所述虛擬路由器的所述一個或多個消息包括所述自然語言發(fā)聲所對應的編碼的音頻。
6.如權利要求5所述的方法,其中,所述虛擬路由器將包含所述編碼的音頻的一個或多個消息傳送給一個或多個附加電子設備,以確定所述多模式交互的目的。
7.如權利要求I所述的方法,其中,所述電子設備解析所述多模式交互包括所述電子設備根據(jù)所述多模式交互的目的執(zhí)行至少一個請求。
8.如權利要求I所述的方法,其中,所述多模式交互還包括與所述電子設備的附加非語音交互,所述附加非語音交互與所述自然語言發(fā)聲相關。
9.如權利要求8所述的方法,還包括 在所述電子設備上建立一個或多個設備監(jiān)聽器,其中,所述設備監(jiān)聽器配置為檢測所述自然語言發(fā)聲和與所述自然語言發(fā)聲相關的所述附加非語音交互;以及 將與所述附加非語音交互和所述自然語言發(fā)聲相關的計時信息對齊。
10.一種用于自然語言語音服務環(huán)境中的混合處理的電子設備,其中,所述電子設備配置為 檢測至少一個多模式交互,所述多模式交互至少包括自然語言發(fā)聲; 將包含與所述多模式交互相關的信息的一個或多個消息傳送給與所述電子設備通信的虛擬路由器,其中,通過消息傳送接口將所述一個或多個消息傳送給所述虛擬路由器; 通過所述消息傳送接口從所述虛擬路由器接收包含與所述多模式交互的目的相關的信息的一個或多個消息;以及 所述電子設備根據(jù)從所述虛擬路由器接收的所述一個或多個消息中所包含的信息解析所述多模式交互。
11.如權利要求10所述的電子設備,其中,所述虛擬路由器與一個或多個附加電子設備通信,以確定所述多模式交互的目的。
12.如權利要求11所述的電子設備,其中,所述虛擬路由器確定所述多模式交互的上下文,并響應于所確定的上下文而與所述一個或多個附加電子設備通信。
13.如權利要求10所述的電子設備,其中,所述虛擬路由器與多個附加電子設備通信,以確定所述多模式交互的目的。
14.如權利要求10所述的電子設備,其中,傳送給所述虛擬路由器的所述一個或多個消息包括所述自然語言發(fā)聲所對應的編碼的音頻。
15.如權利要求14所述的電子設備,其中,所述虛擬路由器將包含所述編碼的音頻的一個或多個消息傳送給一個或多個附加電子設備,以確定所述多模式交互的目的。
16.如權利要求10所述的電子設備,其中,所述電子設備還配置為根據(jù)所述多模式交互的目的執(zhí)行至少一個請求,以解析所述多模式交互。
17.如權利要求10所述的電子設備,其中,所述多模式交互還包括與所述電子設備的附加非語音交互,所述附加非語音交互與所述自然語言發(fā)聲相關。
18.如權利要求17所述的電子設備,其中,所述電子設備還配置為 建立一個或多個設備監(jiān)聽器,所述設備監(jiān)聽器配置為檢測所述自然語言發(fā)聲和與所述自然語言發(fā)聲相關的附加非語音交互;以及 將與所述附加非語音交互和所述自然語言發(fā)聲相關的計時信息對齊。
19.一種用于自然語言語音服務環(huán)境中的混合處理的虛擬路由器,其中,所述虛擬路由器配置為 接收包括自然語言發(fā)聲所對應的編碼的音頻的多個消息,所述自然語言發(fā)聲包含在與多個相應的電子設備的多模式交互中; 分析所述多個消息中的編碼的音頻,以確定所述多個消息中的提供所述自然語言發(fā)聲的最干凈的樣本的一個消息; 將包含提供所述最干凈的樣本的編碼的音頻的一個或多個消息傳送給與所述虛擬路由器通信的服務器,其中,通過消息傳送接口將所述一個或多個消息傳送給所述服務器; 通過所述消息傳送接口從所述服務器接收包含與所述多模式交互的目的相關的信息的一個或多個消息;以及 將包含與所述多模式交互的目的相關的信息的一個或多個消息返回給所述多個電子設備中的一個或多個電子設備,其中,所述電子設備中的一個或多個電子設備根據(jù)與所述多模式交互的目的相關的信息解析所述多模式交互。
20.如權利要求19所述的虛擬路由器,其中,所述虛擬路由器還配置為與所述多個電子設備中的一個或多個電子設備通信,以確定所述多模式交互的目的。
21.如權利要求20所述的虛擬路由器,其中,所述虛擬路由器還配置為確定所述多模式交互的上下文,并響應于所確定的上下文而與所述多個電子設備中的一個或多個電子設備通信。
22.如權利要求19所述的虛擬路由器,其中,所述虛擬路由器還配置為與所述多個電子設備中的多于一個的電子設備通信,以確定所述多模式交互的目的。
全文摘要
本發(fā)明可以提供一種自然語言語音服務環(huán)境中的混合處理的系統(tǒng)及方法,該自然語言語音服務環(huán)境包括多個多模式設備。具體地,混合處理通??梢园ǘ鄠€多模式設備合作地解釋和處理包括在一個或多個多模式請求中的一個或多個自然語言發(fā)聲。例如,虛擬路由器可以接收包括自然語言發(fā)聲所對應的編碼的音頻的各種消息,該自然語言發(fā)聲包含在提供給設備中的一個或多個設備的多模式交互中。然后虛擬路由器可以分析編碼的音頻以選擇自然語言發(fā)聲的最干凈的樣本,并與環(huán)境中的一個或多個其它設備通信以確定多模式交互的目的。接著虛擬路由器可以根據(jù)多模式交互的目的協(xié)調解析多模式交互。
文檔編號G06F17/27GK102792294SQ201080061105
公開日2012年11月21日 申請日期2010年9月16日 優(yōu)先權日2009年11月10日
發(fā)明者林恩·伊莉斯·阿姆斯壯, 羅伯特·A·肯納威克 申請人:聲鈺科技
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1