本申請(qǐng)要求2016年3月8日申請(qǐng)、申請(qǐng)?zhí)枮?016-044653的日本專利申請(qǐng)的優(yōu)先權(quán),其全部?jī)?nèi)容通過(guò)引用并入本文。
本發(fā)明涉及聲音處理系統(tǒng),特別涉及能夠針對(duì)來(lái)自用戶的反問(wèn)快速地應(yīng)答的聲音處理系統(tǒng)。
背景技術(shù):
伴隨聲音識(shí)別技術(shù)的發(fā)展,車內(nèi)空間內(nèi)的聲音用戶接口的利用正在增加。另一方面,車內(nèi)空間是噪音多的環(huán)境,需要強(qiáng)勁地識(shí)別噪音。另外,要求構(gòu)筑以有多次反問(wèn)為前提的系統(tǒng)。
在此,“反問(wèn)”是指,關(guān)于a要求之后的“不是a,而是b的情況?”這樣的發(fā)聲。例如,“檢索澀谷附近的意大利餐廳”這樣的要求之后的、“不是澀谷而是橫浜的話是怎么樣?”、“代替意大利餐廳而檢索法國(guó)餐廳”這樣的發(fā)聲相當(dāng)于“反問(wèn)”。
在美國(guó)專利號(hào)no.7353176、美國(guó)專利號(hào)no.8036877、美國(guó)專利號(hào)no.8515752中公開了考慮上下文來(lái)掌握反問(wèn)的內(nèi)容并準(zhǔn)確地處理的內(nèi)容。
然而,美國(guó)專利號(hào)no.7353176、美國(guó)專利號(hào)no.8036877、美國(guó)專利號(hào)no.8515752是以能夠應(yīng)對(duì)反問(wèn)為主要目標(biāo)的發(fā)明,并未公開使反問(wèn)處理快速化。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于在聲音處理系統(tǒng)中,能夠針對(duì)反問(wèn)的要求快速地應(yīng)答。
本發(fā)明的聲音處理系統(tǒng)具備:聲音取得單元,取得用戶的發(fā)聲;聲音識(shí)別單元,識(shí)別聲音取得單元取得的發(fā)聲的內(nèi)容;執(zhí)行單元,根據(jù)所述聲音識(shí)別單元的結(jié)果執(zhí)行處理;以及決定單元,決定代替某個(gè)詞的詞的候補(bǔ)。而且,在由所述聲音識(shí)別單元識(shí)別出包括第1詞的要求的情況下,通過(guò)所述執(zhí)行單元執(zhí)行包括所述第1詞的要求并將處理結(jié)果提供給所述用戶,并且通過(guò)所述決定單元決定作為所述第1詞的代替候補(bǔ)的第2詞,通過(guò)所述執(zhí)行單元還執(zhí)行代替所述第1詞而包括所述第2詞的要求并將處理結(jié)果存儲(chǔ)到存儲(chǔ)單元。
在本發(fā)明中,優(yōu)選為在由所述聲音識(shí)別單元識(shí)別出包括所述第1詞的要求之后識(shí)別出代替所述第1詞而包括所述第2詞的要求的情況下,所述執(zhí)行單元取得所述存儲(chǔ)單元中存儲(chǔ)的處理結(jié)果并提供給所述用戶。
這樣,利用決定單元決定成為反問(wèn)的候補(bǔ)的詞的對(duì),預(yù)先執(zhí)行與反問(wèn)的候補(bǔ)有關(guān)的處理并存儲(chǔ)結(jié)果,從而能夠縮短實(shí)際發(fā)生了將第1詞置換為第2詞的反問(wèn)時(shí)的處理時(shí)間。
在本發(fā)明中,所述決定單元能夠?qū)⒃趶乃鲇脩羧〉昧税硞€(gè)詞的要求之后從所述用戶取得了代替所述某個(gè)詞而包括其它詞的要求的次數(shù),按照所述某個(gè)詞和所述其它詞的對(duì)存儲(chǔ),將與輸入的詞成對(duì)的詞中的所述次數(shù)是閾值以上的詞決定為所述輸入的詞的代替候補(bǔ)。在此,“從所述用戶取得了代替所述某個(gè)詞而包括其它詞的要求的次數(shù)”可以是取得了指示為進(jìn)行代替所述某個(gè)詞而包括其它詞的要求的發(fā)聲的次數(shù)。即,決定單元優(yōu)選為將關(guān)于a的要求之后的、“代替a而b的情況?”那樣的反問(wèn)的次數(shù)針對(duì)用語(yǔ)a和b的對(duì)進(jìn)行存儲(chǔ)。此外,決定單元存儲(chǔ)的上述次數(shù)未必僅根據(jù)實(shí)際用戶的發(fā)聲內(nèi)容來(lái)決定,關(guān)于設(shè)想為反問(wèn)的頻度高的用語(yǔ)對(duì),也可以將上述次數(shù)預(yù)先設(shè)定得較大。
另外,在本發(fā)明中,決定單元還能夠?qū)⒛硞€(gè)詞和該詞的代替候補(bǔ)關(guān)聯(lián)起來(lái)存儲(chǔ),將與輸入的詞關(guān)聯(lián)起來(lái)存儲(chǔ)的詞決定為該輸入的詞的代替候補(bǔ)。另外,決定單元也可以根據(jù)詞匯辭典判斷用語(yǔ)的類似性,將與輸入的詞類似的詞決定為代替候補(bǔ)。不論在哪一個(gè)情況下,都優(yōu)選為還考慮發(fā)聲中的上下文來(lái)決定代替候補(bǔ)。
另外,在本發(fā)明中,還優(yōu)選為在所述用戶在包括所述第1詞的要求之后代替包括所述第1詞的要求而發(fā)聲了包括所述第2詞的要求的情況下,所述聲音識(shí)別單元根據(jù)包括所述第1詞的要求的上下文信息決定所述第2詞的屬性,進(jìn)行所述第2詞的識(shí)別。
雖然有同一詞根據(jù)上下文不同而具有不同的含意的情況,但在代替包括第1詞的要求而發(fā)聲了包括第2詞的要求的情況下,設(shè)想第1詞和第2詞具有相同的屬性。因此,通過(guò)考慮包括第1詞的要求的上下文信息,能夠精度良好地求出第2詞的屬性,能夠精度良好地識(shí)別第2詞。
根據(jù)本發(fā)明,在聲音處理系統(tǒng)中,能夠針對(duì)反問(wèn)的要求快速地應(yīng)答。
參照附圖,本發(fā)明的進(jìn)一步特征將從以下具體實(shí)施例的描述中變得清晰。
附圖說(shuō)明
圖1是示出實(shí)施方式的聲音處理系統(tǒng)的結(jié)構(gòu)例的圖。
圖2是示出實(shí)施方式的詞對(duì)存儲(chǔ)部的例子的圖。
圖3是示出實(shí)施方式的聲音處理方法的流程的流程圖。
圖4是示出實(shí)施方式的聲音處理方法的流程的流程圖。
具體實(shí)施方式
以下,參照附圖,說(shuō)明本發(fā)明的示例性的實(shí)施方式。此外,以下的說(shuō)明示例地說(shuō)明了本發(fā)明,本發(fā)明不限于以下的實(shí)施方式。
<反問(wèn)>
在說(shuō)明本實(shí)施方式的聲音處理系統(tǒng)之前,說(shuō)明“反問(wèn)”。設(shè)想用戶的發(fā)聲內(nèi)容是針對(duì)聲音處理系統(tǒng)要求某種處理的狀況。例如,考慮進(jìn)行“檢索澀谷附近處的意大利餐廳”這樣的要求的狀況。在之后用戶進(jìn)行“檢索橫浜附近處的意大利餐廳”這樣的要求的情況下,考慮為“不是澀谷而是橫浜的話是怎么樣?”這樣發(fā)聲。在本說(shuō)明書中,這樣將包括某個(gè)詞a的要求/指示之后的“不是a而是b的情況?”那樣的發(fā)聲稱為“反問(wèn)”。在上述例子中,除了變更“澀谷”這樣的詞的反問(wèn)以外,還設(shè)想將“意大利”變更為“法國(guó)”的反問(wèn)。即,反問(wèn)的模式設(shè)想與某個(gè)要求中包含的詞的數(shù)量相當(dāng)?shù)牧俊?/p>
<系統(tǒng)結(jié)構(gòu)>
圖1是示出本實(shí)施方式的聲音處理系統(tǒng)的系統(tǒng)結(jié)構(gòu)的圖。本實(shí)施方式的聲音處理系統(tǒng)是通過(guò)聲音處理服務(wù)器200識(shí)別車輛100內(nèi)的用戶的發(fā)聲,并執(zhí)行與發(fā)聲內(nèi)容對(duì)應(yīng)的處理來(lái)對(duì)車輛100內(nèi)的用戶提供處理結(jié)果的系統(tǒng)。
車輛100具備包括聲音取得部110和信息提供部120的信息處理裝置(計(jì)算機(jī))。信息處理裝置包括運(yùn)算裝置、存儲(chǔ)裝置、輸入輸出裝置等,通過(guò)由運(yùn)算裝置執(zhí)行存儲(chǔ)裝置中保存的程序來(lái)提供下述的功能。
聲音取得部110由一個(gè)或者多個(gè)麥克風(fēng)或者麥克風(fēng)陣列構(gòu)成,取得用戶發(fā)出的聲音。聲音取得部110取得的聲音通過(guò)無(wú)線通信被發(fā)送到聲音處理服務(wù)器200。此外,聲音取得部110不需要將所取得的聲音原樣地發(fā)送到聲音處理服務(wù)器200,而可以取得聲音的特征量并僅發(fā)送特征量。信息提供部120是用于將車輛100從聲音處理服務(wù)器200取得的信息提供給用戶的裝置,包括圖像顯示裝置、聲音輸出裝置等。
聲音處理服務(wù)器200具備包括聲音識(shí)別部210、執(zhí)行部220、詞對(duì)存儲(chǔ)部230、決定部240的信息處理裝置(計(jì)算機(jī))。信息處理裝置包括運(yùn)算裝置、存儲(chǔ)裝置、輸入輸出裝置等,通過(guò)由運(yùn)算裝置執(zhí)行存儲(chǔ)裝置中保存的程序來(lái)提供下述的功能。
聲音識(shí)別部210是用于識(shí)別從車輛100的聲音取得部110發(fā)送的聲音,并掌握其內(nèi)容(文本)以及含意的功能部。聲音識(shí)別部210根據(jù)詞匯辭典、語(yǔ)言模型,進(jìn)行聲音識(shí)別。作為具體的聲音識(shí)別手法,能夠利用現(xiàn)有的任意的手法。在圖中記載為聲音識(shí)別部210僅從1臺(tái)車輛100取得聲音,但還能夠從許多車輛100取得聲音并識(shí)別。
此外,聲音識(shí)別部210在識(shí)別反問(wèn)的發(fā)聲時(shí),優(yōu)選為根據(jù)反問(wèn)之前的發(fā)聲內(nèi)容的上下文來(lái)決定并識(shí)別反問(wèn)中包含的詞的屬性等。在反問(wèn)中被置換的詞是在同一上下文中使用的詞,所以能夠通過(guò)使用上下文信息來(lái)更高精度地識(shí)別反問(wèn)中包含的詞。
執(zhí)行部220是執(zhí)行與利用聲音識(shí)別部210進(jìn)行聲音識(shí)別的結(jié)果對(duì)應(yīng)的處理的功能部。例如,如果用戶的發(fā)聲是要求取得滿足預(yù)定的條件的信息的發(fā)聲,則執(zhí)行部220從檢索服務(wù)器300取得滿足該條件的信息,并發(fā)送給車輛100。
執(zhí)行部220在從用戶受理了要求的情況下,推測(cè)所設(shè)想的反問(wèn),并執(zhí)行與推測(cè)出的反問(wèn)的要求對(duì)應(yīng)的處理,將處理結(jié)果存儲(chǔ)到存儲(chǔ)部(未圖示)。即,執(zhí)行部220預(yù)取(先取)所推測(cè)的反問(wèn)的要求的結(jié)果。然后,在實(shí)際從用戶接受到反問(wèn)的情況下,如果已預(yù)取到結(jié)果,則將其結(jié)果發(fā)送到車輛100。另外,執(zhí)行部220在發(fā)生了反問(wèn)的情況下,將哪個(gè)詞被哪個(gè)詞置換的情況記錄到詞對(duì)存儲(chǔ)部230。關(guān)于這些處理的詳細(xì)內(nèi)容后述。
詞對(duì)存儲(chǔ)部230存儲(chǔ)反問(wèn)中的置換前的詞和置換后的詞的對(duì)的出現(xiàn)次數(shù)。圖2是示出詞對(duì)存儲(chǔ)部230的表格結(jié)構(gòu)的圖。詞對(duì)存儲(chǔ)部230保存置換前的詞231、置換后的詞232、上下文信息233、出現(xiàn)次數(shù)234。置換前的詞231是通過(guò)反問(wèn)置換前的詞,置換后的詞232是通過(guò)反問(wèn)置換后的詞。上下文信息233是確定發(fā)聲中的上下文的信息。出現(xiàn)次數(shù)234是通過(guò)利用上下文信息233確定的上下文而置換前的詞231被置換后的詞232置換的反問(wèn)出現(xiàn)的次數(shù)。
此外,不需要僅根據(jù)實(shí)際發(fā)生的反問(wèn)來(lái)決定詞對(duì)存儲(chǔ)部230中的出現(xiàn)次數(shù)。例如,在要求“檢索a”之后發(fā)生了“不是a而是b的情況?”這樣的反問(wèn)的情況下,增加將詞a置換為詞b的反問(wèn)的出現(xiàn)次數(shù)。此時(shí),也可以增加將詞b置換為詞a的反問(wèn)的出現(xiàn)次數(shù)。另外,在進(jìn)而接下來(lái)繼續(xù)了“c的情況?”這樣的反問(wèn)的情況下,增加將詞a置換為詞c的反問(wèn)的出現(xiàn)次數(shù)。此時(shí),除了增加將詞a置換為詞c的反問(wèn)的出現(xiàn)次數(shù)以外,還可以增加將詞b置換為詞c的反問(wèn)、將詞c置換為詞a的反問(wèn)、將詞c置換為詞b的反問(wèn)的出現(xiàn)次數(shù)。這是因?yàn)榭紤]在發(fā)生反問(wèn)的情況下成為反問(wèn)的對(duì)象的詞是可相互置換的緣故。
決定部240是在取得了來(lái)自用戶的發(fā)聲時(shí),推測(cè)用戶的發(fā)聲的反問(wèn)的功能部。決定部240參照詞對(duì)存儲(chǔ)部230,推測(cè)在反問(wèn)中哪個(gè)詞被置換為哪個(gè)詞。具體而言,決定部240參照詞對(duì)存儲(chǔ)部230,將用戶的發(fā)聲中包含的詞以及該發(fā)聲的上下文中出現(xiàn)次數(shù)是閾值以上的詞對(duì)推測(cè)為在反問(wèn)中被置換的詞對(duì)。在有多個(gè)閾值以上的詞對(duì)的情況下,詞候補(bǔ)決定部240選擇所有詞對(duì)即可。但是,也可以僅選擇居上位的預(yù)定數(shù)個(gè)的詞對(duì)。
<處理內(nèi)容>
首先,參照?qǐng)D3、圖4說(shuō)明本實(shí)施方式的聲音處理系統(tǒng)中的處理。最初,在步驟s102中,聲音取得部110取得用戶的發(fā)聲并發(fā)送給聲音識(shí)別部210,聲音識(shí)別部210識(shí)別發(fā)聲的內(nèi)容。在此,假設(shè)從用戶接受到“檢索從a到c的路徑”這樣的發(fā)聲。實(shí)際上,a、c是具體的地名、店鋪名等。另外,以下將該發(fā)聲表示為{a、c}。
在步驟s104中,聲音識(shí)別部210臨時(shí)地存儲(chǔ)當(dāng)識(shí)別出發(fā)聲{a、c}時(shí)得到的上下文信息、各詞的領(lǐng)域。
在步驟s106中,執(zhí)行部220執(zhí)行與發(fā)聲{a、c}對(duì)應(yīng)的處理,將其結(jié)果發(fā)送到車輛100。具體而言,執(zhí)行部220對(duì)檢索服務(wù)器300發(fā)出求從a到c的路徑的要求,取得其結(jié)果。然后,執(zhí)行部220將從檢索服務(wù)器300得到的處理結(jié)果發(fā)送到車輛100。在車輛100中,信息提供部120對(duì)用戶提供處理結(jié)果。
在步驟s108中,決定部240決定針對(duì)發(fā)聲{a、c}設(shè)想的反問(wèn)中的候補(bǔ)詞。例如,決定對(duì)發(fā)聲{a、c}內(nèi)的詞a進(jìn)行置換的詞的候補(bǔ)集合{bi}。具體而言,決定部240參照詞對(duì)存儲(chǔ)部230,將置換前的詞是詞a且上下文信息與發(fā)聲{a、c}的上下文信息(已在s104中存儲(chǔ))一致的記錄項(xiàng)中所包含的置換后的詞,決定為候補(bǔ)詞。在該說(shuō)明中,僅說(shuō)明置換詞a的候補(bǔ)詞,但同樣地決定置換詞c的候補(bǔ)詞也是優(yōu)選的。
在步驟s110中,執(zhí)行部220關(guān)于置換詞a的詞的候補(bǔ)集合{bi}的各個(gè),進(jìn)行與發(fā)聲內(nèi)容{bi、c}對(duì)應(yīng)的處理,即“檢索從bi到c的路徑”這樣的處理,并存儲(chǔ)到存儲(chǔ)裝置中。與步驟s102同樣地,通過(guò)對(duì)檢索服務(wù)器300發(fā)出要求來(lái)進(jìn)行路徑的檢索即可。
在步驟s112中,取得來(lái)自用戶的反問(wèn)的發(fā)聲,并識(shí)別其內(nèi)容。在此,設(shè)想用戶反問(wèn)“不是從a而是從b1的話是怎么樣?”的情況。以下,將這樣的反問(wèn)表示為(a、b1)。聲音識(shí)別部210在識(shí)別詞b1時(shí),考慮在步驟s104中存儲(chǔ)的發(fā)聲{a、c}的上下文信息、領(lǐng)域,來(lái)決定詞b1的屬性信息。例如,詞b1有具有地名和店鋪名等多個(gè)含意的情況,但聲音識(shí)別部210考慮發(fā)聲{a、c}的上下文信息等來(lái)能夠判斷為反問(wèn)(a、b1)中的詞b1表示地名。
在步驟s114中,聲音處理服務(wù)器200更新詞對(duì)存儲(chǔ)部230。具體而言,將與置換前的詞是“a”、置換后的詞是“b1”、上下文信息是發(fā)聲{a、c}的上下文信息相應(yīng)的記錄項(xiàng)的出現(xiàn)次數(shù)增加1。在不存在這樣的記錄項(xiàng)的情況下,新制作該記錄項(xiàng)而將其出現(xiàn)次數(shù)設(shè)為1即可。此時(shí),也可以將置換前的詞是“b1”且置換后的詞是“a”的記錄項(xiàng)的出現(xiàn)次數(shù)增加1。這是因?yàn)榭紤]反問(wèn)的詞的對(duì)是可雙向地交換的。
在步驟s116中,執(zhí)行部220判斷是否已存儲(chǔ)(已預(yù)取){b1、c}即“從b1向c的路徑的檢索”的處理結(jié)果。如果已存儲(chǔ),則執(zhí)行部220從存儲(chǔ)部取得其結(jié)果,發(fā)送到車輛100。如果未已存儲(chǔ),則執(zhí)行{b1、c}的處理,并將其處理結(jié)果發(fā)送到車輛100。在車輛100中,信息提供部120對(duì)用戶提供該處理結(jié)果。
<本發(fā)明的有利的效果>
根據(jù)本發(fā)明,在受理了基于來(lái)自用戶的聲音的要求時(shí),預(yù)想發(fā)生反問(wèn),預(yù)先執(zhí)行與預(yù)想的反問(wèn)對(duì)應(yīng)的處理來(lái)預(yù)取結(jié)果。因此,在實(shí)際發(fā)生了反問(wèn)時(shí),無(wú)需進(jìn)行處理就能夠立即返回結(jié)果。如本實(shí)施方式那樣,在針對(duì)外部服務(wù)器發(fā)出要求來(lái)進(jìn)行處理的情況下花費(fèi)幾秒程度的時(shí)間,但通過(guò)預(yù)取來(lái)能夠?qū)⒃摃r(shí)間縮短為小于1秒。即,能夠使反問(wèn)時(shí)的應(yīng)答快速化。
另外,根據(jù)實(shí)際發(fā)生的反問(wèn)次數(shù)來(lái)決定成為反問(wèn)的對(duì)象的詞,所以能夠提高推測(cè)精度。如本實(shí)施方式那樣,在聲音處理服務(wù)器200一并處理來(lái)自多個(gè)車輛100的聲音的情況下,能夠存儲(chǔ)更多的反問(wèn)的歷史,所以能夠進(jìn)行精度更良好的推測(cè)。
另外,在發(fā)生了反問(wèn)的情況下,利用反問(wèn)之前的發(fā)聲的上下文信息、領(lǐng)域來(lái)識(shí)別反問(wèn)中包含的詞的屬性信息,所以能夠進(jìn)行精度良好的聲音識(shí)別。在車輛內(nèi)由于道路噪聲等的影響而取得的聲音有時(shí)變得不清楚,但通過(guò)這樣利用上下文信息,在車輛內(nèi)也能夠進(jìn)行精度良好的聲音識(shí)別。
<變形例>
在上述實(shí)施方式中,根據(jù)實(shí)際產(chǎn)生的反問(wèn)的次數(shù)推測(cè)成為反問(wèn)的對(duì)象的詞,但成為反問(wèn)的對(duì)象的詞的推測(cè)方法不限于上述方法。例如,決定部240也可以構(gòu)成為具有詞匯辭典,在反問(wèn)之前的發(fā)聲的上下文中,將與該發(fā)聲中包含的詞的類似度是閾值以上的詞推測(cè)為反問(wèn)對(duì)象的詞。這樣,也能夠得到與上述同樣的效果。
另外,在反問(wèn)對(duì)象的詞的推測(cè)中,重視進(jìn)行該發(fā)聲的用戶的歷史也是優(yōu)選的。在上述說(shuō)明中,聲音處理服務(wù)器200將從各種車輛(用戶)得到的反問(wèn)的發(fā)生次數(shù)存儲(chǔ)于詞對(duì)存儲(chǔ)部230中,但對(duì)每個(gè)用戶的反問(wèn)次數(shù)進(jìn)行計(jì)數(shù),并根據(jù)用戶的反問(wèn)次數(shù)推測(cè)反問(wèn)也是優(yōu)選的。由此,能夠進(jìn)行反映了每個(gè)用戶的特征的推測(cè)。
在上述實(shí)施方式中,設(shè)想了車輛內(nèi)的利用,但本發(fā)明的聲音處理系統(tǒng)的利用場(chǎng)景不限于車輛內(nèi),而能夠在任意的環(huán)境中利用。另外,以聲音取得部(麥克風(fēng))設(shè)置于車輛且聲音識(shí)別部和執(zhí)行部設(shè)置于服務(wù)器的、所謂中心型的聲音處理系統(tǒng)為例子進(jìn)行了說(shuō)明,但既可以將這些所有功能包含于1個(gè)裝置來(lái)實(shí)施本發(fā)明,也可以通過(guò)以與上述不同的方式分擔(dān)了功能的結(jié)構(gòu)來(lái)實(shí)施本發(fā)明。