本技術(shù)涉及終端,尤其涉及一種基于圖像的命令處理方法及電子設(shè)備。
背景技術(shù):
1、隨著人工智能(ai)大模型在語(yǔ)音處理領(lǐng)域的發(fā)展,ai助手已經(jīng)成為當(dāng)下智能手機(jī)的常見(jiàn)功能。用戶可以通過(guò)關(guān)鍵詞喚醒來(lái)向ai助手發(fā)出功能請(qǐng)求,例如,給某個(gè)聯(lián)系人打電話或者查詢天氣等。
2、在目前的相關(guān)實(shí)現(xiàn)中,ai助手通常依賴于語(yǔ)音識(shí)別技術(shù),其中語(yǔ)音識(shí)別技術(shù)可以是通過(guò)深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn)的。當(dāng)用戶以語(yǔ)音的形式發(fā)出指令后,終端設(shè)備可以采集語(yǔ)音信息并利用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取與語(yǔ)音識(shí)別。通過(guò)這一過(guò)程,終端設(shè)備可以確定用戶所發(fā)出的語(yǔ)音指令的語(yǔ)義信息,并作出相應(yīng)的操作。
3、然而,在一些特殊場(chǎng)景中,語(yǔ)音識(shí)別難以滿足現(xiàn)實(shí)需要。例如,在某些場(chǎng)景下用戶不方便發(fā)聲,則會(huì)導(dǎo)致ai助手的應(yīng)用場(chǎng)景受限。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種基于圖像的命令處理方法及電子設(shè)備,應(yīng)用于終端技術(shù)領(lǐng)域。本技術(shù)的技術(shù)方案可以在用戶不方便發(fā)聲的場(chǎng)景下,基于唇動(dòng)命令驅(qū)動(dòng)ai助手,從而可以有效擴(kuò)展ai助手的使用場(chǎng)景。
2、第一方面,本技術(shù)實(shí)施例提出一種基于圖像的命令處理方法。該方法包括:
3、獲取第一相機(jī)在第一時(shí)段內(nèi)采集的多張圖像;
4、根據(jù)多張圖像,提取第一序列特征,第一序列特征用于指示多張圖像中的唇部區(qū)域所對(duì)應(yīng)的唇動(dòng)特征;
5、在多個(gè)預(yù)設(shè)序列特征中,確定與第一序列特征相匹配的目標(biāo)預(yù)設(shè)序列特征,多個(gè)預(yù)設(shè)序列特征分別對(duì)應(yīng)各自的預(yù)設(shè)命令,預(yù)設(shè)序列特征用于指示與預(yù)設(shè)命令相對(duì)應(yīng)的唇動(dòng)特征;
6、執(zhí)行目標(biāo)預(yù)設(shè)序列特征對(duì)應(yīng)的預(yù)設(shè)命令。
7、在這種實(shí)現(xiàn)方式中,在本實(shí)施例中,通過(guò)利用第一相機(jī)采集圖像,之后基于圖像識(shí)別唇動(dòng)序列特征,并將識(shí)別到的唇動(dòng)序列特征和多個(gè)預(yù)設(shè)命令各自對(duì)應(yīng)的預(yù)設(shè)序列特征進(jìn)行匹配,以執(zhí)行匹配到的目標(biāo)預(yù)設(shè)序列特征所對(duì)應(yīng)的預(yù)設(shè)命令,從而可以實(shí)現(xiàn)基于唇動(dòng)的方式驅(qū)動(dòng)終端設(shè)備執(zhí)行相應(yīng)命令的目的,避免了在一些場(chǎng)景下用戶不方便采用語(yǔ)音的方式使用ai助手所產(chǎn)生的限制,有效擴(kuò)展了ai助手的應(yīng)用場(chǎng)景。
8、以及,通過(guò)獲取第一相機(jī)在第一時(shí)段內(nèi)采集的多張圖像,利用多張圖像進(jìn)行唇動(dòng)檢測(cè)可以有效提高唇動(dòng)檢測(cè)的準(zhǔn)確性。通過(guò)提取第一序列特征并將獲得的第一序列特征與多個(gè)預(yù)設(shè)序列特征進(jìn)行對(duì)比,可以快速確定用戶輸入的唇動(dòng)口令的含義,提高處理效率。通過(guò)執(zhí)行目標(biāo)預(yù)設(shè)序列特征對(duì)應(yīng)的預(yù)設(shè)命令,解決了用戶的實(shí)際需求。
9、在一種可能的實(shí)現(xiàn)方式中,獲取第一相機(jī)在第一時(shí)段內(nèi)采集的多張圖像,包括:
10、針對(duì)第一相機(jī)采集的任一張第一圖像,獲取采集時(shí)刻與第一圖像相鄰的多張第二圖像;
11、在第一圖像以及多張第二圖像中,確定起始圖像,其中起始圖像為檢測(cè)到唇動(dòng)開(kāi)始的圖像;
12、從起始圖像的采集時(shí)刻開(kāi)始,獲取第一相機(jī)在預(yù)設(shè)時(shí)長(zhǎng)內(nèi)采集的多張圖像,以得到第一時(shí)段內(nèi)采集的多張圖像,其中第一時(shí)段為起始圖像的采集時(shí)刻之后預(yù)設(shè)時(shí)長(zhǎng)所對(duì)應(yīng)的時(shí)段。
13、在這種實(shí)現(xiàn)方式中,通過(guò)在獲取第一圖像以及多張第二圖像后,來(lái)確定唇動(dòng)是否開(kāi)始,可以過(guò)濾掉日常交談等場(chǎng)景下獲取的圖像。通過(guò)獲取第一相機(jī)在預(yù)設(shè)時(shí)長(zhǎng)內(nèi)采集的多張圖像來(lái)判斷唇動(dòng)是否結(jié)束,進(jìn)而減少因誤存儲(chǔ)唇動(dòng)圖像而消耗終端設(shè)備功耗的情況。
14、在一種可能的實(shí)現(xiàn)方式中,在第一圖像以及多張第二圖像中,確定起始圖像,包括:
15、針對(duì)第一圖像以及多張第二圖像中每相鄰的兩張圖像分別進(jìn)行對(duì)比處理,以得到每相鄰的兩張圖像各自對(duì)應(yīng)的唇動(dòng)檢測(cè)結(jié)果;
16、根據(jù)每相鄰的兩張圖像各自對(duì)應(yīng)的唇動(dòng)檢測(cè)結(jié)果,確定檢測(cè)到唇動(dòng)開(kāi)始的起始圖像。
17、在這種實(shí)現(xiàn)方式中,通過(guò)對(duì)每相鄰的兩張圖像各自對(duì)應(yīng)的唇動(dòng)檢測(cè)結(jié)果比較,來(lái)檢測(cè)唇動(dòng)開(kāi)始的圖像以及時(shí)刻,從而有效避免未發(fā)生唇動(dòng)而對(duì)圖像處理產(chǎn)生的不必要的功耗。
18、在一種可能的實(shí)現(xiàn)方式中,方法還包括:
19、針對(duì)第一圖像執(zhí)行人臉檢測(cè),和/或,針對(duì)第一圖像執(zhí)行人眼注視檢測(cè);
20、針對(duì)第一相機(jī)采集的任一張第一圖像,獲取采集時(shí)刻與第一圖像相鄰的多張第二圖像,包括:
21、在針對(duì)第一圖像檢測(cè)到人臉的情況下,和/或,在針對(duì)第一圖像檢測(cè)到人眼注視的情況下,獲取采集時(shí)刻與第一圖像相鄰的多張第二圖像。
22、在這種實(shí)現(xiàn)方式中,通過(guò)人臉檢測(cè),可以過(guò)濾掉不包含人臉的圖像,也即針對(duì)不包含人臉的圖像無(wú)需執(zhí)行后續(xù)處理,進(jìn)而降低本技術(shù)所提出方案的整體算法功耗,給終端設(shè)備減少不必要的損耗。通過(guò)人眼檢測(cè),同樣可以過(guò)濾掉大量的用戶并未和終端設(shè)備進(jìn)行交互的場(chǎng)景下所采集的包含人臉的圖像,以降低針對(duì)這部分圖像進(jìn)行處理所產(chǎn)生的大功耗,同時(shí)還可以有效避免誤激活的問(wèn)題。
23、在一種可能的實(shí)現(xiàn)方式中,方法還包括:
24、根據(jù)第一時(shí)段內(nèi)采集時(shí)刻的排序靠后的多張圖像,確定在第一時(shí)段內(nèi)唇動(dòng)是否結(jié)束;
25、根據(jù)多張圖像,提取第一序列特征,包括:
26、在確定在第一時(shí)段內(nèi)唇動(dòng)結(jié)束的情況下,根據(jù)多張圖像,提取第一序列特征。
27、在這種實(shí)現(xiàn)方式中,通過(guò)判斷第一時(shí)段內(nèi)唇動(dòng)是否結(jié)束,進(jìn)而減少因誤存儲(chǔ)唇動(dòng)圖像而消耗終端設(shè)備功耗的情況。同時(shí),通過(guò)提取第一序列特征,可以快速確定用戶輸入的唇動(dòng)口令的含義,提高處理效率。
28、在一種可能的實(shí)現(xiàn)方式中根據(jù)多張圖像,提取第一序列特征,包括:
29、在多張圖像中分別截取唇部區(qū)域,以得到多張圖像各自對(duì)應(yīng)的子圖像;
30、根據(jù)多張圖像各自對(duì)應(yīng)的子圖像,提取第一序列特征。
31、在這種實(shí)現(xiàn)方式中,通過(guò)在多張圖像中分別截取唇部區(qū)域,可以提高特征提取的效率與準(zhǔn)確度,避免圖像范圍過(guò)大帶來(lái)的相關(guān)干擾。
32、在一種可能的實(shí)現(xiàn)方式中,在多個(gè)預(yù)設(shè)序列特征中,確定與第一序列特征相匹配的目標(biāo)預(yù)設(shè)序列特征,包括:
33、分別確定多個(gè)預(yù)設(shè)序列特征與第一序列特征的相似度;
34、在多個(gè)預(yù)設(shè)序列特征中,確定第一序列特征的相似度最高的預(yù)設(shè)序列特征;
35、在相似度最高的預(yù)設(shè)序列特征所對(duì)應(yīng)的相似度大于預(yù)設(shè)閾值的情況下,確定相似度最高的預(yù)設(shè)序列特征為目標(biāo)預(yù)設(shè)序列特征。
36、在這種實(shí)現(xiàn)方式中,通過(guò)特征匹配,可以快速且準(zhǔn)確地確定用戶命令口令的含義,以解決用戶的實(shí)際需求。
37、在一種可能的實(shí)現(xiàn)方式中,方法還包括:
38、在用戶錄制第一預(yù)設(shè)命令所對(duì)應(yīng)的唇動(dòng)指令的過(guò)程中,采集多張唇動(dòng)圖像;
39、根據(jù)多張唇動(dòng)圖像,生成第一預(yù)設(shè)命令所對(duì)應(yīng)的預(yù)設(shè)序列特征;
40、存儲(chǔ)第一預(yù)設(shè)命令以及與第一預(yù)設(shè)命令所對(duì)應(yīng)的預(yù)設(shè)序列特征。
41、在這種實(shí)現(xiàn)方式中,通過(guò)錄制并存儲(chǔ)第一預(yù)設(shè)命令以及與第一預(yù)設(shè)命令所對(duì)應(yīng)的預(yù)設(shè)序列特征,方便用戶在后續(xù)操作中,利用預(yù)設(shè)命令所對(duì)應(yīng)的預(yù)設(shè)序列特征與第一序列特征作比較,解決用戶的當(dāng)前需求,避免因一些場(chǎng)景下不便于說(shuō)話而不能解決用戶需求所帶來(lái)的不便。
42、第二方面,本技術(shù)實(shí)施例提供一種基于圖像的命令處理裝置,該基于圖像的命令處理裝置可以是電子設(shè)備,也可以是電子設(shè)備內(nèi)的芯片或者芯片系統(tǒng)。該基于圖像的命令處理裝置可以包括顯示單元和處理單元。
43、當(dāng)該基于圖像的命令處理裝置是電子設(shè)備時(shí),該處顯示單元可以是顯示屏。該顯示單元用于執(zhí)行顯示的步驟,以使該電子設(shè)備實(shí)現(xiàn)第一方面或第一方面的任意一種可能的實(shí)現(xiàn)方式中描述的一種基于圖像的命令處理方法。
44、當(dāng)該基于圖像的命令處理裝置是電子設(shè)備時(shí),該處理單元可以是處理器。該基于圖像的命令處理裝置還可以包括存儲(chǔ)單元,該存儲(chǔ)單元可以是存儲(chǔ)器。該存儲(chǔ)單元用于存儲(chǔ)指令,該處理單元執(zhí)行該存儲(chǔ)單元所存儲(chǔ)的指令,以使該電子設(shè)備實(shí)現(xiàn)第一方面或第一方面的任意一種可能的實(shí)現(xiàn)方式中描述的一種基于圖像的命令處理方法。
45、當(dāng)該基于圖像的命令處理裝置是電子設(shè)備內(nèi)的芯片或者芯片系統(tǒng)時(shí),該處理單元可以是處理器。該處理單元執(zhí)行存儲(chǔ)單元所存儲(chǔ)的指令,以使該電子設(shè)備實(shí)現(xiàn)第一方面或第一方面的任意一種可能的實(shí)現(xiàn)方式中描述的一種基于圖像的命令處理方法。該存儲(chǔ)單元可以是該芯片內(nèi)的存儲(chǔ)單元(例如,寄存器、緩存等),也可以是該電子設(shè)備內(nèi)的位于該芯片外部的存儲(chǔ)單元(例如,只讀存儲(chǔ)器、隨機(jī)存取存儲(chǔ)器等)。
46、第三方面,本技術(shù)實(shí)施例提供一種電子設(shè)備,包括處理器和存儲(chǔ)器,存儲(chǔ)器用于存儲(chǔ)代碼指令,處理器用于運(yùn)行代碼指令,以執(zhí)行第一方面或第一方面的任意一種可能的實(shí)現(xiàn)方式中描述的方法。
47、第四方面,本技術(shù)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序或指令,當(dāng)計(jì)算機(jī)程序或指令在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行第一方面或第一方面的任意一種可能的實(shí)現(xiàn)方式中描述的方法。
48、第五方面,本技術(shù)實(shí)施例提供一種包括計(jì)算機(jī)程序的計(jì)算機(jī)程序產(chǎn)品,當(dāng)計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行第一方面或第一方面的任意一種可能的實(shí)現(xiàn)方式中描述的方法。
49、第六方面,本技術(shù)提供一種芯片或者芯片系統(tǒng),該芯片或者芯片系統(tǒng)包括至少一個(gè)處理器和通信接口,通信接口和至少一個(gè)處理器通過(guò)線路互聯(lián),至少一個(gè)處理器用于運(yùn)行計(jì)算機(jī)程序或指令,以執(zhí)行第一方面或第一方面的任意一種可能的實(shí)現(xiàn)方式中描述的方法。其中,芯片中的通信接口可以為輸入/輸出接口、管腳或電路等。
50、在一種可能的實(shí)現(xiàn)中,本技術(shù)中上述描述的芯片或者芯片系統(tǒng)還包括至少一個(gè)存儲(chǔ)器,該至少一個(gè)存儲(chǔ)器中存儲(chǔ)有指令。該存儲(chǔ)器可以為芯片內(nèi)部的存儲(chǔ)單元,例如,寄存器、緩存等,也可以是該芯片的存儲(chǔ)單元(例如,只讀存儲(chǔ)器、隨機(jī)存取存儲(chǔ)器等)。
51、應(yīng)當(dāng)理解的是,本技術(shù)的第二方面至第六方面與本技術(shù)的第一方面的技術(shù)方案相對(duì)應(yīng),各方面及對(duì)應(yīng)的可行實(shí)施方式所取得的有益效果相似,不再贅述。