本申請(qǐng)涉及顯示設(shè)備,尤其涉及一種顯示設(shè)備、服務(wù)器及喚醒詞檢測(cè)方法。
背景技術(shù):
1、顯示設(shè)備是能夠呈現(xiàn)用戶界面,并支持用戶交互的智能設(shè)備。以智能電視為例,智能電視是基于internet應(yīng)用技術(shù),具備開放式操作系統(tǒng)與芯片,擁有開放式應(yīng)用平臺(tái),可實(shí)現(xiàn)雙向人機(jī)交互功能,集影音、娛樂、數(shù)據(jù)等多種功能于一體的電視產(chǎn)品,用于滿足用戶多樣化和個(gè)性化需求。顯示設(shè)備通過語音喚醒、遠(yuǎn)程遙控、觸摸控制等方式實(shí)現(xiàn)人機(jī)交互功能。
2、語音喚醒方式基于語音識(shí)別系統(tǒng),即采用喚醒詞檢測(cè)技術(shù)識(shí)別固定喚醒詞,由于喚醒詞檢測(cè)技術(shù)基于深度學(xué)習(xí)和大模型技術(shù),因此,通過復(fù)雜的模型結(jié)構(gòu)和高維度的隱藏層,可以提高識(shí)別準(zhǔn)確率。
3、然而,在復(fù)雜環(huán)境下,如存在人聲干擾、背景噪音時(shí),喚醒詞檢測(cè)技術(shù)的識(shí)別準(zhǔn)確率低、喚醒率差,且由于喚醒詞檢測(cè)技術(shù)基于復(fù)雜的模型結(jié)構(gòu)和高維度的隱藏層,難以在算力低的平臺(tái)進(jìn)行部署。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┮环N顯示設(shè)備、服務(wù)器及喚醒詞檢測(cè)方法,以解決喚醒詞檢測(cè)技術(shù)的識(shí)別準(zhǔn)確率低、喚醒率差且難以在算力低的平臺(tái)上部署的問題。
2、第一方面,本申請(qǐng)一些實(shí)施例提供一種顯示設(shè)備,包括:顯示器、存儲(chǔ)器、音頻輸入接口以及控制器。其中,所述顯示器被配置為顯示用戶界面;所述存儲(chǔ)器被配置為存儲(chǔ)聲學(xué)模型和第一分類模型;所述音頻輸入接口被配置為獲取音頻數(shù)據(jù);所述控制器被配置為:
3、響應(yīng)于用戶輸入的語音喚醒指令,通過所述音頻輸入接口獲取連續(xù)多幀音頻數(shù)據(jù);
4、對(duì)多幀所述音頻數(shù)據(jù)執(zhí)行第一特征提取,以得到第一聲學(xué)特征;
5、將所述第一聲學(xué)特征輸入至所述聲學(xué)模型,以得到第一概率值;其中,所述第一概率值為通過所述聲學(xué)模型預(yù)測(cè)的所述音頻數(shù)據(jù)包含喚醒詞的分類概率的中位數(shù);
6、若所述第一概率值大于第一閾值,則對(duì)所述音頻數(shù)據(jù)執(zhí)行第二特征提取,以得到第二聲學(xué)特征;
7、將所述第二聲學(xué)特征輸入至所述第一分類模型,以得到所述音頻數(shù)據(jù)包含喚醒詞的第一分類概率和所述音頻數(shù)據(jù)包含常規(guī)詞的第二分類概率;
8、若所述第一分類概率大于所述第二分類概率,則生成喚醒指令,以及響應(yīng)于所述喚醒指令,喚醒語音助手。
9、第二方面,本申請(qǐng)一些實(shí)施例還提供一種服務(wù)器,包括:存儲(chǔ)模塊、通信模塊和處理器。其中,所述存儲(chǔ)模塊被配置為存儲(chǔ)聲學(xué)模型和第一分類模型;所述通信模塊被配置為與顯示設(shè)備建立通信連接;所述處理器被配置為:
10、接收顯示設(shè)備發(fā)送的連續(xù)多幀音頻數(shù)據(jù),所述音頻數(shù)據(jù)為顯示設(shè)備響應(yīng)于用戶輸入的語音喚醒指令,并通過音頻輸入接口獲取的音頻數(shù)據(jù);
11、對(duì)多幀所述音頻數(shù)據(jù)執(zhí)行第一特征提取,以得到第一聲學(xué)特征;
12、將所述第一聲學(xué)特征輸入至所述聲學(xué)模型,以得到第一概率值;其中,所述第一概率值為通過所述聲學(xué)模型預(yù)測(cè)的所述音頻數(shù)據(jù)包含喚醒詞的分類概率的中位數(shù);
13、若所述第一概率值大于第一閾值,則對(duì)所述音頻數(shù)據(jù)執(zhí)行第二特征提取,以得到第二聲學(xué)特征;
14、將所述第二聲學(xué)特征輸入至所述第一分類模型,以得到所述音頻數(shù)據(jù)包含喚醒詞的第一分類概率和所述音頻數(shù)據(jù)包含常規(guī)詞的第二分類概率;
15、若所述第一分類概率大于所述第二分類概率,則生成喚醒指令;
16、將所述喚醒指令發(fā)送給所述顯示設(shè)備,以使所述顯示設(shè)備響應(yīng)于所述喚醒指令,喚醒語音助手。
17、第三方面,本申請(qǐng)一些實(shí)施例還提供一種喚醒詞檢測(cè)方法,應(yīng)用于第一方面提供的顯示設(shè)備,所述顯示設(shè)備包括:顯示器、存儲(chǔ)器、音頻輸入接口以及控制器,所述方法包括:
18、響應(yīng)于用戶輸入的語音喚醒指令,通過音頻輸入接口獲取連續(xù)多幀音頻數(shù)據(jù);
19、對(duì)多幀所述音頻數(shù)據(jù)執(zhí)行第一特征提取,以得到第一聲學(xué)特征;
20、將所述第一聲學(xué)特征輸入至聲學(xué)模型,以得到第一概率值;其中,所述第一概率值為通過所述聲學(xué)模型預(yù)測(cè)的所述音頻數(shù)據(jù)包含喚醒詞的分類概率的中位數(shù);
21、若所述第一概率值大于第一閾值,則對(duì)所述音頻數(shù)據(jù)執(zhí)行第二特征提取,以得到第二聲學(xué)特征;
22、將所述第二聲學(xué)特征輸入至第一分類模型,以得到所述音頻數(shù)據(jù)包含喚醒詞的第一分類概率和所述音頻數(shù)據(jù)包含常規(guī)詞的第二分類概率;
23、若所述第一分類概率大于所述第二分類概率,則生成喚醒指令,以及響應(yīng)于所述喚醒指令,喚醒語音助手。
24、第四方面,本申請(qǐng)一些實(shí)施例還提供一種喚醒詞檢測(cè)方法,應(yīng)用于第二方面提供的服務(wù)器,所述服務(wù)器包括:
25、接收顯示設(shè)備發(fā)送的連續(xù)多幀音頻數(shù)據(jù),所述音頻數(shù)據(jù)為顯示設(shè)備響應(yīng)于用戶輸入的語音喚醒指令,并通過音頻輸入接口獲取的音頻數(shù)據(jù);
26、對(duì)多幀所述音頻數(shù)據(jù)執(zhí)行第一特征提取,以得到第一聲學(xué)特征;
27、將所述第一聲學(xué)特征輸入至聲學(xué)模型,以得到第一概率值;其中,所述第一概率值為通過所述聲學(xué)模型預(yù)測(cè)的所述音頻數(shù)據(jù)包含喚醒詞的分類概率的中位數(shù);
28、若所述第一概率值大于第一閾值,則對(duì)所述音頻數(shù)據(jù)執(zhí)行第二特征提取,以得到第二聲學(xué)特征;
29、將所述第二聲學(xué)特征輸入至第一分類模型,以得到所述音頻數(shù)據(jù)包含喚醒詞的第一分類概率和所述音頻數(shù)據(jù)包含常規(guī)詞的第二分類概率;
30、若所述第一分類概率大于所述第二分類概率,則生成喚醒指令;
31、將所述喚醒指令發(fā)送給所述顯示設(shè)備,以使所述顯示設(shè)備響應(yīng)于所述喚醒指令,喚醒語音助手。
32、由以上技術(shù)方案可知,本申請(qǐng)一些實(shí)施例提供一種顯示設(shè)備、服務(wù)器及喚醒詞檢測(cè)方法,所述方法可以響應(yīng)于語音喚醒指令,獲取連續(xù)多幀音頻數(shù)據(jù)。并對(duì)多幀音頻數(shù)據(jù)執(zhí)行第一特征提取,以及將第一聲學(xué)特征輸入至聲學(xué)模型,以得到第一概率值。若第一概率值大于第一閾值,則對(duì)音頻數(shù)據(jù)執(zhí)行第二特征提取,以及將第二聲學(xué)特征輸入至第一分類模型,以得到音頻數(shù)據(jù)包含喚醒詞的第一分類概率和音頻數(shù)據(jù)包含常規(guī)詞的第二分類概率。若第一分類概率大于第二分類概率,則生成喚醒指令,以及響應(yīng)于喚醒指令,控制顯示設(shè)備喚醒語音助手。所述方法采用多個(gè)模型對(duì)音頻數(shù)據(jù)進(jìn)行多次喚醒詞檢測(cè),可以解決喚醒詞檢測(cè)技術(shù)的識(shí)別準(zhǔn)確率低、喚醒率差且難以在算力低的平臺(tái)上部署的問題。
1.一種顯示設(shè)備,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的顯示設(shè)備,其特征在于,所述存儲(chǔ)器還被配置為存儲(chǔ)第二分類模型,所述控制器還被配置為:
3.根據(jù)權(quán)利要求1所述的顯示設(shè)備,其特征在于,所述控制器還被配置為:
4.根據(jù)權(quán)利要求2所述的顯示設(shè)備,其特征在于,所述控制器還被配置為:
5.根據(jù)權(quán)利要求2所述的顯示設(shè)備,其特征在于,所述控制器還被配置為:
6.根據(jù)權(quán)利要求2所述的顯示設(shè)備,其特征在于,所述控制器還被配置為:
7.根據(jù)權(quán)利要求2所述的顯示設(shè)備,其特征在于,所述控制器還被配置為:
8.根據(jù)權(quán)利要求1所述的顯示設(shè)備,其特征在于,所述控制器還被配置為:
9.一種服務(wù)器,其特征在于,包括:
10.一種喚醒詞檢測(cè)方法,其特征在于,應(yīng)用于權(quán)利要求1-8任一項(xiàng)所述的顯示設(shè)備;所述方法包括: