本公開涉及語音處理領(lǐng)域,特別是涉及一種音頻數(shù)據(jù)處理方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、說話人日志(speaker?diarization)是語音研究領(lǐng)域中的一個熱門課題,旨在對給定的一段語音,將其中涵蓋的說話人定位并識別出來。
2、說話人日志的一般處理流程包括:(1)聲音活動檢測vad;(2)特征提??;(3)特征聚類;(4)后處理;其中第一步是為了把非說話人(例如靜音或噪聲)的片段去除,第二步則是提取可區(qū)分不同說話人的特征(也叫聲紋特征),方便后續(xù)做聚類,最后一步一般是對聚類的結(jié)果進行整理,使其在時間上更加平滑。
3、針對說話人日志,目前較為通用的方案是基于深度神經(jīng)網(wǎng)絡(luò)模型提取語音片段的聲紋特征,然后對這些聲紋特征進行譜聚類,以達到為每個特征分配說話人的目的。
4、假設(shè)總共得到總共n個聲紋特征,則譜聚類算法可分為如下5個步驟:
5、1、基于n個聲紋特征構(gòu)建一個相似度圖g,可以看成是一個nxn的矩陣,其中的元素g_ij表示第i個聲紋特征與第j個聲紋特征的相似度;
6、2、計算矩陣g的未歸一化拉普拉斯矩陣l;
7、3、對l進行特征值分解,取其最小的k個特征值,以及其對應(yīng)的特征向量v1,v2,…,vk;
8、4、構(gòu)建新的n則k維數(shù)據(jù){yi},使用yi的第j維元素等于vj的第i維元素;
9、5、對{yi}運行k-均值聚類算法,得到聚類結(jié)果。
10、基于譜聚類良好的性質(zhì)及自適應(yīng)的聚類中心,往往能得到令人滿意的結(jié)果。但是從上述流程中可以看出,譜聚類的結(jié)果嚴重依賴相似度圖g,也就是特征之間的相似度對聚類的結(jié)果影響非常大。當提取的某些聲紋特征不夠魯棒時,就可能導致出現(xiàn)同一個說話人的一句話,中間一部分被錯誤地歸到了另一個說話人類別上去,從而影響說話人日志的結(jié)果。
11、因此,在部分聲紋特征不夠魯棒時,如何緩解譜聚類算法將同一個說話人的連續(xù)語音錯誤歸類到其它說話人類別上去的問題,是目前亟需解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本公開要解決的一個技術(shù)問題是,在部分聲紋特征不夠魯棒時,譜聚類算法將同一個說話人的連續(xù)語音錯誤歸類到其它說話人類別上去的問題。
2、根據(jù)本公開的第一個方面,提供了一種音頻數(shù)據(jù)處理方法,包括:對音頻數(shù)據(jù)進行語音活動檢測,得到多個語音片段;對各個所述語音片段進行聲紋特征提取,得到多個聲紋特征,其中,一個所述語音片段對應(yīng)一個或多個聲紋特征;利用譜聚類算法對所述多個聲紋特征進行聚類分析,得到所述多個聲紋特征的聚類結(jié)果;其中,在得到用于表征聲紋特征之間的相似度的相似度矩陣后,提高所述相似度矩陣中至少部分屬于同一語音片段的聲紋特征之間的相似度;以及基于所述聚類結(jié)果,確定所述音頻數(shù)據(jù)中不同說話人所對應(yīng)的語音部分。
3、可選地,提高所述相似度矩陣中至少部分屬于同一語音片段的聲紋特征之間的相似度,包括:對于屬于同一語音片段的兩個聲紋特征,若該兩個聲紋特征對應(yīng)的語音數(shù)據(jù)之間的時間間隔小于或等于第一閾值,或者該兩個聲紋特征之間所間隔的聲紋特征的數(shù)量小于或等于第二閾值,則提高所述相似度矩陣中該兩個聲紋特征之間的相似度,若該兩個聲紋特征對應(yīng)的語音數(shù)據(jù)之間的時間間隔大于第一閾值,或者該兩個聲紋特征之間所間隔的聲紋特征的數(shù)量大于第二閾值,則保持所述相似度矩陣中該兩個聲紋特征之間的相似度不變。
4、可選地,提高所述相似度矩陣中該兩個聲紋特征之間的相似度,包括:將所述相似度矩陣中該兩個聲紋特征之間的相似度乘以相似度提升系數(shù),所述相似度提升系數(shù)為大于1的數(shù)值;若相乘后結(jié)果大于或等于第三閾值,則將所述相似度矩陣中該兩個聲紋特征之間的相似度修改為第三閾值;若相乘后結(jié)果小于第三閾值,則將所述相似度矩陣中該兩個聲紋特征之間的相似度修改為相乘后結(jié)果。
5、可選地,在對各個所述語音片段進行聲紋特征提取之前,該方法還包括:將所述多個語音片段中時間間隔小于或等于第四閾值的語音片段合并為一個語音片段。
6、可選地,利用譜聚類算法對所述多個聲紋特征進行聚類分析,得到所述多個聲紋特征的聚類結(jié)果,包括:基于所述多個聲紋特征構(gòu)建所述相似度矩陣;基于提高后的相似度矩陣構(gòu)建拉普拉斯矩陣;對所述拉普拉斯矩陣進行特征值分解,得到多個特征值以及各個特征值的特征向量;按照特征值由小到大的順序選擇第一數(shù)量個特征值,并基于選擇的特征值的特征向量構(gòu)建特征矩陣,其中,所述特征向量用于作為特征矩陣中的列向量,所述特征矩陣中的一個行向量對應(yīng)一個聲紋特征;對所述特征矩陣進行聚類分析,得到所述多個聲紋特征的聚類結(jié)果。
7、可選地,對所述特征矩陣進行聚類分析,包括:利用k均值聚類算法對所述特征矩陣進行聚類分析。
8、可選地,基于所述聚類結(jié)果,確定所述音頻數(shù)據(jù)中不同說話人所對應(yīng)的語音部分,包括:根據(jù)所述聚類結(jié)果,以及各個所述聲紋特征所對應(yīng)的語音片段,確定各個所述語音片段所對應(yīng)的說話人。
9、可選地,該方法還包括:對所述語音片段進行語音識別;以及將對應(yīng)同一說話人的語音片段的語音識別結(jié)果,作為該說話人的語音識別結(jié)果。
10、可選地,所述音頻數(shù)據(jù)為電話會議錄音數(shù)據(jù);或者所述音頻數(shù)據(jù)為對現(xiàn)場會議進行拾音得到的音頻數(shù)據(jù)。
11、根據(jù)本公開的第二個方面,提供了一種音頻數(shù)據(jù)處理裝置,包括:檢測模塊,用于對音頻數(shù)據(jù)進行語音活動檢測,得到多個語音片段;提取模塊,用于對各個所述語音片段進行聲紋特征提取,得到多個聲紋特征,其中,一個所述語音片段對應(yīng)一個或多個聲紋特征;聚類分析模塊,用于利用譜聚類算法對所述多個聲紋特征進行聚類分析,得到所述多個聲紋特征的聚類結(jié)果;其中,所述聚類分析模塊包括相似度調(diào)整模塊,用于在得到用于表征聲紋特征之間的相似度的相似度矩陣后,提高所述相似度矩陣中至少部分屬于同一語音片段的聲紋特征之間的相似度;以及確定模塊,用于基于所述聚類結(jié)果,確定所述音頻數(shù)據(jù)中不同說話人所對應(yīng)的語音部分。
12、可選地,對于屬于同一語音片段的兩個聲紋特征,若該兩個聲紋特征對應(yīng)的語音數(shù)據(jù)之間的時間間隔小于或等于第一閾值,或者該兩個聲紋特征之間所間隔的聲紋特征的數(shù)量小于或等于第二閾值,則所述相似度調(diào)整模塊提高所述相似度矩陣中該兩個聲紋特征之間的相似度,若該兩個聲紋特征對應(yīng)的語音數(shù)據(jù)之間的時間間隔大于第一閾值,或者該兩個聲紋特征之間所間隔的聲紋特征的數(shù)量大于第二閾值,則所述相似度調(diào)整模塊保持所述相似度矩陣中該兩個聲紋特征之間的相似度不變。
13、可選地,所述相似度調(diào)整模塊將所述相似度矩陣中該兩個聲紋特征之間的相似度乘以相似度提升系數(shù),所述相似度提升系數(shù)為大于1的數(shù)值;若相乘后結(jié)果大于或等于第三閾值,則所述相似度調(diào)整模塊將所述相似度矩陣中該兩個聲紋特征之間的相似度修改為第三閾值,若相乘后結(jié)果小于第三閾值,則所述相似度調(diào)整模塊將所述相似度矩陣中該兩個聲紋特征之間的相似度修改為相乘后結(jié)果。
14、可選地,該裝置還包括:合并模塊,用于在所述提取模塊對各個所述語音片段進行聲紋特征提取之前,將所述多個語音片段中時間間隔小于或等于第四閾值的語音片段合并為一個語音片段。
15、可選地,所述聚類分析模塊還包括:第一構(gòu)建模塊,用于基于所述多個聲紋特征構(gòu)建所述相似度矩陣;第二構(gòu)建模塊,用于基于提高后的相似度矩陣構(gòu)建拉普拉斯矩陣;特征值分解模塊,用于對所述拉普拉斯矩陣進行特征值分解,得到多個特征值以及各個特征值的特征向量;第三構(gòu)建模塊,用于按照特征值由小到大的順序選擇第一數(shù)量個特征值,并基于選擇的特征值的特征向量構(gòu)造特征矩陣,其中,所述特征向量用于作為特征矩陣中的列向量,所述特征矩陣中的一個行向量對應(yīng)一個聲紋特征;聚類分析子模塊,用于對所述特征矩陣進行聚類分析,得到所述多個聲紋特征的聚類結(jié)果。
16、可選地,所述聚類分析子模塊利用k均值聚類算法對所述特征矩陣進行聚類分析。
17、可選地,所述確定模塊根據(jù)所述聚類結(jié)果,以及各個所述聲紋特征所對應(yīng)的語音片段,確定各個所述語音片段所對應(yīng)的說話人。
18、可選地,該裝置還包括:語音識別模塊,用于對所述語音片段進行語音識別,并將對應(yīng)同一說話人的語音片段的語音識別結(jié)果,作為該說話人的語音識別結(jié)果。
19、可選地,所述音頻數(shù)據(jù)為電話會議錄音數(shù)據(jù);或者所述音頻數(shù)據(jù)為對現(xiàn)場會議進行拾音得到的音頻數(shù)據(jù)。
20、根據(jù)本公開的第三個方面,提供了一種計算設(shè)備,包括:處理器;以及存儲器,其上存儲有可執(zhí)行代碼,當可執(zhí)行代碼被處理器執(zhí)行時,使處理器執(zhí)行如上述第一方面所述的方法。
21、根據(jù)本公開的第四個方面,提供了一種計算機程序產(chǎn)品,包括可執(zhí)行代碼,當所述可執(zhí)行代碼被電子設(shè)備的處理器執(zhí)行時,使所述處理器執(zhí)行如上述第一方面所述的方法。
22、根據(jù)本公開的第五個方面,提供了一種非暫時性機器可讀存儲介質(zhì),其上存儲有可執(zhí)行代碼,當可執(zhí)行代碼被電子設(shè)備的處理器執(zhí)行時,使處理器執(zhí)行如上述第一方面所述的方法。
23、由此,本公開在利用譜聚類算法進行說話人日志識別的過程中,通過提高用于表征聲紋特征之間的相似度的相似度矩陣中至少部分屬于同一語音片段的聲紋特征之間的相似度,可以提升類內(nèi)相似度并增大類間差別,進而在部分聲紋特征不夠魯棒時,可以在一定程度緩解譜聚類算法將同一個說話人的連續(xù)語音錯誤歸類到其他說話人類別的問題。