午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種音樂識別模型的訓(xùn)練方法、音樂識別方法及相關(guān)設(shè)備與流程

文檔序號:39520628發(fā)布日期:2024-09-27 16:55閱讀:35來源:國知局
一種音樂識別模型的訓(xùn)練方法、音樂識別方法及相關(guān)設(shè)備與流程

本技術(shù)涉及計算機,尤其涉及一種音樂識別模型的訓(xùn)練方法、音樂識別方法及相關(guān)設(shè)備。


背景技術(shù):

1、隨著科技的不斷發(fā)展,越來越多的設(shè)備可以通過多模態(tài)的音樂識別模型識別音樂,達到以文本的形式描述音樂的目的,從而,設(shè)備可以具備更加豐富的音樂識別功能。例如,在環(huán)境中存在正在播放的音樂時,設(shè)備可以通過音樂識別模型識別該音樂,并從音樂名稱、演奏者、演奏樂器等多個方面為使用對象描述該音樂,從而,設(shè)備可以為使用對象提供針對該音樂的音樂問答服務(wù)、相似音樂風(fēng)格的音樂檢索服務(wù)或音樂交友服務(wù)等。

2、相關(guān)技術(shù)下,為了以文本形式描述音樂,音樂識別模型的模型結(jié)構(gòu)通常采用多模態(tài)大語言模型結(jié)構(gòu),以及訓(xùn)練音樂識別模型的方法通常是,采用網(wǎng)絡(luò)資源中開源的音樂數(shù)據(jù)集,對待訓(xùn)練的音樂識別模型進行多輪迭代訓(xùn)練。

3、其中,每輪迭代訓(xùn)練中,采用待訓(xùn)練的音樂識別模型對音樂數(shù)據(jù)進行特征提取,獲得音樂特征,并識別獲得的音樂特征,獲得相應(yīng)的文本描述;基于文本描述與音樂數(shù)據(jù)關(guān)聯(lián)的樣本描述之間的誤差,調(diào)整音樂識別模型的全部模型參數(shù)。

4、然而,由于多模態(tài)的音樂識別模型相較于單一模態(tài)的識別模型來說,包含更大規(guī)模的模型參數(shù),來將音樂特征識別為文本描述,因此,多模態(tài)的音樂識別模型需要更加龐大數(shù)據(jù)量的音樂數(shù)據(jù)來進行訓(xùn)練。

5、但是,由于網(wǎng)絡(luò)資源中開源的音樂數(shù)據(jù)集的使用場景較為小眾,因此,開源的音樂數(shù)據(jù)集的數(shù)據(jù)量不足以支撐這種大量模型參數(shù)的音樂識別模型的訓(xùn)練,使得基于開源的音樂數(shù)據(jù)集訓(xùn)練得到的音樂識別模型的識別準確性較低。

6、可見,相關(guān)技術(shù)下的訓(xùn)練音樂識別模型的方法,訓(xùn)練得到的音樂識別模型的識別準確性較低。


技術(shù)實現(xiàn)思路

1、本技術(shù)實施例提供了一種音樂識別模型的訓(xùn)練方法、音樂識別方法及相關(guān)設(shè)備,用于解決訓(xùn)練得到的音樂識別模型的識別準確性較低的問題。

2、第一方面,提供一種音樂識別模型的訓(xùn)練方法,包括:

3、獲取樣本數(shù)據(jù)集;其中,每個所述樣本數(shù)據(jù)包括:相應(yīng)的樣本音樂片段,以及包含所述樣本音樂片段的多種樣本音樂屬性的樣本音樂描述;

4、基于所述樣本數(shù)據(jù)集,對待訓(xùn)練的音樂識別模型進行多輪迭代訓(xùn)練;其中,所述音樂識別模型包括:已訓(xùn)練的特征提取子模型和文本識別子模型,以及待訓(xùn)練的特征映射子模型;每輪迭代訓(xùn)練包括:

5、采用所述特征提取子模型,提取所述樣本音樂片段呈現(xiàn)出的頻譜特征;

6、采用所述特征映射子模型,將獲得的頻譜特征映射為描述文本特征;其中,所述描述文本特征,用于描述所述樣本音頻片段的多種訓(xùn)練音樂屬性;

7、采用所述文本識別子模型,識別所述描述文本特征,獲得訓(xùn)練音樂描述;

8、基于獲得的訓(xùn)練音樂描述與相應(yīng)的樣本音樂描述之間的差異,調(diào)整所述特征映射模塊的模型參數(shù)。

9、第二方面,提供一種音樂識別方法,包括:

10、獲取待識別音樂;

11、采用已訓(xùn)練的音樂識別模型,提取所述待識別音樂呈現(xiàn)出的待識別頻譜特征,并將所述待識別頻譜特征映射為待識別文本特征;其中,所述音樂識別模型是采用如第一方面所述的方法訓(xùn)練得到的;

12、采用所述音樂識別模型,識別所述待識別文本特征,獲得目標音樂描述;其中,所述目標音樂描述用于:以文本形式介紹所述待識別音樂的多種目標音樂屬性。

13、第三方面,提供一種音樂識別模型的訓(xùn)練裝置,包括:

14、獲取模塊:用于獲取樣本數(shù)據(jù)集;其中,每個所述樣本數(shù)據(jù)包括:相應(yīng)的樣本音樂片段,以及包含所述樣本音樂片段的多種樣本音樂屬性的樣本音樂描述;

15、處理模塊:用于基于所述樣本數(shù)據(jù)集,對待訓(xùn)練的音樂識別模型進行多輪迭代訓(xùn)練;其中,所述音樂識別模型包括:已訓(xùn)練的特征提取子模型和文本識別子模型,以及待訓(xùn)練的特征映射子模型;每輪迭代訓(xùn)練包括:

16、所述處理模塊具體用于:采用所述特征提取子模型,提取所述樣本音樂片段呈現(xiàn)出的頻譜特征;

17、所述處理模塊具體用于:采用所述特征映射子模型,將獲得的頻譜特征映射為描述文本特征;其中,所述描述文本特征,用于描述所述樣本音頻片段的多種訓(xùn)練音樂屬性;

18、所述處理模塊具體用于:采用所述文本識別子模型,識別所述描述文本特征,獲得訓(xùn)練音樂描述;

19、所述處理模塊具體用于:基于獲得的訓(xùn)練音樂描述與相應(yīng)的樣本音樂描述之間的差異,調(diào)整所述特征映射模塊的模型參數(shù)。

20、可選的,所述獲取模塊具體用于:

21、收集多個音樂各自的多媒體文件,以及收集各多媒體文件各自的元數(shù)據(jù);

22、基于預(yù)設(shè)的片段時長,分別對所述各多媒體文件進行片段劃分,獲得相應(yīng)的多媒體文件對應(yīng)的多個子文件,并分別將獲得的各子文件作為相應(yīng)的樣本音樂片段;

23、采用已訓(xùn)練的多模態(tài)識別模型,分別對獲得的各樣本音樂片段進行音樂屬性識別,獲得相應(yīng)的樣本音樂片段的多種樣本音樂屬性;

24、采用已訓(xùn)練的大語言模型,基于獲得的各元數(shù)據(jù)和各樣本音樂屬性,分別生成所述各樣本音樂片段各自的樣本音樂描述;

25、基于所述各樣本音樂片段及其各自對應(yīng)的樣本音樂描述,獲得樣本數(shù)據(jù)集。

26、可選的,所述處理模塊還用于:

27、在所述基于所述樣本數(shù)據(jù)集,對待訓(xùn)練的音樂識別模型進行多輪迭代訓(xùn)練之前,基于所述音樂識別模型的結(jié)構(gòu)搭建策略,建立待訓(xùn)練的特征提取子模型和特征映射子模型,以及獲取已訓(xùn)練的文本識別子模型;

28、基于收集到的多個音頻數(shù)據(jù),對待訓(xùn)練的特征提取子模型進行多輪迭代訓(xùn)練,輸出已訓(xùn)練的特征提取子模型;

29、基于已訓(xùn)練的特征提取子模型和文本識別子模型,以及待訓(xùn)練的特征映射子模型,建立待訓(xùn)練的音樂識別模型。

30、可選的,所述處理模塊具體用于:

31、在每輪迭代訓(xùn)練,執(zhí)行以下操作:

32、對所述音頻數(shù)據(jù)進行子數(shù)據(jù)遮掩,獲得遮掩掉隨機子數(shù)據(jù)的遮掩數(shù)據(jù);

33、對所述遮掩數(shù)據(jù)進行特征提取,獲得數(shù)據(jù)特征;

34、基于所述數(shù)據(jù)特征,預(yù)測所述遮掩數(shù)據(jù)中被遮掩掉的所述隨機子數(shù)據(jù),獲得預(yù)測子數(shù)據(jù);

35、基于獲得的預(yù)測子數(shù)據(jù)與所述隨機子數(shù)據(jù)之間的差異,調(diào)整所述特征提取子模型的模型參數(shù)。

36、可選的,所述處理模塊具體用于:

37、采用所述特征提取子模型,提取所述樣本音樂片段包含多個子片段各自的頻譜子特征,并提取各頻譜子特征之間的頻譜關(guān)聯(lián)特征;

38、融合獲得的各頻譜子特征和頻譜關(guān)聯(lián)特征,獲得所述樣本音樂片段呈現(xiàn)出的頻譜特征。

39、可選的,所述頻譜子特征表征:相應(yīng)子片段的音調(diào)、音色、收音環(huán)境、節(jié)拍、樂器和情感中的至少一種;所述頻譜關(guān)聯(lián)特征表征:各子片段之間的相似度、節(jié)奏關(guān)系和音調(diào)轉(zhuǎn)換中的至少一種。

40、可選的,所述處理模塊具體用于:

41、基于所述特征映射子模型在本輪訓(xùn)練中的模型參數(shù),獲得所述特征映射子模型學(xué)習(xí)的各個屬性頻譜特征與各個屬性文本特征之間的第一映射關(guān)系;其中,每個所述屬性文本特征表征多種參考音樂屬性中的一種;所述多種參考音樂屬性至少包括:所述多種樣本音樂屬性和所述多種訓(xùn)練音樂屬性的并集;

42、基于所述第一映射關(guān)系,將所述頻譜特征映射為多個屬性文本特征;其中,所述多個屬性文本特征表征所述多種訓(xùn)練音樂屬性;

43、融合獲得的多個屬性文本特征,生成描述文本特征。

44、可選的,所述處理模塊還用于:

45、在所述采用所述特征映射子模型,將獲得的頻譜特征映射為描述文本特征之前,基于預(yù)設(shè)的各數(shù)據(jù)格式與各個占用數(shù)據(jù)量之間的第二映射關(guān)系,從所述各數(shù)據(jù)格式中,選取對應(yīng)的占用數(shù)據(jù)量小于參考數(shù)據(jù)量的目標數(shù)據(jù)格式;其中,所述參數(shù)數(shù)據(jù)量為:所述特征映射子模型的模型參數(shù)所使用的數(shù)據(jù)格式對應(yīng)的占用數(shù)據(jù)量;

46、將所述頻譜特征轉(zhuǎn)換為所述目標數(shù)據(jù)格式,獲得轉(zhuǎn)換后的頻譜特征。

47、可選的,所述處理模塊具體用于:

48、獲取運行本輪代訓(xùn)練的顯存的顯存占用量;

49、確定所述顯存占用量大于預(yù)設(shè)占用量時,基于預(yù)設(shè)的各數(shù)據(jù)格式與各個占用數(shù)據(jù)量之間的第二映射關(guān)系,從所述各數(shù)據(jù)格式中,選取對應(yīng)的占用數(shù)據(jù)量小于參考數(shù)據(jù)量的目標數(shù)據(jù)格式。

50、可選的,所述處理模塊具體用于:

51、基于獲得的訓(xùn)練音樂描述包含的多種訓(xùn)練音樂屬性,與相應(yīng)的樣本音樂描述包含的多種樣本音樂屬性之間的差異,確定映射訓(xùn)練損失;

52、基于所述映射訓(xùn)練損失,調(diào)整所述特征映射模塊的模型參數(shù)。

53、可選的,所述處理模塊具體用于:

54、基于獲得的訓(xùn)練音樂描述與相應(yīng)的樣本音樂描述之間的文本相似度,確定語義訓(xùn)練損失;

55、基于所述映射訓(xùn)練損失和所述語義訓(xùn)練損失,確定未達到訓(xùn)練目標時,調(diào)整所述特征映射模塊的模型參數(shù)。

56、第四方面,提供一種音樂識別裝置,包括:

57、獲取模塊:用于獲取待識別音樂;

58、處理模塊:用于采用已訓(xùn)練的音樂識別模型,提取所述待識別音樂呈現(xiàn)出的待識別頻譜特征,并將所述待識別頻譜特征映射為待識別文本特征;其中,所述音樂識別模型是采用如第一方面所述的方法訓(xùn)練得到的;

59、所述處理模塊還用于:采用所述音樂識別模型,識別所述待識別文本特征,獲得目標音樂描述;其中,所述目標音樂描述用于:以文本形式介紹所述待識別音樂的多種目標音樂屬性。

60、第五方面,提供一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面或如第二方面所述的方法。

61、第六方面,提供一種計算機設(shè)備,包括:

62、存儲器,用于存儲程序指令;

63、處理器,用于調(diào)用所述存儲器中存儲的程序指令,按照獲得的程序指令執(zhí)行如第一方面或如第二方面所述的方法。

64、第七方面,提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令用于使計算機執(zhí)行如第一方面或如第二方面所述的方法。

65、本技術(shù)實施例中,采用相對來說更加容易獲得的已訓(xùn)練的文本識別子模型,搭建待訓(xùn)練的音樂識別模型的模型結(jié)構(gòu),不需要對多模態(tài)識別這種模型結(jié)構(gòu)包含的龐大規(guī)模的模型參數(shù)進行訓(xùn)練,也不需要對文本識別子模型這種大模型進行訓(xùn)練,從多種角度降低了訓(xùn)練難度,以及縮短了訓(xùn)練時長,從而提高了訓(xùn)練效率。

66、進一步的,由于在任何音樂識別場景下,對于待訓(xùn)練的音樂識別模型的訓(xùn)練過程,不需要訓(xùn)練文本識別子模型這一大語言模型,因此避免了由于樣本數(shù)據(jù)的數(shù)據(jù)量不足或訓(xùn)練過擬合等問題造成的音樂識別模型的訓(xùn)練準確性較低,訓(xùn)練獲得的已訓(xùn)練的音樂識別模型的識別準確性較低的問題。

67、進一步的,在對音樂識別模型進行訓(xùn)練時,僅需要針對其中用于將頻譜特征映射為描述文本特征的特征映射子模型進行訓(xùn)練,實現(xiàn)音樂模態(tài)的特征空間與文本模態(tài)的特征空間對齊,大大降低了音樂識別模型中需要訓(xùn)練的模型參數(shù)的數(shù)據(jù)量,從而不需要過多的樣本數(shù)據(jù)就可以訓(xùn)練得到具有較高識別準確性的已訓(xùn)練的音樂識別模型,在降低了樣本數(shù)據(jù)獲取難度的同時,保證了已訓(xùn)練的音樂識別模型的識別準確性。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1