本發(fā)明涉及生物信息,尤其涉及一種哮喘病組學數(shù)據(jù)的處理方法、一種哮喘病組學數(shù)據(jù)的處理系統(tǒng),以及一種計算機可讀存儲介質(zhì)。
背景技術:
1、哮喘病作為一種異質(zhì)性炎癥性疾病,其臨床表現(xiàn)主要包括反復的喘息、胸悶和咳嗽,對人類的健康產(chǎn)生嚴重的負面影響,因此探索哮喘病的生物標志物和構建其診斷模型顯得尤其重要。
2、現(xiàn)有的診斷方法中,可以通過獲取多種組學數(shù)據(jù),并對數(shù)據(jù)進行整合分析來探索哮喘病的生物標志物和構建其診斷模型,如利用哮喘組學數(shù)據(jù)的邏輯斯特回歸模型確定了幾個與哮喘相關轉(zhuǎn)錄因子相關的單核苷酸多態(tài)性。然而,邏輯斯特回歸假設原始組學數(shù)據(jù)之間存在線性關系,無法滿足于存在非線性關系的組學數(shù)據(jù)中。
3、此外,現(xiàn)有技術中,非負矩陣分解算法可以合理運用組學數(shù)據(jù)中先驗信息,提高生物標志物挖掘的有效性。雖然該方法初始參數(shù)的隨機初始化使得目標函數(shù)的解不唯一且對噪聲敏感,但是可以通過對初始參數(shù)采用奇異值初始化并加入多種網(wǎng)絡正則化約束來構建競爭性內(nèi)源rna網(wǎng)絡的方式,得到解決并獲得了良好的效果,但該算法仍然無法兼顧不同組學數(shù)據(jù)之間的非線性關系。
4、為了克服現(xiàn)有技術存在的上述缺陷,本領域亟需一種哮喘病組學數(shù)據(jù)的處理技術,基于數(shù)據(jù)驅(qū)動的臨床信息規(guī)則提取方法,在融合樣本先驗信息的同時,整合多種具有非線性關聯(lián)的組學數(shù)據(jù)、抵抗數(shù)據(jù)中的噪聲,從而挖掘哮喘病相關的生物標志物,以為哮喘病的診斷和治療靶點開發(fā)提供參考。
技術實現(xiàn)思路
1、以下給出一個或多個方面的簡要概述以提供對這些方面的基本理解。此概述不是所有構想到的方面的詳盡綜覽,并且既非旨在指認出所有方面的關鍵性或決定性要素亦非試圖界定任何或所有方面的范圍。其唯一的目的是要以簡化形式給出一個或多個方面的一些概念以為稍后給出的更加詳細的描述之前序。
2、為了克服現(xiàn)有技術存在的上述缺陷,本發(fā)明提供了一種哮喘病組學數(shù)據(jù)的處理方法、一種哮喘病組學數(shù)據(jù)的處理系統(tǒng),以及一種計算機可讀存儲介質(zhì),能夠基于數(shù)據(jù)驅(qū)動的臨床信息規(guī)則提取方法,在融合樣本先驗信息的同時,整合多種具有非線性關聯(lián)的組學數(shù)據(jù)、抵抗數(shù)據(jù)中的噪聲,從而挖掘哮喘病相關的生物標志物,以為哮喘病的診斷和治療靶點開發(fā)提供重要參考。
3、具體來說,根據(jù)本發(fā)明的第一方面提供的一種哮喘病組學數(shù)據(jù)的處理方法包括以下步驟:獲取哮喘病患者和對照樣本的轉(zhuǎn)錄組數(shù)據(jù)和dna甲基化數(shù)據(jù);對所述轉(zhuǎn)錄組數(shù)據(jù)和所述dna甲基化數(shù)據(jù)進行差異表達分析,以確定所述哮喘病患者和所述對照樣本的差異表達基因和差異甲基化位點;經(jīng)由深度子空間重建算法,根據(jù)所述哮喘病患者和所述對照樣本的組別,改變所述差異表達基因和所述差異甲基化位點的分布情況,以重建獲得基因表達矩陣和dna甲基化表達矩陣;對所述基因表達矩陣和所述dna甲基化表達矩陣,進行聯(lián)合深度半監(jiān)督非負矩陣的分解處理,以構建協(xié)同模塊;經(jīng)由深度正交典型相關分析和機器學習算法,構建基于所述協(xié)同模塊的診斷模型;以及經(jīng)由所述診斷模型,確定哮喘病相關的生物標志物。
4、進一步地,在本發(fā)明的一些實施例中,所述哮喘病患者的所述轉(zhuǎn)錄組數(shù)據(jù)和所述dna甲基化數(shù)據(jù)為無缺失值的表格數(shù)據(jù)。所述表格數(shù)據(jù)的每一行對應一個哮喘病患者,所述表格數(shù)據(jù)的每一列對應所述哮喘病患者的一個基因或一個甲基化位點。
5、進一步地,在本發(fā)明的一些實施例中,所述對所述轉(zhuǎn)錄組數(shù)據(jù)和所述dna甲基化數(shù)據(jù)進行差異表達分析,以確定所述哮喘病患者和所述對照樣本的差異表達基因和差異甲基化位點的步驟包括:按預設比例劃分各所述哮喘病患者和各所述對照樣本的轉(zhuǎn)錄組數(shù)據(jù)和dna甲基化數(shù)據(jù),以構建訓練集和測試集;以及經(jīng)由limma算法對所述訓練集中的各所述哮喘病患者和各所述對照樣本的轉(zhuǎn)錄組數(shù)據(jù)和dna甲基化數(shù)據(jù)進行所述差異表達分析,以確定所述哮喘病患者和所述對照樣本的所述差異表達基因和所述差異甲基化位點。
6、進一步地,在本發(fā)明的一些實施例中,所述經(jīng)由深度子空間重建算法,根據(jù)所述哮喘病患者和所述對照樣本的組別,改變所述差異表達基因和所述差異甲基化位點的分布情況,以重建獲得基因表達矩陣和dna甲基化表達矩陣的步驟包括:根據(jù)所述哮喘病患者和所述對照樣本的組別,確定各所述差異表達基因和各所述差異甲基化位點的樣本標簽;以及根據(jù)所述樣本標簽,改變所述差異表達基因和所述差異甲基化位點的分布情況,以重建獲得所述基因表達矩陣和所述dna甲基化表達矩陣。
7、進一步地,在本發(fā)明的一些實施例中,所述根據(jù)所述樣本標簽,改變所述差異表達基因和所述差異甲基化位點的分布情況,以重建獲得所述基因表達矩陣和所述dna甲基化表達矩陣的步驟包括:確定各所述差異表達基因和各所述差異甲基化位點的初始表達矩陣;以及將所述初始表達矩陣及對應的樣本標簽配對輸入深度子空間重建算法,使具有相同標簽的樣本數(shù)據(jù)在一子空間中接近,并使具有不同標簽的樣本數(shù)據(jù)在所述子空間中遠離,以重建獲得所述基因表達矩陣和所述dna甲基化表達矩陣。
8、進一步地,在本發(fā)明的一些實施例中,所述對所述基因表達矩陣和所述dna甲基化表達矩陣,進行聯(lián)合深度半監(jiān)督非負矩陣的分解處理,以構建協(xié)同模塊的步驟包括:將重建獲得的所述基因表達矩陣和所述dna甲基化表達矩陣,輸入聯(lián)合深度半監(jiān)督非負矩陣分解算法,以獲得多個候選協(xié)同模塊,其中,每一所述候選協(xié)同模塊中包括數(shù)目不等的基因和甲基化位點;以及基于至少一種預設的篩選規(guī)則篩選所述多個候選協(xié)同模塊,以獲得至少一個關鍵協(xié)同模塊。
9、進一步地,在本發(fā)明的一些實施例中,所述將重建獲得的所述基因表達矩陣和所述dna甲基化表達矩陣,輸入聯(lián)合深度半監(jiān)督非負矩陣分解算法,以獲得多個候選協(xié)同模塊的步驟包括:將重建獲得的所述基因表達矩陣和所述dna甲基化表達矩陣分解為一個共同的樣本潛矩陣和多個特征潛矩陣;以及通過對所述多個特征潛矩陣進行逐層降維,并逐層激活函數(shù)降維過程中的非線性變換,進行非線性特征關聯(lián)分析,以獲得所述多個候選協(xié)同模塊。
10、進一步地,在本發(fā)明的一些實施例中,所述經(jīng)由深度正交典型相關分析和機器學習算法,構建基于所述協(xié)同模塊的診斷模型的步驟包括:將所述關鍵協(xié)同模塊中的至少一個基因和至少一個甲基化位點的表達量輸入深度正交典型相關分析模型,以獲得各所述基因和各所述甲基化位點的權重;對各所述權重取絕對值,并按其大小進行排序,以獲得的預設數(shù)量的目標基因和目標甲基化位點;以及使用邏輯斯特回歸算法,構建關于所述目標基因和所述目標甲基化位點的診斷模型。
11、此外,根據(jù)本發(fā)明的第二方面提供的一種哮喘病組學數(shù)據(jù)的處理系統(tǒng)包括存儲器及處理器。所述存儲器上存儲有計算機指令。所述處理器連接所述存儲器,并被配置用于執(zhí)行所述存儲器上存儲的計算機指令,以實施如本發(fā)明的第一方面中任一項所述的哮喘病組學數(shù)據(jù)的處理方法。
12、此外,根據(jù)本發(fā)明的第三方面提供的一種計算機可讀存儲介質(zhì),其上存儲有計算機指令。所述計算機指令被處理器執(zhí)行時,實施如本發(fā)明的第一方面中任一項所述的哮喘病組學數(shù)據(jù)的處理方法。
1.一種哮喘病組學數(shù)據(jù)的處理方法,其特征在于,包括以下步驟:
2.如權利要求1所述的處理方法,其特征在于,所述哮喘病患者的所述轉(zhuǎn)錄組數(shù)據(jù)和所述dna甲基化數(shù)據(jù)為無缺失值的表格數(shù)據(jù),其中,所述表格數(shù)據(jù)的每一行對應一個哮喘病患者,所述表格數(shù)據(jù)的每一列對應所述哮喘病患者的一個基因或一個甲基化位點。
3.如權利要求1所述的處理方法,其特征在于,所述對所述轉(zhuǎn)錄組數(shù)據(jù)和所述dna甲基化數(shù)據(jù)進行差異表達分析,以確定所述哮喘病患者和所述對照樣本的差異表達基因和差異甲基化位點的步驟包括:
4.如權利要求1所述的處理方法,其特征在于,所述經(jīng)由深度子空間重建算法,根據(jù)所述哮喘病患者和所述對照樣本的組別,改變所述差異表達基因和所述差異甲基化位點的分布情況,以重建獲得基因表達矩陣和dna甲基化表達矩陣的步驟包括:
5.如權利要求4所述的處理方法,其特征在于,所述根據(jù)所述樣本標簽,改變所述差異表達基因和所述差異甲基化位點的分布情況,以重建獲得所述基因表達矩陣和所述dna甲基化表達矩陣的步驟包括:
6.如權利要求1所述的處理方法,其特征在于,所述對所述基因表達矩陣和所述dna甲基化表達矩陣,進行聯(lián)合深度半監(jiān)督非負矩陣的分解處理,以構建協(xié)同模塊的步驟包括:
7.如權利要求6所述的處理方法,其特征在于,所述將重建獲得的所述基因表達矩陣和所述dna甲基化表達矩陣,輸入聯(lián)合深度半監(jiān)督非負矩陣分解算法,以獲得多個候選協(xié)同模塊的步驟包括:
8.如權利要求6所述的處理方法,其特征在于,所述經(jīng)由深度正交典型相關分析和機器學習算法,構建基于所述協(xié)同模塊的診斷模型的步驟包括:
9.一種哮喘病組學數(shù)據(jù)的處理系統(tǒng),其特征在于,包括
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機指令,其特征在于,所述計算機指令被處理器執(zhí)行時,實施如權利要求1~8中任一項所述的哮喘病組學數(shù)據(jù)的處理方法。