本發(fā)明涉及一種線粒體生物標(biāo)志物及篩選的方法,具體涉及一種癌細(xì)胞線粒體生物標(biāo)志物及基于機(jī)器算法篩選的方法。
背景技術(shù):
1、當(dāng)身體內(nèi)細(xì)胞發(fā)生突變后,它會(huì)不斷地分裂,而不受身體控制,最后形成癌癥,它是100多種相關(guān)疾病的統(tǒng)稱。而結(jié)直腸癌(crc)作為一種世界范圍內(nèi)病死率均居高位的癌癥,我國(guó)crc發(fā)病率位居各種惡性腫瘤第2位,死亡率位居各種癌癥第5位,疾病負(fù)擔(dān)嚴(yán)重,威脅人類健康。crc臨床確診多為中晚期,預(yù)后欠佳,亟待明確結(jié)直腸癌發(fā)生、發(fā)展的分子機(jī)制。
2、線粒體作為細(xì)胞氧化磷酸化供能的細(xì)胞器,對(duì)于維持線粒體的正常功能和數(shù)量以及細(xì)胞穩(wěn)定性尤為重要,線粒體通過(guò)支持腫瘤細(xì)胞在惡劣環(huán)境中的生長(zhǎng)和存活,如營(yíng)養(yǎng)枯竭和缺氧,在腫瘤發(fā)生中起著至關(guān)重要的作用:包括線粒體損傷破壞癌細(xì)胞嚴(yán)重依賴的過(guò)程-氧化糖酵解平衡,導(dǎo)致atp(腺嘌呤核苷三磷酸)產(chǎn)生降低,腫瘤細(xì)胞存活能力逐漸喪失;線粒體是調(diào)節(jié)癌細(xì)胞增殖的關(guān)鍵靶標(biāo),同時(shí)dna片段化、線粒體去極化和氧化應(yīng)激可激活細(xì)胞凋亡?;钚匝酰╮os)的動(dòng)態(tài)變化對(duì)腫瘤細(xì)胞也具有關(guān)鍵作用,過(guò)量的ros增加細(xì)胞凋亡,適量ros水平促進(jìn)細(xì)胞癌細(xì)胞增殖。
3、綜上,亟待找到一種高效、全面,且排除了單一分析結(jié)果的特異性和誤差性,線粒體生物標(biāo)志物準(zhǔn)確性高的癌細(xì)胞線粒體生物標(biāo)志物及基于機(jī)器算法篩選的方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的技術(shù)問(wèn)題是,克服現(xiàn)有技術(shù)存在的上述缺陷,提供一種準(zhǔn)確性高的癌細(xì)胞線粒體生物標(biāo)志物。
2、本發(fā)明所要解決的技術(shù)問(wèn)題是,克服現(xiàn)有技術(shù)存在的上述缺陷,提供一種高效、全面,且排除了單一分析結(jié)果的特異性和誤差性的基于機(jī)器算法篩選癌細(xì)胞線粒體生物標(biāo)志物的方法。
3、本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案如下:癌細(xì)胞線粒體生物標(biāo)志物,當(dāng)所述癌細(xì)胞為結(jié)直腸癌時(shí),其線粒體生物標(biāo)志物包括:oxct1、clpb、slc25a12、mrpl51、sfxn1、gatm和trmt10c基因。本發(fā)明揭示了結(jié)直腸癌細(xì)胞中的特定線粒體生物標(biāo)志物,這些基因在結(jié)直腸癌細(xì)胞中顯示出顯著的表達(dá)差異,為癌癥的診斷、預(yù)后和治療提供了新的生物標(biāo)記物選項(xiàng)。
4、本發(fā)明進(jìn)一步解決其技術(shù)問(wèn)題所采用的技術(shù)方案如下:基于機(jī)器算法篩選癌細(xì)胞線粒體生物標(biāo)志物的方法,包括以下步驟:
5、(1)先將待篩選癌細(xì)胞的表達(dá)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,得癌細(xì)胞表達(dá)數(shù)據(jù),再獲得線粒體相關(guān)基因在所述癌細(xì)胞表達(dá)數(shù)據(jù)中的表達(dá)量,得在癌細(xì)胞中表達(dá)的線粒體相關(guān)基因;
6、(2)對(duì)步驟(1)所得在癌細(xì)胞中表達(dá)的線粒體相關(guān)基因進(jìn)行差異分析,再對(duì)所得差異表達(dá)的癌細(xì)胞線粒體基因或蛋白進(jìn)行相關(guān)性分析,選擇同時(shí)滿足差異基因且屬于線粒體相關(guān)基因的基因模塊,得與癌細(xì)胞相關(guān)線粒體基因模塊;
7、(3)對(duì)步驟(2)所得與癌細(xì)胞相關(guān)線粒體基因模塊進(jìn)行功能富集分析,得按照不同功能分類的基因或蛋白列表;
8、(4)選用至少兩種機(jī)器算法分別篩選步驟(3)所得按照不同功能分類的基因或蛋白列表,分別得特征基因或蛋白列表,確定核心交集靶點(diǎn),得癌細(xì)胞線粒體生物標(biāo)志物。
9、本發(fā)明方法的發(fā)明思路是:傳統(tǒng)癌癥標(biāo)志物主要集中在細(xì)胞核基因組,而對(duì)線粒體基因的研究較少,限制了癌癥診斷和治療的進(jìn)展。本發(fā)明方法專注于癌細(xì)胞中的線粒體生物標(biāo)志物的發(fā)現(xiàn)和驗(yàn)證,通過(guò)機(jī)器算法篩選方法實(shí)現(xiàn)。本發(fā)明方法提供了一種包括數(shù)據(jù)標(biāo)準(zhǔn)化處理、差異分析與相關(guān)性分析、功能富集分析和機(jī)器算法篩選的方法,這些步驟能夠高效地識(shí)別諸如結(jié)直腸癌細(xì)胞中的線粒體生物標(biāo)志物,確保其高準(zhǔn)確性、可靠性和全面性,為結(jié)直腸癌等癌癥的精準(zhǔn)診斷和治療提供了新的科學(xué)依據(jù)和工具。
10、優(yōu)選地,步驟(1)中,從geo數(shù)據(jù)庫(kù)中下載所述待篩選癌細(xì)胞所有癌組織和癌旁組織的表達(dá)數(shù)據(jù)集。
11、優(yōu)選地,步驟(1)中,通過(guò)perl和r語(yǔ)言limma包,用normalizebetweenarrays方法,對(duì)所述表達(dá)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理。通過(guò)標(biāo)準(zhǔn)化處理可消除不同樣本和不同基因之間的差異。
12、優(yōu)選地,步驟(1)中,從mitocarta3.0數(shù)據(jù)庫(kù)中下載所述線粒體相關(guān)基因。
13、優(yōu)選地,步驟(1)中,通過(guò)r語(yǔ)言limma包獲得所述線粒體相關(guān)基因在所述表達(dá)數(shù)據(jù)中的表達(dá)量。用于獲得僅包括線粒體相關(guān)差異基因的癌細(xì)胞生物標(biāo)志物。
14、優(yōu)選地,步驟(2)中,通過(guò)r語(yǔ)言limma包和pheatmap包進(jìn)行差異分析。通過(guò)差異性分析區(qū)分出的上下調(diào)基因用于預(yù)測(cè)其在腫瘤中的高低表達(dá)情況,高表達(dá)提示該基因?yàn)榘┗颍捅磉_(dá)提示該基因?yàn)橐职┗?,從而明晰后面?shí)驗(yàn)驗(yàn)證的表達(dá)趨勢(shì)。
15、優(yōu)選地,步驟(2)中,通過(guò)r語(yǔ)言corrplot包進(jìn)行相關(guān)性分析。通過(guò)相關(guān)性分析后,紅色代表正相關(guān),正相關(guān)表明兩者同為癌基因或者抑癌基因;藍(lán)色代表負(fù)相關(guān),負(fù)相關(guān)表明當(dāng)其中一個(gè)基因?yàn)榘ㄒ职┗驎r(shí),另一個(gè)相關(guān)性基因反之為抑癌(癌)基因。
16、優(yōu)選地,步驟(3)中,用基因本體論通過(guò)r語(yǔ)言enrichplot包進(jìn)行功能富集分析。
17、優(yōu)選地,步驟(3)中,用京都基因和基因組百科全書通過(guò)r語(yǔ)言ggplot2包和clusterprofiler包進(jìn)行功能富集分析。通過(guò)功能富集分析后,得到與分子功能、生物過(guò)程和細(xì)胞成分相關(guān)的基因本體論富集,以及在特定生物學(xué)通路中的富集程度,再進(jìn)一步篩選過(guò)程中結(jié)合兩者所得結(jié)果。
18、優(yōu)選地,步驟(4)中,所述機(jī)器算法包括lasso回歸和/或svm-rfe回歸。本發(fā)明方法通過(guò)多機(jī)器學(xué)習(xí)算法相結(jié)合的生物信息學(xué)方法,來(lái)識(shí)別相關(guān)疾病的特征基因,可以發(fā)現(xiàn)新的標(biāo)志物。lasso回歸是指通過(guò)尋找分類錯(cuò)誤最小時(shí)的λ來(lái)確定變量,主要用于篩選特征變量,構(gòu)建最佳分類模型;svm-ref是基于支持向量機(jī)的機(jī)器學(xué)習(xí)方法,通過(guò)刪減svm產(chǎn)生的特征向量來(lái)尋找最佳變量;將兩種方法相結(jié)合,能獲得更加準(zhǔn)確的疾病標(biāo)志物。因此,通過(guò)機(jī)器算法探索癌細(xì)胞線粒體相關(guān)生物標(biāo)志物,對(duì)于明確癌細(xì)胞的分子機(jī)制,提高癌細(xì)胞的診治準(zhǔn)確性具有重要價(jià)值。
19、優(yōu)選地,所述lasso回歸的具體篩選方法為:通過(guò)r語(yǔ)言glmnet包構(gòu)建模型,繪制cvfit圖形和lasso回歸圖形,再進(jìn)一步在cvfit圖形上繪制交叉驗(yàn)證圖形,找到縱坐標(biāo)最小值,即交叉驗(yàn)證誤差最小值,通過(guò)r語(yǔ)言glmnet包確定lasso回歸篩選的特征基因。
20、優(yōu)選地,所述svm-rfe回歸的具體篩選方法為:通過(guò)r語(yǔ)言e1071包,設(shè)置十折的交叉驗(yàn)證,對(duì)特征基因的重要性進(jìn)行排序,構(gòu)建模型繪制準(zhǔn)確性圖形,找到準(zhǔn)確性最高點(diǎn),繪制交叉驗(yàn)證誤差圖形,找到誤差最低點(diǎn),根據(jù)兩者結(jié)果通過(guò)r語(yǔ)言e1071包確定svm-rfe回歸篩選的特征基因。
21、優(yōu)選地,步驟(4)中,通過(guò)r語(yǔ)言venndiagram包確定不同機(jī)器算法篩選所得特征基因的核心交集靶點(diǎn)。
22、優(yōu)選地,對(duì)步驟(4)所得癌細(xì)胞線粒體生物標(biāo)志物進(jìn)行準(zhǔn)確性驗(yàn)證。
23、優(yōu)選地,所述準(zhǔn)確性驗(yàn)證的方法一為:將步驟(4)所得癌細(xì)胞線粒體生物標(biāo)志物在癌疾病組織和癌旁組織中進(jìn)行差異表達(dá)分析;方法二為:在hpa數(shù)據(jù)庫(kù)獲得步驟(4)所得癌細(xì)胞線粒體生物標(biāo)志物在人正常組織和人癌變組織中的免疫組化數(shù)據(jù)表達(dá);方法三為:在人正常細(xì)胞和人癌變細(xì)胞水平進(jìn)行mrna表達(dá)水平的差異表達(dá)分析。
24、優(yōu)選地,所述在癌疾病組織和癌旁組織中進(jìn)行差異表達(dá)分析是指:從tcga數(shù)據(jù)庫(kù)中下載所述癌疾病組織和癌旁組織所有測(cè)序數(shù)據(jù),通過(guò)r語(yǔ)言limma包、r語(yǔ)言ggplot2包和r語(yǔ)言ggpubr包獲得步驟(4)所得癌細(xì)胞線粒體生物標(biāo)志物在癌疾病組織和癌旁組織中的差異表達(dá)情況。
25、優(yōu)選地,所述免疫組化數(shù)據(jù)表達(dá)即蛋白表達(dá)水平差異情況。
26、優(yōu)選地,所述mrna表達(dá)水平的差異表達(dá)分析是指:在人正常細(xì)胞和人癌變細(xì)胞水平,分別通過(guò)qrt-pcr水平,驗(yàn)證步驟(4)所得癌細(xì)胞線粒體生物標(biāo)志物在體外水平mrna的差異表達(dá)情況。
27、本發(fā)明的有益效果如下:
28、(1)本發(fā)明通過(guò)tcga數(shù)據(jù)集和人源細(xì)胞實(shí)驗(yàn)驗(yàn)證,從多維度驗(yàn)證了本發(fā)明所述癌細(xì)胞線粒體生物標(biāo)志物的準(zhǔn)確性高,為線粒體相關(guān)癌細(xì)胞如結(jié)直腸癌的精確診治提供了基礎(chǔ);
29、(2)本發(fā)明方法相較傳統(tǒng)的單一機(jī)器學(xué)習(xí)分析方法,通過(guò)結(jié)合lasso和svm-rfe兩種機(jī)器語(yǔ)言分析作為癌細(xì)胞線粒體相關(guān)的標(biāo)志物,不僅保留機(jī)器語(yǔ)言的高效性和全面性,而且排除了單一分析結(jié)果的特異性和誤差性。
30、本發(fā)明中的縮寫說(shuō)明:crc:結(jié)直腸癌;geo:基因表達(dá)綜合數(shù)據(jù)庫(kù);hpa:人類蛋白質(zhì)圖譜;perl:實(shí)用報(bào)表提取語(yǔ)言;mitocarta:哺乳動(dòng)物線粒體清單集;go:基因本體論;kegg:京都基因和基因組百科全書;lasso:最小絕對(duì)收縮和選擇算子;svm-rfe:特征選擇之支持向量機(jī)遞歸特征消除;tcga:癌癥基因組圖譜;bp:生物學(xué)過(guò)程;cc:細(xì)胞組分;mf:分子功能;tca:三羧酸循環(huán);ros:活性氧;qrt-pcr:實(shí)時(shí)熒光定量反轉(zhuǎn)錄pcr;oxct1:3-氧代輔酶a轉(zhuǎn)移酶1;clpb:clp蛋白酶復(fù)合物;slc25a12:溶質(zhì)載體家族25成員12;mrpl51:線粒體核糖體蛋白l51;sfxn1:鐵柔素1;gatm:甘氨酸脒基轉(zhuǎn)移酶;trmt10c:trna甲基轉(zhuǎn)移酶10c;hiec細(xì)胞來(lái)源于人類的腸道組織,是從腸上皮中分離出來(lái),并在實(shí)驗(yàn)室中進(jìn)行培養(yǎng)的人源性健康腸道細(xì)胞;sw480細(xì)胞源自于一名結(jié)腸腺癌患者的腫瘤組織,為廣泛體外培養(yǎng)使用的人類結(jié)腸癌細(xì)胞系。