午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種生物標(biāo)志物篩選方法

文檔序號:8544059閱讀:1655來源:國知局
一種生物標(biāo)志物篩選方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明為一種生物信息的數(shù)據(jù)挖掘方法,屬于生物、計算機(jī)與數(shù)學(xué)交叉技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 近年來,隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)收集越來越易于實現(xiàn)。使基因、蛋白和代謝組 學(xué)數(shù)據(jù)具有高維、海量等特點,如何從高維數(shù)據(jù)中篩選有用的特征(變量)信息被作為挑戰(zhàn) 問題提出。
[000引 支持向量機(jī)迭代特征刪除算法(Suppo;rtVectorMachine-RecursiveFea1:ure Elimination,SVM-RFE)是一種高性能的特征選擇方法,廣泛應(yīng)用于基因、蛋白、代謝等領(lǐng) 域。SVM-RFE在每次迭代時,根據(jù)當(dāng)前特征子集構(gòu)建超平面,同時計算特征的權(quán)重。但是隨 著分析技術(shù)的發(fā)展,基因、蛋白等生物數(shù)據(jù)維數(shù)巨增,其中存在噪音和不含問題相關(guān)信息的 無關(guān)變量。噪音和無關(guān)的變量的存在可能會影響SVM超平面的構(gòu)建,從而使得特征權(quán)重的 評價產(chǎn)生誤差。為了更加準(zhǔn)確地確定區(qū)分能力強(qiáng)的特征子集,基于重疊區(qū)域的支持向量機(jī) 迭代特征刪除算法(SupportVectorMachine-Re州rsiveFeatureEliminationBasedon OverlappingArea,OA-SVM-RFE)統(tǒng)計分析每一特征在不同類別樣本中的重疊度,在迭代刪 除過程中將SVM計算的特征的權(quán)重和特征的重疊度結(jié)合,綜合評價特征。而在實際的生物 數(shù)據(jù)分析中,還會存在特征之間相互關(guān)聯(lián),共同表征復(fù)雜的生命現(xiàn)象。因此在處理高維生物 信息樣本、選擇區(qū)分反映不同類別的生物樣本的特征時,考慮變量之間的相互關(guān)聯(lián),有助于 確定反映不同種類疾病、藥物療效等的標(biāo)志信息。
[0004] 對于本發(fā)明使用的特征重疊區(qū)域權(quán)值(重疊度)〇A,計算方法如下:
[0005] 設(shè)一個c〉2類問題包含n個樣本和P個特征。對于特征(1《i《P),首先用它 在第k(l《k《C)類樣本上的均值加減修正的標(biāo)準(zhǔn)偏差,作為其有效范圍;再計算其在類 別h和k(l《h《C,h聲k)中的重疊區(qū)域,即特征在h類、k類的有效范圍的交集作為 重疊區(qū)域值;然后計算重疊區(qū)域系數(shù)并標(biāo)準(zhǔn)化;最后用1減去標(biāo)準(zhǔn)重疊區(qū)域系數(shù),得到特征 的重疊區(qū)域權(quán)值0A。
[0006] 重疊區(qū)域是在各類樣本之間特征的重疊深度,某一特征的重疊區(qū)域越小,在該特 征上樣本區(qū)分較容易,則特征的重疊區(qū)域權(quán)值越大。

【發(fā)明內(nèi)容】

[0007] 為了解決上述生物問題,通過變量之間的相互關(guān)系,挖掘生物數(shù)據(jù)的潛在標(biāo)志物, 更準(zhǔn)確地提供輔助分析,本發(fā)明提供一種生物數(shù)據(jù)分析的方法一-生物標(biāo)志物篩選方法(A MethodofBiomarkersSelection,MBS)。
[000引 SVM-RFE是一種基于支持向量機(jī)的特征選擇方法。SVM通過構(gòu)建超平面來建立分 類模型,同時對超平面上的每個維度(特征、變量)計算權(quán)重|w|。SVM-RFE據(jù)此來迭代刪 除權(quán)重小的特征。最后被刪除的特征一般區(qū)分能力強(qiáng)。0A-SVM-R陽方法在SVM-R陽基礎(chǔ)上 考察了特征在不同類別樣本上的重疊區(qū)域,重疊區(qū)域較高的變量,由于各類樣本在該變量 上分布混雜在一起,較難區(qū)分,所W變量的區(qū)分能力弱低,重疊區(qū)域權(quán)值OA低;反之,重疊 區(qū)域低的變量,區(qū)分能力強(qiáng),重疊區(qū)域權(quán)值0A高。0A-SVM-RFE在每一次迭代時,同時使用 SVM計算的特征權(quán)重|w|和變量的重疊度度量,綜合評價當(dāng)前特征集中每一特征的重要性, 刪除綜合評價指標(biāo)低的特征。
[0009] 在復(fù)雜的生物現(xiàn)象中,變量之間可能相互聯(lián)系、相互作用。因此在生物信息處理 中,考慮變量之間的關(guān)聯(lián)性有助于要有效挖掘隱藏在大量數(shù)據(jù)中反映不同生命現(xiàn)象的標(biāo)識 信息。在兩類問題中,最高得分對(topscoringpair(s),TS巧成對考察變量,通過統(tǒng)計分 析一對變量和fj.(i聲j)在不同類別樣本中含量相對關(guān)系的差異,計算兩個變量關(guān)系的 得分AU,據(jù)此評價對變量的區(qū)分能力。TSP得分越高,則該對變量越好。
[0010] 本發(fā)明提出變量關(guān)系得分Score,利用TSP方法評價變量與當(dāng)前特征子集中其他 變量的平均關(guān)聯(lián)性,從變量在SVM超平面上的貢獻(xiàn)、自身在樣本上分布的統(tǒng)計性能、與當(dāng)前 特征子集中其他變量的平均關(guān)聯(lián)性=個角度出發(fā),綜合評價特征的重要性,W發(fā)現(xiàn)生物標(biāo) '志f曰肩、。
[00川本發(fā)明評價特征的綜合得分:巧^ = (1-曰1)IW,-IX+曰2XylScore,(1)。
[001引公式(1)中,E(i)是特征的綜合得分,|wi|是SVM計算的特征權(quán)重,OAi是特征 的重疊度,Scorei是的關(guān)系得分。a1、a2是參數(shù),分別用于調(diào)整特征重疊度和變量關(guān) 系得分在變量綜合評價中的比例,0《a1<1,0《a2<1。
[0013]MBS使用公式(1)計算當(dāng)前特征集中每一特征的綜合評價分,迭代刪除當(dāng)前特征 集中綜合評價權(quán)重低的r% (0分<100)特征。在迭代過程中,保留性能最好的特征子集,作 為所選特征子集。
[0014] 本發(fā)明的技術(shù)方案是:一種生物標(biāo)志物篩選方法,步驟如下:
[001引 (1)設(shè)當(dāng)前特征集合為F,初始時,F(xiàn)包含所有特征,F(xiàn)S為空;maxACC= 0,r= 5 ;
[0016] (2)根據(jù)特征在樣本上的分布,計算每一特征fiGF的重疊度OAi;
[0017] 做設(shè)定a2= 0,即不考慮變量關(guān)系得分;
[001引 (4)根據(jù)F構(gòu)建SVM分類模型,計算特征集合F的5倍交叉驗證的分類準(zhǔn)確率ACC, 計算每一特征ffGF的IwiI;
[0019] (5)若ACOmaxACC,那么maxACC=ACC,F(xiàn)S=F;
[0020] (6)對F中的每一變量fi,計算其關(guān)系得分Score;;
[002U (7)計算特征的綜合得分Ea):巧0 = (1 -S)Iw,.IX04,. + 02XyjScore,
[002引其中,E(i)是特征的綜合得分,|wi|是SVM計算的特征權(quán)重,OAi是特征fi的 重疊度,Score;是的關(guān)系得分,a1、a2是參數(shù),分別用于調(diào)整特征重疊度和變量關(guān)系得 分在變量綜合評價中的比例,0《a1<1,0《a2<1 ;
[0023] (8)MBS使用E(i)綜合評價當(dāng)前特征集中每一特征的重要性,刪除當(dāng)前特征集中 綜合評價權(quán)重低的r% (0分<100)特征,重復(fù)步驟(4)、巧)、化)、(7)和巧),直到F為空;
[0024] (9)a1在[0, 1)的范圍內(nèi)按照步長0. 1步進(jìn),令F包含初始時所有輸入特征,重復(fù) 步驟(4)、巧)、化)、(7)和巧),計算a在每個步長選擇的特征子集,得到"最優(yōu)"特征子 集時對應(yīng)a1的"最優(yōu)"值;
[0025] (10)設(shè)定a1為"最優(yōu)"取值,a2在[0, 1)的范圍內(nèi)按步長0. 1步進(jìn),F(xiàn)為包含初 始時所有輸入特征,重復(fù)步驟(4)、巧)、化)、(7)和巧),計算a2在每個步長選擇的特征子 集,得到"最優(yōu)"特征子集時對應(yīng)參數(shù)a2的"最優(yōu)"取值;
[0026] (11)輸出a1 "最優(yōu)"值和a2 "最優(yōu)"值時對應(yīng)的"最優(yōu)"特征子集FS;
[0027] 所述的變量關(guān)系得分Score;,計算方法如下;
[002引 a.對一個c〉2類問題,當(dāng)前特征集合為F,P是F中所含特征數(shù)量,按照"一對一" 準(zhǔn)則劃分為C(C-1) /2個兩類問題;在每一個兩類問題上,按照TSP方法計算變量和F中 其他變量fj.的得分AU;
[0029] b.計算在c(c-l)/2個兩類問題上變量和F中其他變量的關(guān)聯(lián)性的平均得分:
[0030]
【主權(quán)項】
1. 一種生物標(biāo)志物篩選方法,其特征在于以下步驟: (1) 設(shè)當(dāng)前特征集合為F,初始時,F(xiàn)包含所有特征,F(xiàn)S為空;maxACC = 0, r = 5 ; (2) 根據(jù)特征在樣本上的分布,計算每一特征Ae F的重疊度OA i; (3) 設(shè)定α 2= 0,即不考慮變量關(guān)系得分; (4) 根據(jù)F構(gòu)建SVM分類模型,計算特征集合F的5倍交叉驗證的分類準(zhǔn)確率ACC,計 算每一特征f i e F的I w i I ; (5) 若 ACOmaxACC,那么 maxACC = ACC,F(xiàn)S = F ; (6) 對F中的每一變量計算其關(guān)系得分Scorei; (7) 計算特征的綜合得分E (i)
其中,E(i)是特征&的綜合得分,|Wi|是SVM計算的特征權(quán)重,OAi是特征的重疊 度,3(:〇1^是匕的關(guān)系得分,(11、(12是參數(shù),分別用于調(diào)整特征重疊度和變量關(guān)系得分在 變量綜合評價中的比例,〇彡a'UOS α2〈1; (8) MBS使用E(i)綜合評價當(dāng)前特征集中每一特征的重要性,刪除當(dāng)前特征集中綜合 評價權(quán)重低的r %特征,0〈r〈100,重復(fù)步驟(4)、(5)、(6)、(7)和(8),直到F為空; (9) α 1在[〇, 1)的范圍內(nèi)按照步長〇. 1步進(jìn),令F包含初始時所有輸入特征,重復(fù)步驟 (4)、(5)、(6)、(7)和(8),計算a i在每個步長選擇的特征子集,得到"最優(yōu)"特征子集時對 應(yīng)α"最優(yōu)"值; (10) 設(shè)定a i為"最優(yōu)"取值,α 2在[〇, 1)的范圍內(nèi)按步長〇. 1步進(jìn),F(xiàn)為包含初始時 所有輸入特征,重復(fù)步驟(4)、(5)、陽)、(7)和(8),計算(!2在每個步長選擇的特征子集, 得到"最優(yōu)"特征子集時對應(yīng)參數(shù)α 2的"最優(yōu)"取值; (11) 輸出a i "最優(yōu)"值和α2 "最優(yōu)"值時對應(yīng)的"最優(yōu)"特征子集FS ; 所述的變量關(guān)系得分Scorei,計算方法如下: a. 對一個c>2類問題,當(dāng)前特征集合為F,p是F中所含特征數(shù)量,按照"一對一"準(zhǔn)則 劃分為c (c-1) /2個兩類問題;在每一個兩類問題上,按照TSP方法計算變量F中其他 變量A的得分Δ ij; b. 計算在c (c-1)/2個兩類問題上變量F中其他變量的關(guān)聯(lián)性的平均得分:
其中,Scorei表示f i的變量關(guān)系得分;L是當(dāng)前特征集合中所有除f i以外的變量;對 4和F中其余的每一變量f』計算二者在每一個2類(m e {1,2, c (c-1) /2})問題上的TSP 得分;Δ ijm代表f JP f』在第m個2類問題上的TSP得分,Λ ijm的平方保證TSP得分高的對 變量的優(yōu)勢,同時加大TSP得分低的對變量和得分高的對變量的差距;△ ^平方的和的均 值讓其數(shù)值保持在特征權(quán)重I Wi I和重疊度權(quán)值OAi的數(shù)量級上,讓MBS建模時均衡考慮將 三者作為特征的綜合評價。
【專利摘要】本發(fā)明為一種生物信息的數(shù)據(jù)挖掘方法,屬于生物、計算機(jī)與數(shù)學(xué)交叉技術(shù)領(lǐng)域。首先根據(jù)特征在樣本上的分布,計算重疊區(qū)域權(quán)重O,再計算SVM權(quán)重和變量關(guān)系得分。MBS采用特征的SVM權(quán)重|wi|、重疊區(qū)域權(quán)值OAi和變量關(guān)系得分值Scorei綜合評價該特征,也作為排名依據(jù),確定參數(shù)α1的最優(yōu)值后,確定參數(shù)α2的值。本發(fā)明研究了變量關(guān)系得分,把它和變量重疊區(qū)域權(quán)值、特征權(quán)重一起考察,提供了一種特征綜合評價的新方法。最終通過改善特征選擇性能,幫助發(fā)現(xiàn)生物標(biāo)志信息。
【IPC分類】G06K9-62
【公開號】CN104866863
【申請?zhí)枴緾N201510207807
【發(fā)明人】王君, 林曉惠, 丁翔飛
【申請人】大連理工大學(xué)
【公開日】2015年8月26日
【申請日】2015年4月27日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1