午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

一種基于Relief算法的乳腺腫瘤特征選擇方法

文檔序號:10656930閱讀:389來源:國知局
一種基于Relief算法的乳腺腫瘤特征選擇方法
【專利摘要】本發(fā)明涉及一種基于Relief算法的乳腺腫瘤特征選擇方法,包括兩個部分:乳腺腫瘤特征提取模塊和Relief特征選擇模塊,如下:乳腺腫瘤特征提取模塊:該模塊用于提取乳腺腫瘤特征,從乳腺腫瘤圖像中提取可以描述腫瘤特征的數值量,將腫瘤特征分為三大類,為形態(tài)特征、紋理特征和小波特征;Relief特征選擇模塊:該模塊用于進行特征選擇,以獲得良好的特征子集,從而提高分類性能與乳腺腫瘤診斷準確率,對于每一類紋理特征和小波特征,通過Relief特征選擇算法進行特征選擇,再分別同全部形態(tài)特征拼接融合,構成多個特征子空間,將所有得到的特征子集同全部形態(tài)特征拼接融合,從而完成整個乳腺腫瘤特征選擇過程。
【專利說明】
-種基于Re I i ef算法的乳腺腫瘤特征選擇方法
技術領域
[0001] 本發(fā)明設及數據挖掘技術與生物醫(yī)學工程技術,具體設及一種乳腺腫瘤特征選擇 方法。
【背景技術】
[0002] 乳腺癌是女性中最為常見的惡性腫瘤。在世界范圍內,其致死率位居女性惡性腫 瘤死亡率之首。當前,及早診斷與及時治療是應對乳腺癌最為有效的措施。醫(yī)學影像學方 法,如X線、核磁共振、超聲檢測等,是目前最主要的檢測和診斷乳腺癌的手段。然而,在乳腺 檢查中產生的大量影像信息易使醫(yī)生疲勞,且診斷精度受醫(yī)師的職業(yè)能力、經驗能主觀因 素影響。在此背景下,通過機器學習方法來判定腫瘤是否存在及其良惡性成為一個得到廣 泛關注的研究熱點。
[0003] 在乳腺腫瘤計算機輔助診斷技術中,腫瘤的診斷與確定需要通過分類技術實現。 為獲得良好的診斷準確率,需找到可W準確描述乳腺腫瘤的特征量。常用的描述乳腺腫瘤 的特征包括形態(tài)特征、紋理特征及小波特征等。通常,更多的特征維數可W使分類器建模更 加準確與穩(wěn)定,從而提高分類準確率。但實際上,特征維數較高時,其中可能存在相互依賴 或與分類目標不相關的冗余特征,運些特征的存在會使得運算復雜度升高,導致分析特征 與訓練模型所需的時間加長。同時,構建的分類模型也會更加復雜,導致其泛化能力下降, 出現維數災難。通過對從乳腺腫瘤X線圖像提取出的特征進行選擇,不相關或冗余的特征可 被剔除,從而達到減少特征個數,提高模型精度并減少運行時間的目的。因此,在近年與數 據挖掘相關的多項研究中,特征選擇均得到了廣泛應用。除此之外,特征選擇算法本身也已 成為一大研究熱點。
[0004] 近年來,科研人員提出多種特征選擇方法。根據理論基礎的不同,運些方法主要可 W被分為基于統計理論的特征抽取方法和序列選擇方法兩大類。
[0005] 基于統計理論的特征抽取方法通過統計變換獲得原特征空間的一個映射,從而達 到降維目的。其經典方法包括主成分分析和線性判別分析。主成分分析的目的是抽取出可 W精確表示樣本信息的樣本映射,使特征抽取完成后信息丟失最小。線性判別分析則對樣 本進行線性投影,使特征抽取完成后得到的新特征空間得到更高的分類準確率。專利"人臉 認證方法和裝置"(CN105138972A)對提取出的人臉特征分別運用主成分分析和線性判別分 析進行降維,從而在獲取更有代表性的特征的同時降低了算法的時間和空間復雜度。然而, 基于統計理論的特征抽取方法難W同時顧及特征的代表性與分類準確度,因此應用范圍受 到一定局限。
[0006] 序列選擇方法則在特征全集中產生出一個特征子集,然后用評價函數對該特征子 集進行評價,將評價結果與停止準則進行比較,若評價結果比停止準則好就停止,否則就 繼續(xù)產生下一組特征子集,重新進行特征選擇,最終對選出的特征子集驗證其有效性。其經 典方法主要包括完全捜索和啟發(fā)式捜索兩類。完全捜索對特征全集中的每個特征均進行捜 索,雖可避免陷入局部最優(yōu),但運算復雜度極高,在實際應用中效果不夠理想。啟發(fā)式捜索 的基礎是貪婪算法,雖不能保證得到的特征子集全局最優(yōu),但運算復雜度較低,執(zhí)行效率 高,因此得到了廣泛應用。其主要算法包括前向選擇、后向選擇、雙向捜索及序列浮動選擇 等。

【發(fā)明內容】

[0007] 本發(fā)明的目的是基于Relief特征選擇算法,提出一種乳腺腫瘤特征選擇方法,可 W用于提高乳腺腫瘤特征選擇的準確率。本發(fā)明的技術方案如下:
[0008] 一種基于Relief算法的乳腺腫瘤特征選擇方法,包括兩個部分:乳腺腫瘤特征提 取模塊和Re 1 i ef特征選擇模塊,方法如下:
[0009] 乳腺腫瘤特征提取模塊:該模塊用于提取乳腺腫瘤特征,從乳腺腫瘤圖像中提取 可W描述腫瘤特征的數值量,將腫瘤特征分為=大類,為形態(tài)特征、紋理特征和小波特征; 形態(tài)特征從形狀、大小方面對乳腺腫瘤直觀進行描述,由于形態(tài)特征維數較少但對于分類 至關重要,不對形態(tài)特征進行選擇;紋理特征,表征乳腺腫瘤圖像的局部性質,是圖像中反 復出現的局部模式及其排列規(guī)則,考慮到不同種類的紋理特征對腫瘤特性的描述不同,且 紋理特征具有方向性,所W不同種類、不同方向的乳腺腫瘤紋理特征對分類結果的影響不 同,對每一類紋理特征均從多個方向進行提取;小波特征是一種特殊的紋理特征,用于從不 同尺度對乳腺腫瘤圖像紋理進行分析,提取方式與上述的紋理相同;
[0010] Relief特征選擇模塊:該模塊用于進行特征選擇,W獲得良好的特征子集,從而提 高分類性能與乳腺腫瘤診斷準確率,對于每一類紋理特征和小波特征,通過Relief特征選 擇算法進行特征選擇,再分別同全部形態(tài)特征拼接融合,構成多個特征子空間,將所有得到 的特征子集同全部形態(tài)特征拼接融合,從而完成整個乳腺腫瘤特征選擇過程。
[0011] 本發(fā)明針對乳腺腫瘤計算機輔助診斷,同時顧及特征的分類能力與物理意義,對 各類乳腺腫瘤特征分別應用Relief算法,提取該類特征中性能最好的特征子集并將所有提 取出的特征融合后構成新的特征子集,提取出的特征可W全面描述乳腺腫瘤的形狀及紋理 特性,且維數較低,在獲取良好的分類準確率的同時充分降低運算復雜度。
【附圖說明】
[0012] 圖1為特征選擇過程的流程圖。
[0013] 圖2為本發(fā)明的執(zhí)行步驟流程圖。
【具體實施方式】
[0014] 本發(fā)明提取多個方向的紋理特征和小波特征,隨后運用Relief算法進行選擇。對 于各類特征中選取得到的子集,將其同全部的形態(tài)特征進行融合后得到完整的特征子集并 用于分類。下面結合附圖對本發(fā)明作進一步詳細的說明。
[001引(1)取得現聯和訓練數據:本發(fā)明測試與訓練數據選擇數字乳腺X線圖像數據庫中 取得的疑似腫瘤區(qū)域共1950個。數據集中正負樣本(即有腫瘤與無腫瘤樣本)數目不平衡, 共有正樣本401個,負樣本1549個,比例大約為1:4。由于一般情況下腫瘤數據庫中的正樣本 數目要遠少于負樣本的數目,若數據非線性可分,則運種不平衡現象在分類過程中會導致 正樣本的判決邊界被負樣本所侵占,最終導致分類性能受到嚴重影響。如圖2所示,本發(fā)明 對數據集中的多數樣本即負樣本進行隨機降采樣W避免由于數據不平衡所導致的分類性 能下降的問題。
[0016] (2)對每個腫瘤樣本提取圓度、徑向長度的平均值,標準差與離屯、率、灰度賭、灰度 均值、標準差、腫塊面積、分型維數均值與標準差、光度慣性動力、各向異性、輪廓梯度賭、平 滑度、偏度、峰度、灰度逐層變化等形態(tài)學特征,共18維;
[0017] 計算每個樣本的灰度共生矩陣,從該矩陣中提取紋理特征?;叶裙采仃囀菍D 像上保持某距離的兩像素分別具有同一灰度值的情況進行統計而得到的,可由灰度共生矩 陣提取角二階矩、對比度、相關性、差分矩、均勻性、和平均值、和方差、和賭、賭、差方差及差 賭共11維特征。本發(fā)明共選取16個不同的角度與距離進行灰度共生矩陣紋理特征提取,因 此共提取出166維特征;
[0018] 計算每個樣本的灰度-梯度共生矩陣,從該矩陣中提取紋理特征。灰度-梯度共生 矩陣綜合利用圖像的灰度和梯度信息,其中元素 H(x,y)可定義為在經歸一化處理的灰度圖 像Ki, j)及其歸一化梯度圖像GradQJ)中同時具有灰度值X及梯度值y的像素個數。其中, 設置灰度級為16,梯度級為8,梯度算子采用SObel算子。共提取特征15維,分別為小梯度優(yōu) 勢、大梯度優(yōu)勢、灰度分布不均勻性、梯度分布不均勻性、能量、灰度平均、梯度平均、灰度方 差、梯度方差、相關系數、灰度賭、梯度賭、混合賭、慣性及逆差矩。
[0019] 計算并提取每個樣本的灰度差分統計紋理特征?;叶确磻姶挪芰看笮?,因此 灰度的差分反映了電磁波福射能量變化的速率。在某一方向的灰度差分統計直方圖上,可 W提取出對比度、賭、平均值和能量共四維特征。為獲得更多方向的統計信息,與灰度共生 矩陣紋理特征相同,本發(fā)明共選取16個不同的角度與距離進行灰度差分統計紋理特征提 取,共計64維;
[0020] 計算并提取每個樣本的灰度行程長度紋理特征。在紋理分析中,在某一方向具有 相同灰度值的像素個數成為行程長度。對于每個方向,可W提取出強調短行程的逆差、強調 長行程的逆差、灰度不均勻性、行程長度非均勻性及W行程表示的圖像分數共5維特征。本 發(fā)明中,設置灰度級為256,行程數為6,取從0到JT的共16個方向分別提取特征,最終共可提 取到80維灰度行程長度紋理特征;
[0021] 計算并提取gabor小波特征。通過將圖像與Gabor小波濾波器進行卷積可W得到一 系列濾波圖像,生成的每一幅圖像均可在一定的尺度和方向上描述圖像的紋理信息。本發(fā) 明選取從0到n的8個方向,每個方向分別取0.5,0.25,0.125和0.1共4個頻率尺度,依次計算 在該尺度和方向下經gabor濾波后得到的圖像像素的均值和標準差,共計64維。
[0022] (3)對各類紋理特征和gabor小波特征分別執(zhí)行圖1所示的Re 1 i ef特征選擇算法。 具體流程如下:
[0023] 設訓練數據集為D,樣本抽樣次數為m,特征權重的闊值為th。
[0024] 1.初始化:將所有特征的權重W初始化為0,選中的特征子集T初始化為空集。
[0025] 2.隨機選擇一個樣本S,計算其與其他樣本的歐氏距離。從其同類樣本集中找出最 近鄰的樣本,標記為化arilit。從其不同類的樣本集中找出最近鄰的樣本,標記為化arMiss。
[0026] 3.對該樣本的每一維特征i,更新其權值
[0027]
[00%] 其中,對于取值為離散值的特征,
[0029]
[0030]
[0031]
[0032 ] max (i)和min (i)分別為該維特征的最大值和最小值。
[0033] 4.將迭代m輪的各特征維權值與闊值th進行比較。若權值小于th,則該維特征不進 入特征子集T,反之將該維特征加入特征子集T中。
[0034] 本發(fā)明中,權值更新的迭代次數m設為500,闊值th取450。完成特征選擇后,將選中 的特征子集與形態(tài)學特征集合灰度-梯度共生矩陣特征集融合,即構成完整的用于分類的 特征集。
[0035] (4)將所有的樣本按照十折交叉驗證劃分出訓練集與測試集,對所有特征值進行 歸一化處理后用線性判別分析分類器(Xinear Discriminant Analysis,LDA)進行分類實 驗。
[0036] 表1給出了直接將未經特征選擇的全部特征用于訓練和經特征選擇后得到的特征 集用于訓練所得到的分類結果。本發(fā)明采用W下幾個指標對分類結果進行評價:
[0037]
[00;3 引
[0039]
[0040]
[0041] 此外,為證明本發(fā)明擁有較低運算復雜度,訓練時間也將作為一個評價指標在下 表中進行比較。
[0042] 表1特征分類性能比較
[0043]
[0044] 由表1數據可W看出,本發(fā)明在各項指標上均相比特征選擇前具有明顯優(yōu)勢,因此 經本發(fā)明方法獲得的特征子集具有更好的分類能力,同時降低了運算復雜度。
【主權項】
1. 一種基于Relief算法的乳腺腫瘤特征選擇方法,包括兩個部分:乳腺腫瘤特征提取 模塊和Re 1 i ef特征選擇模塊,方法如下: 乳腺腫瘤特征提取模塊:該模塊用于提取乳腺腫瘤特征,從乳腺腫瘤圖像中提取用于 描述腫瘤特征的數值量,將腫瘤特征分為三大類,為形態(tài)特征、紋理特征和小波特征;形態(tài) 特征從形狀、大小方面對乳腺腫瘤直觀進行描述,由于形態(tài)特征維數較少但對于分類至關 重要,不對形態(tài)特征進行選擇;紋理特征,表征乳腺腫瘤圖像的局部性質,是圖像中反復出 現的局部模式及其排列規(guī)則,考慮到不同種類的紋理特征對腫瘤特性的描述不同,且紋理 特征具有方向性,所以不同種類、不同方向的乳腺腫瘤紋理特征對分類結果的影響不同,對 每一類紋理特征均從多個方向進行提取;小波特征是一種特殊的紋理特征,用于從不同尺 度對乳腺腫瘤圖像紋理進行分析,提取方式與上述的紋理相同; Rel ief特征選擇模塊:該模塊用于進行特征選擇,以獲得良好的特征子集,從而提高分 類性能,對于每一類紋理特征和小波特征,通過Re lief特征選擇算法進行特征選擇,再分別 同全部形態(tài)特征拼接融合,構成多個特征子空間,將所有得到的特征子集同全部形態(tài)特征 拼接融合,從而完成整個乳腺腫瘤特征選擇過程。
【文檔編號】G06T7/00GK106023188SQ201610325689
【公開日】2016年10月12日
【申請日】2016年5月17日
【發(fā)明人】呂衛(wèi), 李喆, 褚晶輝
【申請人】天津大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1