基于粗糙集的醫(yī)療輔助檢查系統(tǒng)知識獲取和推理方法
【技術(shù)領(lǐng)域】 [0001] :本發(fā)明提供一種基于粗糖集的知識獲取和推理的方法,屬于數(shù)據(jù)挖掘 及不確定推理領(lǐng)域。本發(fā)明可W在知識獲取、故障診斷、專家系統(tǒng)等領(lǐng)域得到廣泛應(yīng)用。
【背景技術(shù)】 [0002] :隨著生活環(huán)境的改善與生活習(xí)慣的改變,癌癥、屯、臟疾病、糖尿病、高血 壓等疾病逐漸成為威脅人類生命的主要殺手,而人類身體健康的問題并非一朝一夕,而是 與日常生活緊密相關(guān),不健康的生活所帶來的健康問題日益嚴重,不良的固定模式的生活 習(xí)慣會導(dǎo)致各種身體問題。因此,對身體狀況的的早期關(guān)注、早期改善顯得尤為重要。
[0003] 常規(guī)的模糊推理系統(tǒng)大多由專家經(jīng)驗建立模糊規(guī)則,專家經(jīng)驗帶有一定的主觀 性,而且得到的信息往往不完備、不精確,癥狀也具有復(fù)雜性。
【發(fā)明內(nèi)容】
:
[0004] 發(fā)明目的:本發(fā)明提供一種基于粗糖集的醫(yī)療輔助檢查系統(tǒng)知識獲取和推理方 法,其目的是解決W往的知識庫的建立過程中所存在的數(shù)據(jù)不精確、不完備等問題。本發(fā)明 首次把基于遺傳算法的粗糖集約簡方法運用到生活方式病的屬性約簡中,首次提出改進的 基于屬性重要性的推理方法,考慮規(guī)則和每個條件屬性的重要性。
[0005] 本發(fā)明首先利用粗糖集描述構(gòu)建生理信息知識庫的過程,利用基于遺傳算法的粗 糖集約簡方法約簡原有數(shù)據(jù)的冗余屬性,并提取有效規(guī)則構(gòu)建確定知識庫和不確定知識 庫。再利用粗糖集中屬性重要性的概念,得到匹配度概念,引入調(diào)解參數(shù),做出正確的推理。
[0006] 技術(shù)方案:
[0007] -種基于粗糖集的醫(yī)療輔助檢查系統(tǒng)知識獲取和推理方法,其特征在于該方法的 步驟如下:
[000引(1)利用粗糖集理論對生理信息數(shù)據(jù)進行數(shù)據(jù)挖掘,構(gòu)建知識庫:
[0009] 1)進行數(shù)據(jù)預(yù)處理,即對采集到的原始數(shù)據(jù)進行量化處理,根據(jù)數(shù)據(jù)離散化準則 處理數(shù)據(jù),確定條件屬性和決策屬性,形成決策數(shù)據(jù)表;
[0010] 2)進行屬性約簡,即在保持屬性分類能力不變的前提下,利用基于遺傳算法的粗 糖集約簡方法進行屬性約簡,刪除其中不相關(guān)或不重要的屬性;
[0011] 3)進行屬性值約簡,即去除每條規(guī)則中冗余的屬性值,得到簡化的決策數(shù)據(jù)表;
[0012] 4)進行規(guī)則提取,即根據(jù)約簡后的屬性決策數(shù)據(jù)表,合并相同或相關(guān)的規(guī)則,計算 規(guī)則的支持度和準確度,提取出支持度高的規(guī)則;
[0013] 5)進行知識庫的構(gòu)建,根據(jù)支持度,構(gòu)建確定醫(yī)學(xué)知識庫和非確定醫(yī)學(xué)知識庫;
[0014] (2)由構(gòu)建的知識庫根據(jù)改進的基于屬性重要性的推理方法得到推理結(jié)果;
[0015] 1)分別計算當(dāng)前輸入與確定醫(yī)學(xué)知識庫和非確定醫(yī)學(xué)知識庫中的已有規(guī)則的匹 配度;
[0016] 2)然后分別將確定醫(yī)學(xué)知識庫和非確定醫(yī)學(xué)知識庫匹配度進行降序排列,取前S 個匹配度高的結(jié)果,引入調(diào)節(jié)參數(shù)k,得到推理結(jié)果。
[0017] 步驟(1)的步驟2)中利用基于遺傳算法的粗糖集約簡方法進行屬性約簡,W及首 次利用改進的基于屬性重要性的推理方法并引入確定醫(yī)學(xué)知識庫和不確定醫(yī)學(xué)知識庫。
[0018] 利用基于遺傳算法的粗糖集約簡方法進行屬性約簡,其過程如下:
[0019] 1)計算核屬性;
[0020] 2)利用核屬性進行種群的初始化;
[0021] 3)根據(jù)適應(yīng)度函數(shù)計算適應(yīng)度;
[0022] 4)如果達到最大迭代次數(shù)或者適應(yīng)度平均值在連續(xù)若干代沒有發(fā)生變化的時刻 作為終止條件,返回最優(yōu)染色體,否則進行遺傳操作。
[0023] 首次利用改進的基于屬性重要性的推理方法,其過程如下:
[0024] 1)分別計算當(dāng)前輸入與確定醫(yī)學(xué)知識庫和非確定醫(yī)學(xué)知識庫中的已有規(guī)則的匹 配度;
[0025] 然后分別將確定醫(yī)學(xué)知識庫和非確定醫(yī)學(xué)知識庫匹配度進行降序排列,取前=個 匹配度高的結(jié)果,引入調(diào)節(jié)參數(shù)k,考慮規(guī)則的重要性,得到推理結(jié)果。
[0026] 該方法的實現(xiàn)過程分為兩部分:基于粗糖集理論的生理信息知識庫的構(gòu)建;改進 的基于屬性重要性的推理方法:
[0027] 輸入數(shù)據(jù)與知識庫中規(guī)則進行匹配,有下列S種情況:
[00%] 1)只有一條規(guī)則的前件與輸入數(shù)據(jù)完全匹配;
[0029] 2)多條規(guī)則的前件與輸入數(shù)據(jù)完全匹配;
[0030] 3)多條規(guī)則的前件與輸入數(shù)據(jù)部分匹配;
[0031] 所W,考慮規(guī)則每一個前件的重要性非常有必要,而且屬性重要性完全可W作為 一種啟發(fā)知識應(yīng)用到推理過程中:
[0032] 屬性重要性的定義:ScD(C')= 丫 C(D)- 丫 C-C'(D)其中C代表條件屬性,D代表決策屬 性;
[0033] 支持度的定義:a = Support(Ri),R為規(guī)則,a匹配相應(yīng)規(guī)則的對象數(shù)目;
[0034] 定義匹配度
庚中e為準確度,f代表條件屬性與規(guī) 則屬性匹配上;
[0035] 推理過程:
[0036] (1)當(dāng)前輸入與一條規(guī)則前件匹配,每個屬性依次匹配,并將之求和temp_e,即 temp_e + = temp_e,則temp_e為當(dāng)前規(guī)則中能夠匹配上的所有前件的屬性重要性之和。獲得 所有約簡屬性重要性之和,記做rule_e。
[0037] (2)計算匹配度 e = temp_e/;rule_£;*0i。
[003引(3)重復(fù)步驟1和步驟2,直到遍歷了所有的規(guī)則。
[0039] (4)為獲得的所有匹配度進行降序排列,取前=個匹配度較高的用作推理。進行歸 一化處理:求出S個匹配度之和記作sum,求出輸出為0的匹配度之和記作sumo,求出輸出為 1的匹配度之和記作S皿1。
[0040] (5)輸出丫 =sum〇/sum*0+sumi/sum*l。
[0041] (6)分別在確定規(guī)則數(shù)據(jù)庫和不確定數(shù)據(jù)庫就行(1)-巧)步驟,得到輸出丫 1,丫 2, 引入調(diào)節(jié)參數(shù)k= 2 Su卵ort(防脆)/Suppo;rt(R),則最終輸出丫 =k*;ri+ 丫 2*( 1-k),0<k<l。 (丫介于0和1之間)。
[0042] 優(yōu)點及效果:本發(fā)明專利提供一種基于粗糖集的醫(yī)療輔助檢查系統(tǒng)知識獲取和推 理方法,其能有效地分析和處理運些不精確、不完備的數(shù)據(jù),并有可能直接提取出隱含的知 識,同時它僅利用數(shù)據(jù)本身所提供的信息,不需要任何附加信息或先驗知識。因此將粗糖集 理論應(yīng)用到生活方式病的知識獲取中,構(gòu)建檢查有關(guān)生活方式病的規(guī)則庫。然后在粗糖集 構(gòu)造的規(guī)則庫的基礎(chǔ)上,依據(jù)規(guī)則,利用改進的基于屬性重要性的推理方法,對生活方式病 的數(shù)據(jù)進行檢查分析。并利用臨床數(shù)據(jù)驗證所得到規(guī)則庫的真實性和準確性W及推理方法 的有效性。
[0043] 該方法首先利用粗糖集描述構(gòu)建醫(yī)學(xué)知識庫的過程,約簡原有數(shù)據(jù)的冗余屬性, 縮減規(guī)則庫的規(guī)模,采用的約簡算法W核屬性初始化種群,對初始種群的對應(yīng)基因位加 W 限制,使其具有部分決策表約簡后保留的結(jié)果屬性特征,避免了種群產(chǎn)生的盲目性,減少了 很大的捜索空間,提高了約簡結(jié)果的準確性,提高了構(gòu)建知識庫的有效性。利用改進的基于 屬性重要性的推理方法進行推理,屬性重要性的獲得不需要任何先驗經(jīng)驗,完全從論域的 樣本空間獲得,避免了主觀性,而且引入確定和不確定規(guī)則庫,通過參數(shù)k權(quán)值的分配,考慮 每條規(guī)則的重要性,調(diào)節(jié)輸出,有效的推斷得病幾率.
[0044] 本發(fā)明將粗糖集理論應(yīng)用到人們生理信息與健康狀況相關(guān)性的獲取中,探討基于 粗糖集的生活方式病的知識發(fā)現(xiàn)模型,利用基于遺傳算法的粗糖集約簡方法進行屬性約 簡,根據(jù)約簡后的屬性建立新的決策表并產(chǎn)生規(guī)則,根據(jù)支持度,構(gòu)建確定醫(yī)學(xué)知識庫和非 確定醫(yī)學(xué)知識庫,然后采用改進的基于屬性重要性的推理方法,利用輸入匹配確定醫(yī)學(xué)知 識庫和不確定醫(yī)學(xué)知識庫中已有規(guī)則,構(gòu)建推理檢測系統(tǒng)。并利用U n i V e r S i t y O f California at Irvine(UCI)machine learning repository database(UCI機器學(xué)習(xí)數(shù)據(jù) 庫)中的臨床數(shù)據(jù)驗證所得到規(guī)則庫的準確性W及改進的基于屬性重要性的推理方法的有 效性,并與其它類似方法做了對比,對比結(jié)果見表1:
[0045] 表1本發(fā)明方法與其他方法的對比結(jié)果
[0046]
[0047]
[0048] 本發(fā)明方法總體上處于靠前的水平。在靈敏度,特異度,準確度=個指標(biāo)上保持了 很好的性能,具有很好的均衡性,對屯、臟病診斷具有較好的推理性能和泛化能力。
【附圖說明】:
[0049] 圖1為本發(fā)明的設(shè)計流程圖。
【具體實施方式】 [0050] :下面結(jié)合附圖對本發(fā)明做進一步的說明:
[0051] 如圖1所示,本發(fā)明提供一種基于粗糖集的醫(yī)療輔助檢查系統(tǒng)知識獲取和推理方 法。如圖1所示,本發(fā)明的實現(xiàn)過程分為兩部分:基于粗糖集理論的生理信息知識庫的構(gòu)建; 改進的基于屬性重要性的推理方法。
[0052] 我們使用了 UCI機器學(xué)習(xí)數(shù)據(jù)庫中的屯、臟病數(shù)據(jù)庫作為例子,描述屯、臟病各生理 信息與身體健康狀況之間的相關(guān)性,此數(shù)據(jù)庫包含13個生理信息。