午夜毛片免费看,老师老少妇黄色网站,久久本道综合久久伊人,伊人黄片子

MapReduce平臺上基于本地密度的聚類方法

文檔序號:9261416閱讀:447來源:國知局
MapReduce平臺上基于本地密度的聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其設(shè)及一種MapRe化ce平臺上基于本地密度的 聚類方法。
【背景技術(shù)】
[0002] 聚類分析是數(shù)據(jù)挖掘的一個重要算法。聚類分析W相似性為基礎(chǔ),在一個聚類中 的模式之間比不在同一聚類中的模式之間具有更多的相似性。聚類分析的算法可W分為劃 分法、層次法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法等。隨著云計算大數(shù)據(jù)時 代的到來,社會信息化和網(wǎng)絡(luò)化的高速發(fā)展導(dǎo)致數(shù)據(jù)呈爆炸式增長。利用聚類分析遇到大 數(shù)據(jù)時,需要與分布式計算平臺結(jié)合W擺脫計算機(jī)單機(jī)本身資源有限等所帶來的限制。
[0003] MapRe化ce是谷歌提出的分布式并行計算框架,用于大規(guī)模數(shù)據(jù)集的并行運算, 主要通過"Map(映射)"和"Re化ce(化簡)"該兩個步驟來并行處理大規(guī)模的數(shù)據(jù)集。在 MapRe化ce平臺上的計算過程中,輸入數(shù)據(jù)首先被切分到集群的不同計算機(jī)上,集群中其 他計算機(jī)分配為執(zhí)行Map作業(yè)或Re化ce作業(yè);Map作業(yè)從輸入數(shù)據(jù)中抽取出鍵值對<Key, Value〉,每一個鍵值對都作為參數(shù)傳遞給map函數(shù),map函數(shù)產(chǎn)生的中間鍵值對被緩存在內(nèi) 存中,緩存的中間鍵值對會被定期寫入本地磁盤,而且該些中間鍵值對被分為R個區(qū),R的 大小是由用戶定義的,將來每個區(qū)會對應(yīng)一個Re化ce作業(yè);帶有相同Key的鍵值對由同一 個Re化ce作業(yè)來處理,Re化ce作業(yè)讀取該些中間鍵值對,對于每個唯一的鍵,都將鍵與關(guān) 聯(lián)的值傳遞給re化ce函數(shù),re化ce函數(shù)產(chǎn)生的輸出會添加到該個分區(qū)的輸出文件中。Map/ Re化ce作業(yè)和map/re化ce函數(shù)的區(qū)別;Map作業(yè)處理一個輸入數(shù)據(jù)的分片,可能需要調(diào)用 多次map函數(shù)來處理每個輸入鍵值對;Re化ce作業(yè)處理一個分區(qū)的中間鍵值對,期間要對 每個不同的鍵調(diào)用一次re化ce函數(shù),Re化ce作業(yè)最終也對應(yīng)一個輸出文件。整個過程中, 輸入數(shù)據(jù)是來自底層分布式文件系統(tǒng)的,中間數(shù)據(jù)是放在本地文件系統(tǒng)的,最終輸出數(shù)據(jù) 是寫入底層分布式文件系統(tǒng)。
[0004] 中國專利申請CN201410814330. 4 "虛擬人建立方法及裝置"中設(shè)及了一種基于本 地密度的聚類方法。該基于本地密度的聚類方法主要包括;W連通圖中的節(jié)點表征數(shù)據(jù),并 W節(jié)點之間的邊的長度表征數(shù)據(jù)之間的相似度,節(jié)點之間的邊越短,節(jié)點所表征的數(shù)據(jù)之 間相似度越高;分別求出每個節(jié)點的本地密度化0,化0定義為連接本節(jié)點的長度低于預(yù)定 義值化的鄰邊的數(shù)目;分別求出每個節(jié)點的離散度Delta,Delta定義為本節(jié)點所有連接 更高化0值鄰居節(jié)點的鄰邊中最短邊的邊長,若不存在該樣的鄰居節(jié)點,則取本節(jié)點最長 鄰邊的邊長;將化0值和Delta值分別高于預(yù)設(shè)闊值R_T和D_T的節(jié)點標(biāo)識為類的中屯、節(jié) 點;將非中屯、節(jié)點歸類為到該非中屯、節(jié)點距離最短且化0值高于該非中屯、節(jié)點的中屯、節(jié)點 所屬的類。邊長表征節(jié)點之間屬于同一個類的可能性(相似度)的衡量成ho表征當(dāng)前節(jié) 點對其鄰接點的重要性;Delta表征若W當(dāng)前節(jié)點為類中屯、,其相對其他類中屯、的可區(qū)別 性。為了能實現(xiàn)對海量數(shù)據(jù)的處理,克服單機(jī)本身資源有限所帶來的限制,亟需將該基于本 地密度的聚類方法在MapRe化ce平臺上加W實現(xiàn)。

【發(fā)明內(nèi)容】

[0005] 因此,本發(fā)明的目的在于提供一種MapRe化ce平臺上基于本地密度的聚類方法, 實現(xiàn)對海量數(shù)據(jù)的處理,克服單機(jī)本身資源有限所帶來的限制。
[0006] 為實現(xiàn)上述目的,本發(fā)明提供了一種MapRe化ce平臺上基于本地密度的聚類方 法,包括:
[0007] 步驟10、對待聚類的數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)造W節(jié)點表征數(shù)據(jù)的連通圖,并W節(jié)點之 間的邊的長度表征數(shù)據(jù)之間的相似度,節(jié)點之間的邊越短,節(jié)點所表征的數(shù)據(jù)之間相似度 越局;
[000引步驟20、W連通圖中的節(jié)點和邊的信息作為輸入數(shù)據(jù),通過Map作業(yè)生成包括節(jié) 點W及鄰邊信息的鍵值對,通過Re化ce作業(yè)生成包括節(jié)點、節(jié)點的本地密度化0W及節(jié)點 所有鄰邊信息的輸出,化0定義為連接本節(jié)點的長度低于預(yù)定義值化的鄰邊的數(shù)目;
[0009] 步驟30、對于步驟20中Re化ce作業(yè)的輸出,通過Map作業(yè)生成包括節(jié)點、節(jié)點 化0、鄰居節(jié)點化0W及鄰邊信息的鍵值對,對每個節(jié)點,通過Re化ce作業(yè)遍歷節(jié)點化0、所 有鄰居節(jié)點化0W及所有鄰邊信息,得出每個節(jié)點的離散度Delta,Delta定義為本節(jié)點所 有連接更高化0值鄰居節(jié)點的鄰邊中最短邊的邊長,若不存在該樣的鄰居節(jié)點,則取本節(jié) 點最長鄰邊的邊長;再結(jié)合預(yù)定規(guī)則來進(jìn)行類標(biāo)識。
[0010] 其中,所述預(yù)定規(guī)則包括;節(jié)點的化〇和Delta分別高于作為輸入?yún)?shù)的闊值R_ T和闊值D_T,則該節(jié)點為一個類的中心該節(jié)點的類標(biāo)識取其自身類標(biāo)識;否則,節(jié)點的類 標(biāo)識取距離其最近且化0更高的鄰居節(jié)點的類標(biāo)識;
[0011] 孤立節(jié)點的類標(biāo)識為自身類標(biāo)識。
[001引其中,所述預(yù)定規(guī)則包括:預(yù)先劃分化0值可能取值區(qū)間W及對應(yīng)的Delta值可能 取值區(qū)間,如果節(jié)點的Rho值屬于Rho值可能取值區(qū)間且節(jié)點的Delta值屬于對應(yīng)的Delta 值可能取值區(qū)間,則該節(jié)點為一個類的中屯、,該節(jié)點的類標(biāo)識取其自身類標(biāo)識;否則,節(jié)點 的類標(biāo)識取距離其最近且化0更高的鄰居節(jié)點的類標(biāo)識;
[0013] 孤立節(jié)點的類標(biāo)識為自身類標(biāo)識。
[0014] 其中,步驟20中,連通圖中的節(jié)點和邊的信息作為輸入數(shù)據(jù)的數(shù)據(jù)格式包括標(biāo)識 節(jié)點的字段、標(biāo)識鄰居節(jié)點的字段、W及標(biāo)識該節(jié)點和鄰居節(jié)點之間鄰邊的邊長的字段。
[0015] 其中,步驟20中Re化ce作業(yè)的輸出存儲于關(guān)系數(shù)據(jù)庫或鍵值數(shù)據(jù)庫中。
[0016] 其中,步驟30中的Map作業(yè)中,通過對步驟20中Re化ce作業(yè)的輸出進(jìn)行笛卡爾 積,實現(xiàn)對鄰居節(jié)點化0的遍歷。
[0017] 其中,步驟20包括;
[0018] 步驟21、連通圖中的節(jié)點和邊的信息作為輸入數(shù)據(jù)經(jīng)由Map作業(yè)生成鍵值對,其 中,鍵包括標(biāo)識節(jié)點的字段,值包括標(biāo)識鄰居節(jié)點的字段和標(biāo)識該節(jié)點和鄰居節(jié)點之間鄰 邊的邊長的字段;
[0019] 步驟22、對鍵值對按照鍵所包括的節(jié)點進(jìn)行分區(qū),鍵包括相同節(jié)點的鍵值對分配 至同一分區(qū);
[0020] 步驟23、對于同一分區(qū)內(nèi)的鍵值對按照鍵所包括的節(jié)點進(jìn)行分組,鍵包括相同節(jié) 點的鍵值對分配至同一組;
[0021] 步驟25、經(jīng)由Re化ce作業(yè),通過對屬于同一組的鍵值對的值的迭代來遍歷同一節(jié) 點的所有的鄰邊,生成包括節(jié)點、節(jié)點的本地密度化0W及節(jié)點所有鄰邊信息的輸出。
[0022] 其中,步驟20還包括:
[0023] 步驟21中,鍵還包括標(biāo)識該節(jié)點和鄰居節(jié)點之間鄰邊的邊長的字段;
[0024] 步驟24、對于屬于同一組的鍵值對按照鍵所包括的鄰邊的邊長進(jìn)行排序。
[0025] 其中,步驟24中的排序為升序排序。
[0026] 其中,步驟25中Re化ce作業(yè)的輸出為鍵值對,其中,鍵包括標(biāo)識節(jié)點的字段,值包 括標(biāo)識節(jié)點的字段、標(biāo)識節(jié)點化0的字段W及標(biāo)識節(jié)點所有鄰邊信息的字段。
[0027] 其中,步驟30包括;
[002引步驟31、對于步驟20中Re化ce作業(yè)的輸出經(jīng)由Map作業(yè)生成鍵值對,其中,鍵包 括標(biāo)識節(jié)點的字段,值包括標(biāo)識鄰居節(jié)點的字段、標(biāo)識該節(jié)點和鄰居節(jié)點之間鄰邊的邊長 的字段、標(biāo)識該鄰居節(jié)點化0的字段和標(biāo)識該節(jié)點化0的字段;
[0029] 步驟32、對鍵值對按照鍵所包括的節(jié)點進(jìn)行分區(qū),鍵包括相同節(jié)點的鍵值對分配 至同一分區(qū);
[0030] 步驟33、對于同一分區(qū)內(nèi)的鍵值對按照鍵所包括的節(jié)點進(jìn)行分組,鍵包括相同節(jié) 點的鍵值對分配至同一組;
[0031] 步驟35、經(jīng)由Re化ce作業(yè),對每個節(jié)點,通過對屬于同一組的鍵值對的值的迭代 來遍歷節(jié)點化0、所有鄰居節(jié)點化0W及所有鄰邊信息,得出每個節(jié)點的離散度Delta,再結(jié) 合預(yù)定規(guī)則來進(jìn)行類標(biāo)識。
[0032] 其中,步驟30還包括:
[0033] 步驟31中,鍵還包括標(biāo)識該鄰居節(jié)點化〇的字段;
[0034] 步驟34、對于屬于同一組的鍵值對按照鍵所包括的鄰居節(jié)點化0進(jìn)行排序。
[0035] 綜上所述,本發(fā)明借助流行的MapRe化ce分布式計算思想在集群上實現(xiàn)了基于本 地密度的聚類,弱化了處理時單機(jī)本身資源有限等所帶來的限制,能實現(xiàn)對海量數(shù)據(jù)的處 理,更快的完成聚類操作。
【附圖說明】
[003
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1