本技術(shù)涉及信息處理,特別涉及一種應用于融合信息的農(nóng)產(chǎn)品信息聚類方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的快速發(fā)展,各類信息呈爆炸式增長。在農(nóng)產(chǎn)品企業(yè)營銷和客戶管理中,往往需要處理大量來自不同農(nóng)產(chǎn)品營銷渠道的信息,如客戶信息、農(nóng)產(chǎn)品銷售信息、農(nóng)產(chǎn)品市場反饋等。這些信息通常被稱為融合信息,具有數(shù)據(jù)量大、類型多樣、來源分散等特點。如何有效地管理和利用融合信息,挖掘其中的價值,是企業(yè)面臨的重要課題。
2、公開號為cn109544248a的中國專利公開了一種基于互聯(lián)網(wǎng)信息進行銷售線索挖掘的方法,包括:通過確定哪些因素會影響線索挖掘的數(shù)量:線索的來源渠道不夠,只停留在傳統(tǒng)的線索獲取渠道,比如網(wǎng)站、電話、郵寄;營銷團隊在營銷策略設計時,對線索的獲取方式和場景考慮不周全;如何獲取更多的銷售線索:深入研究產(chǎn)品的目標客戶特征,對目標客戶進行多維度的分析,找到目標客戶可能出現(xiàn)的地方和場景;通過多種渠道獲取線索,不依賴某一種線索來源,多做嘗試;如何確定高質(zhì)量線索:線索中的聯(lián)系人對產(chǎn)品感興趣或者有明確的購買意向;線索中的聯(lián)系人對購買產(chǎn)品有決策權(quán);線索包含的數(shù)據(jù)維度有助于銷售人員做后續(xù)的跟進和轉(zhuǎn)化;如何提高了銷售線索的質(zhì)量:對不同渠道來源的線索質(zhì)量進行數(shù)據(jù)化的評估;從高質(zhì)量線索的標準出發(fā),在線索獲取的時候,就引入高質(zhì)量線索的數(shù)據(jù)維度和比較合適的線索獲取投放場景。
3、傳統(tǒng)的農(nóng)產(chǎn)品供需評估方法在農(nóng)產(chǎn)品多源異構(gòu)信息融合方面存在局限性,難以充分挖掘農(nóng)產(chǎn)品多維屬性、銷售行為、供需關(guān)系等融合信息的價值,未能全面刻畫農(nóng)產(chǎn)品的特征,未能充分考慮不同農(nóng)產(chǎn)品購買群體的差異性,導致農(nóng)產(chǎn)品供需評估和推薦的精準度不高。
技術(shù)實現(xiàn)思路
1、本技術(shù)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此,本技術(shù)的一個目的在于提出一種應用于融合信息的農(nóng)產(chǎn)品信息聚類方法及系統(tǒng),提高了農(nóng)產(chǎn)品供需信息推薦的精準性和個性化。
2、本技術(shù)的一個方面提供了一種應用于融合信息的農(nóng)產(chǎn)品信息聚類方法,包括:
3、步驟s100:收集農(nóng)產(chǎn)品的結(jié)構(gòu)化屬性數(shù)據(jù)、銷售行為數(shù)據(jù)和供需網(wǎng)絡數(shù)據(jù),構(gòu)成原始數(shù)據(jù)集d;
4、所述收集農(nóng)產(chǎn)品的結(jié)構(gòu)化屬性數(shù)據(jù)、銷售行為數(shù)據(jù)和供需網(wǎng)絡數(shù)據(jù),構(gòu)成原始數(shù)據(jù)集d的具體方法為:
5、步驟s110:從農(nóng)產(chǎn)品信息管理數(shù)據(jù)庫中收集農(nóng)產(chǎn)品的結(jié)構(gòu)化屬性數(shù)據(jù),包括:農(nóng)產(chǎn)品類別屬性、農(nóng)產(chǎn)品價值屬性,其中,表示結(jié)構(gòu)化屬性數(shù)據(jù)的數(shù)量;表示第個結(jié)構(gòu)化屬性數(shù)據(jù);
6、步驟s120:從電商平臺上收集農(nóng)產(chǎn)品的銷售行為數(shù)據(jù),包括:瀏覽記錄、購買記錄、搜索記錄,其中,表示銷售行為數(shù)據(jù)的數(shù)量;表示第個銷售行為數(shù)據(jù);
7、步驟s130:從供需媒體平臺上收集農(nóng)產(chǎn)品的供需網(wǎng)絡數(shù)據(jù),包括:供應信息、需求信息、交易數(shù)據(jù),其中,表示供需網(wǎng)絡數(shù)據(jù)的數(shù)量;表示第個供需網(wǎng)絡數(shù)據(jù);
8、步驟s140:由結(jié)構(gòu)化屬性數(shù)據(jù)、銷售行為數(shù)據(jù)和供需網(wǎng)絡數(shù)據(jù)進行預處理,得到原始數(shù)據(jù)集;
9、步驟s200:對農(nóng)產(chǎn)品的結(jié)構(gòu)化屬性數(shù)據(jù)、銷售行為數(shù)據(jù)和供需網(wǎng)絡數(shù)據(jù)進行特征學習,得到屬性特征、行為特征和供需特征并進行特征融合得到農(nóng)產(chǎn)品多視圖特征表示;
10、所述對農(nóng)產(chǎn)品的結(jié)構(gòu)化屬性數(shù)據(jù)、銷售行為數(shù)據(jù)和供需網(wǎng)絡數(shù)據(jù)進行特征學習,得到屬性特征、行為特征和供需特征并進行特征融合得到農(nóng)產(chǎn)品多視圖特征表示的具體方法為:
11、步驟s210:使用自編碼器對結(jié)構(gòu)化屬性數(shù)據(jù)進行特征學習,提取得到屬性特征;
12、所述使用自編碼器對結(jié)構(gòu)化屬性數(shù)據(jù)進行特征學習,提取得到屬性特征的具體方法為:
13、步驟s211:構(gòu)建自編碼器,所述自編碼器包括編碼器和解碼器;
14、步驟s212:利用結(jié)構(gòu)化屬性數(shù)據(jù)訓練自編碼器,以重構(gòu)損失和正則化損失作為訓練自編碼器的損失函數(shù),以最小化損失函數(shù)作為訓練目標,對自編碼器的權(quán)重矩陣和偏置向量進行優(yōu)化;
15、所述自編碼器的優(yōu)化目標為:,其中,為輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的重構(gòu)損失,為正則化項,λ為正則化系數(shù),表示對權(quán)重矩陣w和偏置向量b進行最小化;
16、步驟s213:當權(quán)重矩陣w和偏置向量b達到最小值時,得到訓練好的自編碼器,將編碼器部分提取出來,對結(jié)構(gòu)化屬性數(shù)據(jù)進行前向傳播,得到屬性特征;
17、步驟s220:使用lda主題模型和word2vec分別對銷售行為數(shù)據(jù)進行特征學習,得到行為特征,所述行為特征包括主題行為特征和詞嵌入行為特征;
18、所述lda主題模型是一種生成式概率模型,用于發(fā)現(xiàn)文檔集合中潛在的主題。
19、所述word2vec是一種用于詞向量表示的模型,通過神經(jīng)網(wǎng)絡將詞映射到向量空間,使得具有相似語義的詞在向量空間中彼此接近。
20、所述使用lda主題模型和word2vec分別對銷售行為數(shù)據(jù)進行特征學習,得到行為特征,所述行為特征包括主題行為特征和詞嵌入行為特征的具體方法為:
21、使用lda主題模型對銷售行為數(shù)據(jù)進行特征學習,對銷售行為數(shù)據(jù)中的購買記錄中每個主題的關(guān)鍵詞進行概率分布的統(tǒng)計,得到主題行為特征;
22、所述lda主題模型的公式為:,其中,表示在銷售行為數(shù)據(jù)的購買記錄d中觀察到關(guān)鍵詞的概率,為購買記錄的第k個主題,k表示主題的總數(shù);k≤k;
23、將最大化銷售行為數(shù)據(jù)中的中心詞和背景詞的共現(xiàn)頻率,以及最小化中心詞和負樣本詞的共現(xiàn)頻率作為訓練word2vec的目標函數(shù),得到word2vec;
24、所述word2vec的目標函數(shù)為:
25、;
26、其中,表示最大化銷售行為數(shù)據(jù)中的中心詞和背景詞的共現(xiàn)頻率,表示最小化中心詞和負樣本詞的共現(xiàn)頻率,表示中心詞wo的向量嵌入的轉(zhuǎn)置,表示背景詞wi的向量嵌入,表示負采樣詞,k'表示負采樣的次數(shù),表示對k'個負采樣詞的損失求平均值;表示第次負采樣;≤k';
27、使用word2vec對銷售行為數(shù)據(jù)進行特征學習,得到每個關(guān)鍵詞的嵌入向量,將嵌入向量進行拼接得到詞嵌入行為特征;
28、步驟s230:使用圖卷積網(wǎng)絡對供需網(wǎng)絡數(shù)據(jù)進行特征學習,得到供需特征;
29、所述圖卷積網(wǎng)絡的訓練過程為:將供需網(wǎng)絡數(shù)據(jù)中的每個農(nóng)產(chǎn)品視為一個農(nóng)產(chǎn)品節(jié)點,創(chuàng)建節(jié)點集合v,將農(nóng)產(chǎn)品之間的供需關(guān)系作為邊,邊的權(quán)重根據(jù)供需關(guān)系的強度進行設置,構(gòu)建邊集合,得到農(nóng)產(chǎn)品供需網(wǎng)絡圖;
30、為每個農(nóng)產(chǎn)品節(jié)點提取農(nóng)產(chǎn)品的節(jié)點特征,所述節(jié)點特征包括:農(nóng)產(chǎn)品的供應量、需求量、價格波動,將每個節(jié)點特征表示為一個向量,構(gòu)建節(jié)點特征矩陣;
31、根據(jù)邊集合構(gòu)建鄰接矩陣a,其中矩陣a中元素的值為邊(i,j)的權(quán)重;i和j分別表示農(nóng)產(chǎn)品節(jié)點i和農(nóng)產(chǎn)品節(jié)點j;
32、初始化圖卷積網(wǎng)絡的層數(shù)l和每層的權(quán)重矩陣,將節(jié)點特征矩陣作為初始的節(jié)點表示;
33、對于每一層l,l∈[1,l],將其鄰接矩陣進行歸一化得到;
34、根據(jù)上一層的節(jié)點表示、權(quán)重矩陣和歸一化的鄰接矩陣,通過激活函數(shù)得到下一層的節(jié)點表示,計算公式為:,得到最后一層的節(jié)點表示作為節(jié)點的供需特征;為激活函數(shù);
35、使用交叉熵損失函數(shù)作為訓練圖卷積網(wǎng)絡的損失函數(shù),使用反向傳播算法和優(yōu)化器最小化損失函數(shù),當損失函數(shù)達到最小值時,訓練完成,得到訓練好的圖卷積網(wǎng)絡;
36、步驟s240:將學習到的屬性特征、行為特征、供需特征進行特征融合,得到農(nóng)產(chǎn)品多視圖特征表示e;
37、所述農(nóng)產(chǎn)品多視圖特征表示,為農(nóng)產(chǎn)品多視圖特征表示的子特征,;
38、步驟s300:使用聚類算法在屬性特征上將農(nóng)產(chǎn)品劃分為個屬性簇,在行為特征上將農(nóng)產(chǎn)品劃分為個行為簇,在供需特征上將農(nóng)產(chǎn)品劃分為個供需簇;
39、所述使用聚類算法在屬性特征上將農(nóng)產(chǎn)品劃分為個屬性簇,在行為特征上將農(nóng)產(chǎn)品劃分為個行為簇,在供需特征上將農(nóng)產(chǎn)品劃分為個供需簇的具體方法為:
40、所述在屬性特征上將農(nóng)產(chǎn)品劃分為個屬性簇的具體方法為:
41、步驟s311:隨機確定個聚類中心,對于每個農(nóng)產(chǎn)品,將其視作一個樣本點,計算與該樣本點距離最近的一個聚類中心,將該樣本點分配給對應的聚類中心,每個聚類中心及其樣本點為一個聚類;
42、步驟s312:對于每個聚類,重新計算其聚類中心,以該聚類中樣本點的平均值作為新的聚類中心;
43、步驟s313:重新劃分每個樣本點到距離其最近的聚類中心的聚類中,直到聚類結(jié)果不再變化時停止,得到個基于屬性特征進行聚類的農(nóng)產(chǎn)品的屬性簇;
44、所述在行為特征上將農(nóng)產(chǎn)品劃分為個行為簇的具體方法為:
45、步驟s321:通過已訓練好的lda主題模型學習得到銷售行為數(shù)據(jù)中的購買記錄中的主題分布,得到個主題,利用k-means聚類算法按照主題行為特征對農(nóng)產(chǎn)品進行分類,得到個主題行為簇;
46、步驟s322:根據(jù)詞嵌入行為特征,使用k-means聚類算法將農(nóng)產(chǎn)品基于行為模式進行分類,得到個詞嵌入行為簇;
47、所述在供需特征上將農(nóng)產(chǎn)品劃分為個供需簇的具體方法為:
48、步驟s331:將每個農(nóng)產(chǎn)品節(jié)點設定為一個社區(qū),則初始社區(qū)數(shù)量為節(jié)點集合v的數(shù)量,計算農(nóng)產(chǎn)品供需網(wǎng)絡圖中的總邊權(quán)重為,表示農(nóng)產(chǎn)品供需網(wǎng)絡圖中供需關(guān)系強度的總和;
49、步驟s332:對于每個農(nóng)產(chǎn)品節(jié)點i,遍歷其所有鄰居農(nóng)產(chǎn)品節(jié)點j,計算農(nóng)產(chǎn)品節(jié)點i分配給鄰居農(nóng)產(chǎn)品節(jié)點j所在社區(qū)時的模塊度q的變化量;
50、所述模塊度q的計算公式為:,其中,、為與農(nóng)產(chǎn)品節(jié)點i、農(nóng)產(chǎn)品節(jié)點j相連的邊權(quán)重之和,指農(nóng)產(chǎn)品i和農(nóng)產(chǎn)品j所屬的社區(qū)是否為相同,當相同時為1,否則為0;
51、步驟s333:計算每個農(nóng)產(chǎn)品節(jié)點分配給每個社區(qū)的模塊度,得到模塊度提升最大所對應的社區(qū),將該農(nóng)產(chǎn)品節(jié)點分配給該社區(qū),直到社區(qū)分配的農(nóng)產(chǎn)品節(jié)點的結(jié)果不再變化;
52、步驟s334:將每個社區(qū)看作一個社區(qū)節(jié)點,構(gòu)建社區(qū)網(wǎng)絡,將社區(qū)節(jié)點之間的邊權(quán)重設定為原始每個社區(qū)之間的邊權(quán)重之和,社區(qū)節(jié)點的自環(huán)邊權(quán)重為原始每個社區(qū)內(nèi)部的邊權(quán)重之和;
53、步驟s335:根據(jù)社區(qū)網(wǎng)絡得到社區(qū)劃分結(jié)果,每個社區(qū)代表一個根據(jù)農(nóng)產(chǎn)品的供需特征劃分的供需簇;
54、步驟s400:利用屬性簇、行為簇和供需簇,對每一個簇構(gòu)建群體畫像,實時獲取當前農(nóng)產(chǎn)品的農(nóng)產(chǎn)品信息,計算該農(nóng)產(chǎn)品與每個簇之間的隸屬度分數(shù),根據(jù)隸屬度分數(shù)計算該農(nóng)產(chǎn)品的供需評分;
55、所述利用屬性簇、行為簇和供需簇,對每一個簇構(gòu)建群體畫像,實時獲取當前農(nóng)產(chǎn)品的農(nóng)產(chǎn)品信息,計算該農(nóng)產(chǎn)品與每個簇之間的隸屬度分數(shù),根據(jù)隸屬度分數(shù)計算該農(nóng)產(chǎn)品的供需評分的具體方法為:
56、步驟s410:將屬性簇、行為簇和供需簇進行編號,對于第ri個簇的第rj個特征,計算該簇內(nèi)所有農(nóng)產(chǎn)品在該特征上的均值和標準差,得到第ri個簇的群體畫像,表示第ri個簇的第rj個特征上的均值和標準差,rj表示特征的總數(shù)量,rj∈{1,2,...,rj};所述特征是指屬性簇、行為簇和供需簇分別對應的屬性特征、行為特征、供需特征;
57、步驟s420:計算農(nóng)產(chǎn)品與每個群體畫像之間的距離,并將距離轉(zhuǎn)化為隸屬度分數(shù);
58、所述隸屬度分數(shù)的計算公式為:,其中,vi表示農(nóng)產(chǎn)品vi,表示農(nóng)產(chǎn)品vi與第ri個簇的群體畫像之間的距離,γ為控制參數(shù);表示農(nóng)產(chǎn)品vi的隸屬度分數(shù);
59、步驟s430:根據(jù)農(nóng)產(chǎn)品與各個簇之間的隸屬度分數(shù),計算該農(nóng)產(chǎn)品的供需評分;
60、所述供需評分的計算公式為:,其中表示第ri個簇的權(quán)重系數(shù),表示農(nóng)產(chǎn)品vi在所有簇中的最大隸屬度分數(shù);
61、步驟s500:根據(jù)農(nóng)產(chǎn)品的隸屬度分數(shù),選取與該農(nóng)產(chǎn)品最相似的個簇作為該農(nóng)產(chǎn)品的候選供需集合,將候選供需集合按照隸屬度分數(shù)降序排序,生成該農(nóng)產(chǎn)品的條供需信息;
62、所述根據(jù)農(nóng)產(chǎn)品的隸屬度分數(shù),選取與該農(nóng)產(chǎn)品最相似的個簇作為該農(nóng)產(chǎn)品的候選供需集合,將候選供需集合按照隸屬度分數(shù)降序排序,生成該農(nóng)產(chǎn)品的條供需信息的具體方法為:
63、步驟s510:計算農(nóng)產(chǎn)品與每個簇的隸屬度分數(shù),將每個簇按照隸屬度分數(shù)進行降序排序,選取前個簇作為該農(nóng)產(chǎn)品的候選供需集合;
64、步驟s520:按照排序后的簇的序列,從候選供需集合中依次選取簇,根據(jù)該簇的特征生成該農(nóng)產(chǎn)品的條供需信息。
65、本技術(shù)的一個方面提供了一種應用于融合信息的農(nóng)產(chǎn)品信息聚類系統(tǒng),包括:
66、數(shù)據(jù)集構(gòu)建模塊,用于收集農(nóng)產(chǎn)品的結(jié)構(gòu)化屬性數(shù)據(jù)、銷售行為數(shù)據(jù)和供需網(wǎng)絡數(shù)據(jù),構(gòu)成原始數(shù)據(jù)集d;
67、特征融合模塊,用于對農(nóng)產(chǎn)品的結(jié)構(gòu)化屬性數(shù)據(jù)、銷售行為數(shù)據(jù)和供需網(wǎng)絡數(shù)據(jù)進行特征學習,得到屬性特征、行為特征和供需特征并進行特征融合得到農(nóng)產(chǎn)品多視圖特征表示;
68、聚類簇劃分模塊,用于使用聚類算法在屬性特征上將農(nóng)產(chǎn)品劃分為個屬性簇,在行為特征上將農(nóng)產(chǎn)品劃分為個行為簇,在供需特征上將農(nóng)產(chǎn)品劃分為個供需簇;
69、供需評分計算模塊,用于利用屬性簇、行為簇和供需簇,對每一個簇構(gòu)建群體畫像,實時獲取當前農(nóng)產(chǎn)品的農(nóng)產(chǎn)品信息,計算該農(nóng)產(chǎn)品與每個簇之間的隸屬度分數(shù),根據(jù)隸屬度分數(shù)計算該農(nóng)產(chǎn)品的供需評分;
70、個性化推薦模塊,用于根據(jù)農(nóng)產(chǎn)品的隸屬度分數(shù),選取與該農(nóng)產(chǎn)品最相似的個簇作為該農(nóng)產(chǎn)品的候選供需集合,將候選供需集合按照隸屬度分數(shù)降序排序,生成該農(nóng)產(chǎn)品的條供需信息。
71、本技術(shù)的一個方面提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時,以實現(xiàn)一種應用于融合信息的農(nóng)產(chǎn)品信息聚類方法中的步驟。
72、本技術(shù)的一個方面提供了一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序適于處理器進行加載,以執(zhí)行一種應用于融合信息的農(nóng)產(chǎn)品信息聚類方法中的步驟。
73、本技術(shù)提出的一種應用于融合信息的農(nóng)產(chǎn)品信息聚類方法及系統(tǒng)相對于現(xiàn)有技術(shù),具備以下優(yōu)點:
74、本技術(shù)考慮了結(jié)構(gòu)化屬性數(shù)據(jù)、銷售行為數(shù)據(jù)和供需網(wǎng)絡數(shù)據(jù)等多種數(shù)據(jù)源,針對不同數(shù)據(jù)類型提出了相應的預處理和特征學習方法,如自編碼器、lda、word2vec、gcn,這種多源數(shù)據(jù)融合的思路有助于全面刻畫農(nóng)產(chǎn)品特征,提升供需評估的精準度。
75、在農(nóng)產(chǎn)品聚類時,本技術(shù)采用了多維度聚類的思路,在不同的特征子空間分別進行聚類,然后再融合不同維度的聚類結(jié)果,這種多粒度、多角度的聚類方式能夠捕捉農(nóng)產(chǎn)品的多樣性和差異性,得到更加精細和全面的農(nóng)產(chǎn)品畫像。
76、在群體畫像構(gòu)建時,本技術(shù)不僅考慮了聚類中心,還引入了聚類的標準差信息,從均值和離散度兩個層面刻畫群體特征,在供需評分時,提出了隸屬度分數(shù)計算的方法,量化了農(nóng)產(chǎn)品對不同聚類的相對匹配程度,這些細粒度的建模有助于挖掘農(nóng)產(chǎn)品的隱藏供需關(guān)系,提高供需匹配的精準度。
77、本技術(shù)從數(shù)據(jù)、算法、策略等多個層面體現(xiàn)了個性化的思想,力求從群體和個體兩個層面,挖掘農(nóng)產(chǎn)品的差異化特征和供需關(guān)系,提供量身定制的農(nóng)產(chǎn)品供需關(guān)系匹配服務,這種個性化的理念與當前的農(nóng)產(chǎn)品精準營銷趨勢高度契合。