網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法及裝置制造方法【專利摘要】本發(fā)明公開了一種網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法及裝置。其中,該方法包括:采集用戶訪問頁面行為的初始數(shù)據(jù)集,其中,初始數(shù)據(jù)集中包括一個(gè)或多個(gè)用戶訪問目標(biāo)網(wǎng)站的初始頁面瀏覽數(shù)據(jù);從初始數(shù)據(jù)集中提取用戶的首次訪問數(shù)據(jù);使用預(yù)設(shè)判定模型對(duì)首次訪問數(shù)據(jù)進(jìn)行判定得到判定結(jié)果;在判定結(jié)果與預(yù)設(shè)判定模型的預(yù)設(shè)結(jié)果相反時(shí),使用首次訪問數(shù)據(jù)在初始數(shù)據(jù)集中進(jìn)行前溯匹配得到關(guān)聯(lián)訪問數(shù)據(jù);基于關(guān)聯(lián)訪問數(shù)據(jù)對(duì)初始數(shù)據(jù)集進(jìn)行拼接和修復(fù)得到修復(fù)數(shù)據(jù)集。采用本發(fā)明,解決了現(xiàn)有技術(shù)中因Cookie信息丟失導(dǎo)致識(shí)別用戶精準(zhǔn)性差的問題,實(shí)現(xiàn)了準(zhǔn)確統(tǒng)計(jì)用戶訪問頁面數(shù)據(jù)的效果,抵抗Cookie丟失所帶來的副作用,串聯(lián)用戶的行為以實(shí)現(xiàn)還原真實(shí)用戶行為的目的?!緦@f明】網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法及裝置【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及數(shù)據(jù)統(tǒng)計(jì)領(lǐng)域,具體而言,涉及一種網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法及裝置?!?br>背景技術(shù):
】[0002]在網(wǎng)站分析領(lǐng)域,常常需要將用戶在互聯(lián)網(wǎng)上的所有行為串聯(lián)起來,將用戶割裂的行為(如pv、session)及其屬性聯(lián)系起來并作聚合歸因分析,是重要的網(wǎng)站流量分析手段。如何追蹤一個(gè)具體的訪客行為,將他的具體瀏覽情況串聯(lián)起來,是完成網(wǎng)站流量分析的重要技術(shù)手段?,F(xiàn)有技術(shù)方案主要采用的是Cookie追蹤的方式,即在相關(guān)網(wǎng)頁的http請(qǐng)求回復(fù)中設(shè)置Set-Cookie的header信息,或通過javascript在客戶端生成cookie,然后用戶端瀏覽器會(huì)將相關(guān)cookie保存在本機(jī)上,待用戶下次訪問此網(wǎng)站時(shí),其http請(qǐng)求中就會(huì)包含這個(gè)cookie,這樣服務(wù)器端便可得知該請(qǐng)求來自上次訪問過的用戶。通過這種方法,可以追蹤同一訪客在網(wǎng)站上的多次行為,但是其有效時(shí)間為cookie的過期時(shí)間。[0003]上述技術(shù)方案的缺點(diǎn)在于,完全依賴于Cookie信息識(shí)別用戶,在實(shí)際環(huán)境中,Cookie信息很容易丟失(如用戶手動(dòng)清除Cookie,重裝瀏覽器,重裝操作系統(tǒng)等)。因此同一訪客的行為可能生成多次Cookie,并被識(shí)別為多個(gè)不同訪客的行為。這樣訪客行為分析的精準(zhǔn)性就無法得到保障。[0004]針對(duì)現(xiàn)有技術(shù)中因Cookie信息丟失導(dǎo)致識(shí)別用戶精準(zhǔn)性差的問題,目前尚未提出有效的解決方案。【
發(fā)明內(nèi)容】[0005]本發(fā)明實(shí)施例提供了一種網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法及裝置,以至少解決現(xiàn)有技術(shù)中因Cookie信息丟失導(dǎo)致識(shí)別用戶行為精準(zhǔn)性差的技術(shù)問題。[0006]根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法,該方法包括:采集用戶訪問頁面行為的初始數(shù)據(jù)集,其中,初始數(shù)據(jù)集中包括一個(gè)或多個(gè)用戶訪問目標(biāo)網(wǎng)站的初始頁面瀏覽數(shù)據(jù);從初始數(shù)據(jù)集中提取用戶的首次訪問數(shù)據(jù);使用預(yù)設(shè)判定模型對(duì)首次訪問數(shù)據(jù)進(jìn)行判定得到判定結(jié)果;在判定結(jié)果與預(yù)設(shè)判定模型的預(yù)設(shè)結(jié)果相反時(shí),使用首次訪問數(shù)據(jù)在初始數(shù)據(jù)集中進(jìn)行前溯匹配得到關(guān)聯(lián)訪問數(shù)據(jù);基于關(guān)聯(lián)訪問數(shù)據(jù)對(duì)初始數(shù)據(jù)集進(jìn)行拼接和修復(fù)得到修復(fù)數(shù)據(jù)集。[0007]進(jìn)一步地,在使用預(yù)設(shè)判定模型對(duì)首次訪問數(shù)據(jù)進(jìn)行判定得到判定結(jié)果之前,方法包括:獲取用戶的初始行為數(shù)據(jù)庫,其中,初始行為數(shù)據(jù)庫中保存所有用戶的頁面瀏覽數(shù)據(jù),每個(gè)頁面瀏覽數(shù)據(jù)中包括瀏覽首次字段;將對(duì)應(yīng)每個(gè)用戶的首次頁面瀏覽數(shù)據(jù)的瀏覽首次字段的屬性記為正確;對(duì)初始行為數(shù)據(jù)庫中的頁面瀏覽數(shù)據(jù)進(jìn)行過濾得到過濾行為數(shù)據(jù)庫;建立初始網(wǎng)絡(luò)判定模型;使用網(wǎng)絡(luò)判定模型對(duì)過濾行為數(shù)據(jù)庫進(jìn)行訓(xùn)練得到預(yù)設(shè)判定模型。[0008]進(jìn)一步地,每個(gè)頁面瀏覽數(shù)據(jù)中包括訪問頁面來源字段、訪問來源網(wǎng)站字段以及訪問活動(dòng)名稱字段,對(duì)初始行為數(shù)據(jù)庫中的頁面瀏覽數(shù)據(jù)進(jìn)行過濾得到過濾行為數(shù)據(jù)庫的步驟包括:將初始行為數(shù)據(jù)庫中的訪問頁面來源字段、訪問來源網(wǎng)站字段以及訪問活動(dòng)名稱字段為空的頁面瀏覽數(shù)據(jù)從初始行為數(shù)據(jù)庫中刪除,得到過濾行為數(shù)據(jù)庫。[0009]進(jìn)一步地,使用預(yù)設(shè)判定模型對(duì)首次訪問數(shù)據(jù)進(jìn)行判定得到判定結(jié)果的步驟包括:獲取首次訪問數(shù)據(jù)的訪問首次字段;使用預(yù)設(shè)判定模型對(duì)訪問首次字段的屬性進(jìn)行判定;在訪問首次字段的屬性為正確的情況下,確定判定結(jié)果與預(yù)設(shè)判定模型的預(yù)設(shè)結(jié)果相同;在訪問首次字段的屬性不為正確的情況下,確定判定結(jié)果與預(yù)設(shè)判定模型的預(yù)設(shè)結(jié)果相反。[0010]進(jìn)一步地,使用首次訪問數(shù)據(jù)在初始數(shù)據(jù)集中進(jìn)行前溯匹配得到關(guān)聯(lián)訪問數(shù)據(jù)的步驟包括:從初始數(shù)據(jù)集中篩選出與首次訪問數(shù)據(jù)的IP和瀏覽器標(biāo)識(shí)相同的初始頁面瀏覽數(shù)據(jù);比較初始頁面瀏覽數(shù)據(jù)的初始訪問時(shí)間與首次訪問數(shù)據(jù)的首次訪問時(shí)間;記錄初始關(guān)聯(lián)訪問數(shù)據(jù),其中,初始關(guān)聯(lián)訪問數(shù)據(jù)的第一初始訪問時(shí)間比首次訪問時(shí)間小;從初始關(guān)聯(lián)訪問數(shù)據(jù)中提取關(guān)聯(lián)訪問數(shù)據(jù),其中,關(guān)聯(lián)訪問數(shù)據(jù)的第二初始訪問時(shí)間是所有第一初始訪問時(shí)間中最大的。[0011]進(jìn)一步地,基于關(guān)聯(lián)訪問數(shù)據(jù)對(duì)用戶訪問行為的初始數(shù)據(jù)集進(jìn)行拼接和修復(fù)得到修復(fù)數(shù)據(jù)集的步驟包括:從初始數(shù)據(jù)集中提取用戶的所有初始頁面瀏覽數(shù)據(jù);將初始頁面瀏覽數(shù)據(jù)與關(guān)聯(lián)訪問數(shù)據(jù)進(jìn)行合并得到修復(fù)訪問數(shù)據(jù);使用修復(fù)訪問數(shù)據(jù)修復(fù)初始數(shù)據(jù)集得到修復(fù)數(shù)據(jù)集。[0012]根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置,該裝置包括:采集模塊,用于采集用戶訪問頁面行為的初始數(shù)據(jù)集,其中,初始數(shù)據(jù)集中包括一個(gè)或多個(gè)用戶訪問目標(biāo)網(wǎng)站的初始頁面瀏覽數(shù)據(jù);第一數(shù)據(jù)提取模塊,用于從初始數(shù)據(jù)集中提取用戶的首次訪問數(shù)據(jù);判定模塊,用于使用預(yù)設(shè)判定模型對(duì)首次訪問數(shù)據(jù)進(jìn)行判定得到判定結(jié)果;匹配模塊,用于在判定結(jié)果與預(yù)設(shè)判定模型的預(yù)設(shè)結(jié)果相反時(shí),使用首次訪問數(shù)據(jù)在初始數(shù)據(jù)集中進(jìn)行前溯匹配得到關(guān)聯(lián)訪問數(shù)據(jù);修復(fù)模塊,用于基于關(guān)聯(lián)訪問數(shù)據(jù)對(duì)初始數(shù)據(jù)集進(jìn)行拼接和修復(fù)得到修復(fù)數(shù)據(jù)集。[0013]進(jìn)一步地,網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置還包括:數(shù)據(jù)庫獲取模塊,用于獲取用戶的初始行為數(shù)據(jù)庫,其中,初始行為數(shù)據(jù)庫中保存所有用戶的頁面瀏覽數(shù)據(jù),每個(gè)頁面瀏覽數(shù)據(jù)中包括瀏覽首次字段;屬性標(biāo)記模塊,用于將對(duì)應(yīng)每個(gè)用戶的首次頁面瀏覽數(shù)據(jù)的瀏覽首次字段的屬性記為正確;過濾模塊,用于對(duì)初始行為數(shù)據(jù)庫中的頁面瀏覽數(shù)據(jù)進(jìn)行過濾得到過濾行為數(shù)據(jù)庫;模型建立模塊,用于建立初始網(wǎng)絡(luò)判定模型;模型獲取模塊,用于使用網(wǎng)絡(luò)判定模型對(duì)過濾行為數(shù)據(jù)庫進(jìn)行訓(xùn)練得到預(yù)設(shè)判定模型。[0014]進(jìn)一步地,過濾模塊包括:將初始行為數(shù)據(jù)庫中的訪問頁面來源字段、訪問來源網(wǎng)站字段以及訪問活動(dòng)名稱字段為空的頁面瀏覽數(shù)據(jù)從初始行為數(shù)據(jù)庫中刪除,得到過濾行為數(shù)據(jù)庫,其中,每個(gè)頁面瀏覽數(shù)據(jù)中包括訪問頁面來源字段、訪問來源網(wǎng)站字段以及訪問活動(dòng)名稱字段。[0015]進(jìn)一步地,判定模塊包括:字段獲取模塊,用于獲取首次訪問數(shù)據(jù)的訪問首次字段;屬性判定模塊,用于使用預(yù)設(shè)判定模型對(duì)訪問首次字段的屬性進(jìn)行判定;第一確定模塊,用于在訪問首次字段的屬性為正確的情況下,確定判定結(jié)果與預(yù)設(shè)判定模型的預(yù)設(shè)結(jié)果相同;第二確定模塊,用于在訪問首次字段的屬性不為正確的情況下,確定判定結(jié)果與預(yù)設(shè)判定模型的預(yù)設(shè)結(jié)果相反。[0016]進(jìn)一步地,匹配模塊包括:篩選模塊,用于從初始數(shù)據(jù)集中篩選出與首次訪問數(shù)據(jù)的IP和瀏覽器標(biāo)識(shí)相同的初始頁面瀏覽數(shù)據(jù);比較模塊,用于比較初始頁面瀏覽數(shù)據(jù)的初始訪問時(shí)間與首次訪問數(shù)據(jù)的首次訪問時(shí)間;記錄模塊,用于記錄初始關(guān)聯(lián)訪問數(shù)據(jù),其中,初始關(guān)聯(lián)訪問數(shù)據(jù)的第一初始訪問時(shí)間比首次訪問時(shí)間??;第二數(shù)據(jù)提取模塊,用于從初始關(guān)聯(lián)訪問數(shù)據(jù)中提取關(guān)聯(lián)訪問數(shù)據(jù),其中,關(guān)聯(lián)訪問數(shù)據(jù)的第二初始訪問時(shí)間是所有第一初始訪問時(shí)間中最大的。[0017]進(jìn)一步地,修復(fù)模塊包括:第三數(shù)據(jù)提取模塊,用于從初始數(shù)據(jù)集中提取用戶的所有初始頁面瀏覽數(shù)據(jù);合并模塊,用于將初始頁面瀏覽數(shù)據(jù)與關(guān)聯(lián)訪問數(shù)據(jù)進(jìn)行合并得到修復(fù)訪問數(shù)據(jù);修復(fù)子模塊,用于使用修復(fù)訪問數(shù)據(jù)修復(fù)初始數(shù)據(jù)集得到修復(fù)數(shù)據(jù)集。[0018]在本發(fā)明實(shí)施例中,通過在匹配模塊匹配出關(guān)聯(lián)訪問數(shù)據(jù)之后,基于關(guān)聯(lián)訪問數(shù)據(jù)修復(fù)初始數(shù)據(jù)集以獲取修復(fù)數(shù)據(jù)集,從而可以將因?yàn)镃ookie丟失的數(shù)據(jù)拼接上,從而可以減少同一訪客的行為可能生成多次Cookie的數(shù)據(jù),并且可以減少因?yàn)镃ookie丟失而重新記錄的數(shù)據(jù),解決了現(xiàn)有技術(shù)中因Cookie信息丟失導(dǎo)致識(shí)別用戶精準(zhǔn)性差的問題,實(shí)現(xiàn)了準(zhǔn)確統(tǒng)計(jì)用戶訪問頁面數(shù)據(jù)的效果,抵抗Cookie丟失所帶來的副作用,串聯(lián)用戶的行為以實(shí)現(xiàn)還原真實(shí)用戶行為的目的?!緦@綀D】【附圖說明】[0019]此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:[0020]圖1是根據(jù)本發(fā)明實(shí)施例的一種網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置的示意圖;以及[0021]圖2是根據(jù)本發(fā)明實(shí)施例的一種網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法的流程圖?!揪唧w實(shí)施方式】[0022]首先,在對(duì)本發(fā)明實(shí)施例進(jìn)行描述的過程中出現(xiàn)的部分名詞或術(shù)語適用于如下解釋:[0023]為了使本【
技術(shù)領(lǐng)域:
】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。[0024]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤4送?,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。[0025]根據(jù)本發(fā)明實(shí)施例,提供了一種網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置,如圖1所示,該裝置包括:采集模塊10,用于采集用戶訪問頁面行為的初始數(shù)據(jù)集,其中,初始數(shù)據(jù)集中包括一個(gè)或多個(gè)用戶訪問目標(biāo)網(wǎng)站的初始頁面瀏覽數(shù)據(jù);第一數(shù)據(jù)提取模塊30,用于從初始數(shù)據(jù)集中提取用戶的首次訪問數(shù)據(jù);判定模塊50,用于使用預(yù)設(shè)判定模型對(duì)首次訪問數(shù)據(jù)進(jìn)行判定得到判定結(jié)果;匹配模塊70,用于在判定結(jié)果與預(yù)設(shè)判定模型的預(yù)設(shè)結(jié)果相反時(shí),使用首次訪問數(shù)據(jù)在初始數(shù)據(jù)集中進(jìn)行前溯匹配得到關(guān)聯(lián)訪問數(shù)據(jù);修復(fù)模塊90,用于基于關(guān)聯(lián)訪問數(shù)據(jù)對(duì)初始數(shù)據(jù)集進(jìn)行拼接和修復(fù)得到修復(fù)數(shù)據(jù)集。[0026]采用本發(fā)明,可以使用采集模塊采集用戶訪問頁面的初始數(shù)據(jù)集,在第一數(shù)據(jù)提取模塊從初始數(shù)據(jù)集中提取用戶的首次訪問數(shù)據(jù)之后,判定模塊使用預(yù)設(shè)判定模型對(duì)首次訪問數(shù)據(jù)進(jìn)行判定得到判定結(jié)果,匹配模塊在判定結(jié)果與預(yù)設(shè)判定模型的預(yù)設(shè)結(jié)果相反時(shí),使用首次訪問數(shù)據(jù)在初始數(shù)據(jù)集中進(jìn)行前溯匹配得到關(guān)聯(lián)訪問數(shù)據(jù),然后修復(fù)模炔基于關(guān)聯(lián)訪問數(shù)據(jù)修復(fù)初始數(shù)據(jù)集以獲取修復(fù)數(shù)據(jù)集。通過在匹配模塊匹配出關(guān)聯(lián)訪問數(shù)據(jù)之后,基于關(guān)聯(lián)訪問數(shù)據(jù)修復(fù)初始數(shù)據(jù)集以獲取修復(fù)數(shù)據(jù)集,從而可以將因?yàn)镃ookie丟失的數(shù)據(jù)拼接上,從而可以減少同一訪客的行為可能生成多次Cookie的數(shù)據(jù),并且可以減少因?yàn)镃ookie丟失而重新記錄的數(shù)據(jù),解決了現(xiàn)有技術(shù)中因Cookie信息丟失導(dǎo)致識(shí)別用戶精準(zhǔn)性差的問題,實(shí)現(xiàn)了準(zhǔn)確統(tǒng)計(jì)用戶訪問頁面數(shù)據(jù)的效果,抵抗Cookie丟失所帶來的副作用,串聯(lián)用戶的行為以實(shí)現(xiàn)還原真實(shí)用戶行為的目的。[0027]在本發(fā)明的上述實(shí)施例中,修復(fù)模塊90可以包括:第三數(shù)據(jù)提取模塊,用于從初始數(shù)據(jù)集中提取用戶的所有初始頁面瀏覽數(shù)據(jù);合并模塊,用于將初始頁面瀏覽數(shù)據(jù)與關(guān)聯(lián)訪問數(shù)據(jù)進(jìn)行合并得到修復(fù)訪問數(shù)據(jù);修復(fù)子模塊,用于使用修復(fù)訪問數(shù)據(jù)修復(fù)初始數(shù)據(jù)集得到修復(fù)數(shù)據(jù)集。[0028]具體地,上述實(shí)施例中采集模塊可以基于cookie追蹤獲取初始數(shù)據(jù)集,該初始數(shù)據(jù)集中可以保存用戶訪問頁面的行為數(shù)據(jù),主要可以是指用戶對(duì)于目標(biāo)網(wǎng)站的頁面瀏覽(PageView,下簡(jiǎn)稱PV)數(shù)據(jù)(也即上述實(shí)施例中的初始頁面瀏覽數(shù)據(jù))。PV數(shù)據(jù)可通過在頁面部署javascript代碼獲取。[0029]更具體地,上述實(shí)施例中獲取的初始數(shù)據(jù)集可以采用數(shù)據(jù)表pvtable的形式表現(xiàn),對(duì)應(yīng)每條初始頁面瀏覽數(shù)據(jù)均可以包括一個(gè)或多個(gè)字段,這些字段可以是:pvid,uid,url,time,ip,useragent,adsource,adcompaign,trafficsource,isfirst氺以及hour氺,上述字段分別:pv唯一標(biāo)識(shí)、用戶唯一標(biāo)識(shí)、pv所訪問的url、pv的發(fā)生時(shí)間、用戶ip、用戶瀏覽器useragent標(biāo)識(shí)、廣告來源、廣告活動(dòng)名稱、來源網(wǎng)站、是否為此用戶的第一個(gè)PV、pv發(fā)生時(shí)間的所屬小時(shí)。其中,uid是基于傳統(tǒng)的cookie追蹤手段由前端javascript腳本生成,可保證具有同一uid的pv來自同一個(gè)用戶;而帶有星號(hào)的字段,在采集模塊采集初始數(shù)據(jù)集時(shí)設(shè)為空值,將通過對(duì)數(shù)據(jù)的篩選和計(jì)算得出帶有星號(hào)的字段的值。本發(fā)明實(shí)施例中的PV和pv均指頁面瀏覽數(shù)據(jù)。[0030]其中,上述實(shí)施例中的廣告來源、廣告活動(dòng)名稱具體是指當(dāng)次pv的廣告相關(guān)信息(若有的話),一般此信息可以通過分析url的參數(shù)獲得。[0031]例如:對(duì)于http://www.abc.com/pagel.aspx?utm_source=sl&utm_campaign=s2,其廣告來源(一般對(duì)應(yīng)utm_source參數(shù))即為si,廣告活動(dòng)名稱(一般對(duì)應(yīng)utm_campaign參數(shù))即為s2。這些參數(shù)可以是人為設(shè)置的,用于標(biāo)識(shí)相關(guān)訪問是通過什么廣告帶來的。[0032]其中,上述實(shí)施例中的預(yù)設(shè)判定模塊可以使用isFirst字段的值為正確的pv數(shù)據(jù)作為訓(xùn)練集合,訓(xùn)練isFirst的值為正確的判定模型,并將所有isFirst為true的集合使用預(yù)設(shè)模型對(duì)首次訪問數(shù)據(jù)進(jìn)行判斷,獲得與判定模型結(jié)果相反的偽首pv(即isFirst的值不為正確),對(duì)于偽首pv,利用ip,useragent和time進(jìn)行前向匹配尋找到相關(guān)pv(即關(guān)聯(lián)訪問數(shù)據(jù)),將屬于該用戶的所有初始頁面瀏覽數(shù)據(jù)與偽首pv所屬訪客行為(即關(guān)聯(lián)訪問數(shù)據(jù))進(jìn)行合并,獲取修正后的訪客行為(即修復(fù)數(shù)據(jù)集)。在該實(shí)施例中,在Cookie追蹤的基礎(chǔ)上,能夠通過機(jī)器模型學(xué)習(xí)的方法,進(jìn)行訪客行為的拼接,抵抗Cookie丟失所帶來的副作用,能夠修正對(duì)于cookie丟失帶來的數(shù)據(jù)失準(zhǔn),以達(dá)到串聯(lián)還原真實(shí)用戶行為的目的。[0033]在本發(fā)明的上述實(shí)施例中,網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置還可以包括:數(shù)據(jù)庫獲取模塊,用于獲取用戶的初始行為數(shù)據(jù)庫,其中,初始行為數(shù)據(jù)庫中保存所有用戶的頁面瀏覽數(shù)據(jù),每個(gè)頁面瀏覽數(shù)據(jù)中包括瀏覽首次字段;屬性標(biāo)記模塊,用于將對(duì)應(yīng)每個(gè)用戶的首次頁面瀏覽數(shù)據(jù)的瀏覽首次字段的屬性記為正確;過濾模塊,用于對(duì)初始行為數(shù)據(jù)庫中的頁面瀏覽數(shù)據(jù)進(jìn)行過濾得到過濾行為數(shù)據(jù)庫;模型建立模塊,用于建立初始網(wǎng)絡(luò)判定模型;模型獲取模塊,用于使用過濾行為數(shù)據(jù)庫對(duì)網(wǎng)絡(luò)判定模型進(jìn)行訓(xùn)練得到預(yù)設(shè)判定模型。[0034]具體地,過濾模塊可以包括:將初始行為數(shù)據(jù)庫中的訪問頁面來源字段、訪問來源網(wǎng)站字段以及訪問活動(dòng)名稱字段為空的頁面瀏覽數(shù)據(jù)從初始行為數(shù)據(jù)庫中刪除,得到過濾行為數(shù)據(jù)庫,其中,每個(gè)頁面瀏覽數(shù)據(jù)中包括訪問頁面來源字段(即來源網(wǎng)站)、訪問來源網(wǎng)站字段(即廣告來源)以及訪問活動(dòng)名稱字段(即廣告活動(dòng)名稱)。[0035]具體地,客戶端腳本在瀏覽器中執(zhí)行時(shí),可以為用戶生成唯一ID,并在記錄訪客Pv行為時(shí)附帶將此ID發(fā)送給數(shù)據(jù)處理端訪客行為日志系統(tǒng),數(shù)據(jù)處理端收到相關(guān)數(shù)據(jù)(即初始行為數(shù)據(jù)庫中的頁面瀏覽數(shù)據(jù))后,按照時(shí)間順序根據(jù)用戶ID是否第一次出現(xiàn)為頁面瀏覽數(shù)據(jù)打上isFirst(即瀏覽首次字段)標(biāo)簽,即將用戶的首次頁面瀏覽數(shù)據(jù)的瀏覽首次字段的屬性記為正確。[0036]根據(jù)本發(fā)明的上述實(shí)施例,屬性標(biāo)記模塊在訪問行為數(shù)據(jù)庫中選擇出所有用戶的第一個(gè)PV,并將這些PV數(shù)據(jù)的isfirst字段設(shè)為TRUE(即正確)時(shí)可以使用如下源碼:[0037]【權(quán)利要求】1.一種網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法,其特征在于,包括:采集用戶訪問頁面行為的初始數(shù)據(jù)集,其中,所述初始數(shù)據(jù)集中包括一個(gè)或多個(gè)所述用戶訪問目標(biāo)網(wǎng)站的初始頁面瀏覽數(shù)據(jù);從所述初始數(shù)據(jù)集中提取所述用戶的首次訪問數(shù)據(jù);使用預(yù)設(shè)判定模型對(duì)所述首次訪問數(shù)據(jù)進(jìn)行判定得到判定結(jié)果;在所述判定結(jié)果與所述預(yù)設(shè)判定模型的預(yù)設(shè)結(jié)果相反時(shí),使用所述首次訪問數(shù)據(jù)在所述初始數(shù)據(jù)集中進(jìn)行前溯匹配得到關(guān)聯(lián)訪問數(shù)據(jù);基于所述關(guān)聯(lián)訪問數(shù)據(jù)對(duì)所述初始數(shù)據(jù)集進(jìn)行拼接和修復(fù)得到修復(fù)數(shù)據(jù)集。2.根據(jù)權(quán)利要求1所述的網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法,其特征在于,在使用預(yù)設(shè)判定模型對(duì)所述首次訪問數(shù)據(jù)進(jìn)行判定得到判定結(jié)果之前,所述方法包括:獲取用戶的初始行為數(shù)據(jù)庫,其中,所述初始行為數(shù)據(jù)庫中保存所有所述用戶的頁面瀏覽數(shù)據(jù),每個(gè)所述頁面瀏覽數(shù)據(jù)中包括瀏覽首次字段;將對(duì)應(yīng)每個(gè)所述用戶的首次頁面瀏覽數(shù)據(jù)的所述瀏覽首次字段的屬性記為正確;對(duì)所述初始行為數(shù)據(jù)庫中的所述頁面瀏覽數(shù)據(jù)進(jìn)行過濾得到過濾行為數(shù)據(jù)庫;建立初始網(wǎng)絡(luò)判定模型;使用所述網(wǎng)絡(luò)判定模型對(duì)所述過濾行為數(shù)據(jù)庫進(jìn)行訓(xùn)練得到所述預(yù)設(shè)判定模型。3.根據(jù)權(quán)利要求2所述的網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法,其特征在于,每個(gè)所述頁面瀏覽數(shù)據(jù)中包括訪問頁面來源字段、訪問來源網(wǎng)站字段以及訪問活動(dòng)名稱字段,對(duì)所述初始行為數(shù)據(jù)庫中的所述頁面瀏覽數(shù)據(jù)進(jìn)行過濾得到過濾行為數(shù)據(jù)庫的步驟包括:將所述初始行為數(shù)據(jù)庫中的所述訪問頁面來源字段、所述訪問來源網(wǎng)站字段以及所述訪問活動(dòng)名稱字段為空的所述頁面瀏覽數(shù)據(jù)從所述初始行為數(shù)據(jù)庫中刪除,得到所述過濾行為數(shù)據(jù)庫。4.根據(jù)權(quán)利要求3所述的網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法,其特征在于,使用預(yù)設(shè)判定模型對(duì)所述首次訪問數(shù)據(jù)進(jìn)行判定得到判定結(jié)果的步驟包括:獲取所述首次訪問數(shù)據(jù)的訪問首次字段;使用所述預(yù)設(shè)判定模型對(duì)所述訪問首次字段的屬性進(jìn)行判定;在所述訪問首次字段的屬性為正確的情況下,確定所述判定結(jié)果與所述預(yù)設(shè)判定模型的所述預(yù)設(shè)結(jié)果相同;在所述訪問首次字段的屬性不為正確的情況下,確定所述判定結(jié)果與所述預(yù)設(shè)判定模型的所述預(yù)設(shè)結(jié)果相反。5.根據(jù)權(quán)利要求1所述的網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法,其特征在于,使用所述首次訪問數(shù)據(jù)在所述初始數(shù)據(jù)集中進(jìn)行前溯匹配得到關(guān)聯(lián)訪問數(shù)據(jù)的步驟包括:從所述初始數(shù)據(jù)集中篩選出與所述首次訪問數(shù)據(jù)的IP和瀏覽器標(biāo)識(shí)相同的所述初始頁面瀏覽數(shù)據(jù);比較所述初始頁面瀏覽數(shù)據(jù)的初始訪問時(shí)間與所述首次訪問數(shù)據(jù)的首次訪問時(shí)間;記錄初始關(guān)聯(lián)訪問數(shù)據(jù),其中,所述初始關(guān)聯(lián)訪問數(shù)據(jù)的第一初始訪問時(shí)間比所述首次訪問時(shí)間?。粡乃龀跏缄P(guān)聯(lián)訪問數(shù)據(jù)中提取所述關(guān)聯(lián)訪問數(shù)據(jù),其中,所述關(guān)聯(lián)訪問數(shù)據(jù)的第二初始訪問時(shí)間是所有所述第一初始訪問時(shí)間中最大的。6.根據(jù)權(quán)利要求1所述的網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)方法,其特征在于,基于所述關(guān)聯(lián)訪問數(shù)據(jù)對(duì)用戶訪問行為的初始數(shù)據(jù)集進(jìn)行拼接和修復(fù)得到修復(fù)數(shù)據(jù)集的步驟包括:從所述初始數(shù)據(jù)集中提取所述用戶的所有所述初始頁面瀏覽數(shù)據(jù);將所述初始頁面瀏覽數(shù)據(jù)與所述關(guān)聯(lián)訪問數(shù)據(jù)進(jìn)行合并得到修復(fù)訪問數(shù)據(jù);使用所述修復(fù)訪問數(shù)據(jù)修復(fù)所述初始數(shù)據(jù)集得到所述修復(fù)數(shù)據(jù)集。7.—種網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置,其特征在于,包括:采集模塊,用于采集用戶訪問頁面行為的初始數(shù)據(jù)集,其中,所述初始數(shù)據(jù)集中包括一個(gè)或多個(gè)所述用戶訪問目標(biāo)網(wǎng)站的初始頁面瀏覽數(shù)據(jù);第一數(shù)據(jù)提取模塊,用于從所述初始數(shù)據(jù)集中提取所述用戶的首次訪問數(shù)據(jù);判定模塊,用于使用預(yù)設(shè)判定模型對(duì)所述首次訪問數(shù)據(jù)進(jìn)行判定得到判定結(jié)果;匹配模塊,用于在所述判定結(jié)果與所述預(yù)設(shè)判定模型的預(yù)設(shè)結(jié)果相反時(shí),使用所述首次訪問數(shù)據(jù)在所述初始數(shù)據(jù)集中進(jìn)行前溯匹配得到關(guān)聯(lián)訪問數(shù)據(jù);修復(fù)模塊,用于基于所述關(guān)聯(lián)訪問數(shù)據(jù)對(duì)所述初始數(shù)據(jù)集進(jìn)行拼接和修復(fù)得到修復(fù)數(shù)據(jù)集。8.根據(jù)權(quán)利要求7所述的網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置,其特征在于,所述網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置還包括:數(shù)據(jù)庫獲取模塊,用于獲取用戶的初始行為數(shù)據(jù)庫,其中,所述初始行為數(shù)據(jù)庫中保存所有所述用戶的頁面瀏覽數(shù)據(jù),每個(gè)所述頁面瀏覽數(shù)據(jù)中包括瀏覽首次字段;屬性標(biāo)記模塊,用于將對(duì)應(yīng)每個(gè)所述用戶的首次頁面瀏覽數(shù)據(jù)的所述瀏覽首次字段的屬性記為正確;過濾模塊,用于對(duì)所述初始行為數(shù)據(jù)庫中的所述頁面瀏覽數(shù)據(jù)進(jìn)行過濾得到過濾行為數(shù)據(jù)庫;模型建立模塊,用于建立初始網(wǎng)絡(luò)判定模型;模型獲取模塊,用于使用所述網(wǎng)絡(luò)判定模型對(duì)所述過濾行為數(shù)據(jù)庫進(jìn)行訓(xùn)練得到所述預(yù)設(shè)判定模型。9.根據(jù)權(quán)利要求8所述的網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置,其特征在于,所述過濾模塊包括:將所述初始行為數(shù)據(jù)庫中的訪問頁面來源字段、訪問來源網(wǎng)站字段以及訪問活動(dòng)名稱字段為空的所述頁面瀏覽數(shù)據(jù)從所述初始行為數(shù)據(jù)庫中刪除,得到所述過濾行為數(shù)據(jù)庫,其中,每個(gè)所述頁面瀏覽數(shù)據(jù)中包括所述訪問頁面來源字段、所述訪問來源網(wǎng)站字段以及所述訪問活動(dòng)名稱字段。10.根據(jù)權(quán)利要求9所述的網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置,其特征在于,所述判定模塊包括:字段獲取模塊,用于獲取所述首次訪問數(shù)據(jù)的訪問首次字段;屬性判定模塊,用于使用所述預(yù)設(shè)判定模型對(duì)所述訪問首次字段的屬性進(jìn)行判定;第一確定模塊,用于在所述訪問首次字段的屬性為正確的情況下,確定所述判定結(jié)果與所述預(yù)設(shè)判定模型的所述預(yù)設(shè)結(jié)果相同;第二確定模塊,用于在所述訪問首次字段的屬性不為正確的情況下,確定所述判定結(jié)果與所述預(yù)設(shè)判定模型的所述預(yù)設(shè)結(jié)果相反。11.根據(jù)權(quán)利要求7所述的網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置,其特征在于,所述匹配模塊包括:篩選模塊,用于從所述初始數(shù)據(jù)集中篩選出與所述首次訪問數(shù)據(jù)的IP和瀏覽器標(biāo)識(shí)相同的所述初始頁面瀏覽數(shù)據(jù);比較模塊,用于比較所述初始頁面瀏覽數(shù)據(jù)的初始訪問時(shí)間與所述首次訪問數(shù)據(jù)的首次訪問時(shí)間;記錄模塊,用于記錄初始關(guān)聯(lián)訪問數(shù)據(jù),其中,所述初始關(guān)聯(lián)訪問數(shù)據(jù)的第一初始訪問時(shí)間比所述首次訪問時(shí)間??;第二數(shù)據(jù)提取模塊,用于從所述初始關(guān)聯(lián)訪問數(shù)據(jù)中提取所述關(guān)聯(lián)訪問數(shù)據(jù),其中,所述關(guān)聯(lián)訪問數(shù)據(jù)的第二初始訪問時(shí)間是所有所述第一初始訪問時(shí)間中最大的。12.根據(jù)權(quán)利要求7所述的網(wǎng)頁訪問數(shù)據(jù)統(tǒng)計(jì)裝置,其特征在于,所述修復(fù)模塊包括:第三數(shù)據(jù)提取模塊,用于從所述初始數(shù)據(jù)集中提取所述用戶的所有所述初始頁面瀏覽數(shù)據(jù);合并模塊,用于將所述初始頁面瀏覽數(shù)據(jù)與所述關(guān)聯(lián)訪問數(shù)據(jù)進(jìn)行合并得到修復(fù)訪問數(shù)據(jù);修復(fù)子模塊,用于使用所述修復(fù)訪問數(shù)據(jù)修復(fù)所述初始數(shù)據(jù)集得到所述修復(fù)數(shù)據(jù)集?!疚臋n編號(hào)】G06F17/30GK103605738SQ201310585858【公開日】2014年2月26日申請(qǐng)日期:2013年11月19日優(yōu)先權(quán)日:2013年11月19日【發(fā)明者】何愷鐸申請(qǐng)人:北京國(guó)雙科技有限公司