本發(fā)明涉及人工智能,特別涉及基于人工智能的旅游服務(wù)信息推送方法及系統(tǒng)。
背景技術(shù):
1、在當(dāng)今社會(huì),旅游已經(jīng)成為人們生活的重要組成部分。隨著互聯(lián)網(wǎng)和人工智能技術(shù)的發(fā)展,獲取旅游服務(wù)信息變得更加便捷,各種旅游服務(wù)機(jī)構(gòu)通過向用戶推送旅游產(chǎn)品信息、宣傳視頻等服務(wù)信息來提高用戶的旅游興趣和體驗(yàn)。同時(shí),自媒體的發(fā)展使得視頻分享成為旅游服務(wù)信息的重要來源。通過其他用戶分享的視頻信息,觀看者可以直觀的了解相應(yīng)的旅游景點(diǎn)的情況,作為自己旅游計(jì)劃的參考。
2、但是,如何將視頻推送給合適的用戶,并且保證推送視頻具有參考價(jià)值,是各個(gè)旅游服務(wù)機(jī)構(gòu)需要考慮的問題;在用戶匹配上,常見的方法是通過構(gòu)建用戶畫像的方式來匹配相應(yīng)的視頻內(nèi)容;但是有些視頻的內(nèi)容經(jīng)過剪輯、拼接后,很難判斷其真實(shí)性,降低了視頻的參考價(jià)值。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明使用人工智能模型構(gòu)建用戶的人物畫像,并且為其匹配相應(yīng)的推送信息,對推送信息進(jìn)行進(jìn)一步的篩選,將原創(chuàng)信息推送給用戶,以解決背景技術(shù)中提出的問題。
2、本發(fā)明提供的技術(shù)方案為:基于人工智能的旅游服務(wù)信息推送方法,其特征在于,所述方法包括:
3、收集用戶信息,并基于收集到的用戶信息構(gòu)建用戶畫像;
4、獲取待推薦信息,從待推薦信息中提取關(guān)鍵特征,與用戶畫像進(jìn)行匹配,將與用戶畫像匹配的待推薦信息構(gòu)成原始信息庫;
5、篩選原始信息庫,將原始信息庫分為有效信息集和多個(gè)無效信息集,將有效信息集內(nèi)的待推薦信息,推送到用戶終端,并接收反饋;
6、所述待推薦信息包括視頻信息、文字信息和音頻信息中的一種或者多種,所述有效信息集包括原創(chuàng)視頻、原創(chuàng)文字和原創(chuàng)音頻中的一種或者多種,所述無效信息集包括非原創(chuàng)視頻、非原創(chuàng)文字、非原創(chuàng)音頻中的一種或者多種。
7、優(yōu)選的,所述收集用戶信息,并基于收集到的用戶信息構(gòu)建用戶畫像,包括:
8、通過api調(diào)用或爬蟲技術(shù)收集用戶的個(gè)人信息、瀏覽歷史數(shù)據(jù)和購買歷史數(shù)據(jù);
9、對收集到的個(gè)人信息、瀏覽歷史和購買歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和預(yù)處理,構(gòu)成原始用戶信息庫;
10、從原始用戶信息庫中提取用戶關(guān)鍵特征,構(gòu)成用戶關(guān)鍵特征集;具體為:
11、從瀏覽歷史數(shù)據(jù)中提取用戶瀏覽的文本數(shù)據(jù),使用tf-idf算法提取關(guān)鍵詞,以獲取用戶瀏覽偏好的關(guān)鍵特征;
12、利用apriori算法,從用戶瀏覽歷史數(shù)據(jù)中分析頻繁出現(xiàn)的景點(diǎn)關(guān)鍵詞,從而推測用戶的旅游景點(diǎn)偏好,以獲取用戶旅游景點(diǎn)偏好的關(guān)鍵特征;
13、將用戶瀏覽偏好的關(guān)鍵特征和用戶旅游景點(diǎn)偏好的關(guān)鍵特征組成用戶關(guān)鍵特征集;
14、使用機(jī)器學(xué)習(xí)算法對用戶關(guān)鍵特征進(jìn)行聚類分析,將用戶劃分為不同用戶群體,并為用戶構(gòu)建用戶畫像;
15、所述個(gè)人信息包括姓名、年齡、職業(yè),所述瀏覽歷史數(shù)據(jù)為用戶在旅游網(wǎng)站上的瀏覽行為,包括瀏覽時(shí)間、旅游地點(diǎn)、瀏覽時(shí)長;所述購買歷史為用戶在旅游網(wǎng)站上的購買記錄,包括旅游套餐信息、預(yù)定的機(jī)票信息。
16、優(yōu)選的,還包括構(gòu)建旅游偏好特征集,具體包括以下步驟:
17、提取瀏覽時(shí)間特征;
18、從瀏覽歷史提取用戶的歷史瀏覽時(shí)間戳;
19、使用pandas庫將瀏覽時(shí)間戳轉(zhuǎn)換為時(shí)間格式,提取小時(shí)、星期和月份特征,并分別轉(zhuǎn)換為整數(shù),將小時(shí)特征作為時(shí)間特征;
20、獲取多個(gè)時(shí)間特征的平均時(shí)間特征;其中:
21、,其中為瀏覽次數(shù);
22、提取旅游地點(diǎn)特征;
23、從瀏覽歷史數(shù)據(jù)中提取用戶的旅游地點(diǎn)的文本數(shù)據(jù);
24、通過獨(dú)熱編碼將旅游地點(diǎn)轉(zhuǎn)換為數(shù)值型特征,具體為:
25、通過詞袋模型或tf-idf將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型特征;
26、提取瀏覽時(shí)長特征:
27、從瀏覽歷史數(shù)據(jù)中提取瀏覽時(shí)長;
28、將瀏覽時(shí)長轉(zhuǎn)換為分鐘單位;
29、檢查異常值,并將異常值去除;所述異常值為瀏覽時(shí)長小于0或大于10000分鐘;
30、將瀏覽時(shí)間特征、旅游地點(diǎn)特征和平均時(shí)間特征組成旅游偏好特征集a。
31、優(yōu)選的,所述獲取待推薦信息,從待推薦信息中提取關(guān)鍵特征,包括:
32、使用爬蟲技術(shù)從網(wǎng)絡(luò)中獲取其他用戶分享的旅游視頻信息;
33、從旅游視頻中提取視頻關(guān)鍵特征,所述視頻關(guān)鍵特征包括:視頻主題、版權(quán)聲明、景點(diǎn)、拍攝時(shí)間;具體為:
34、通過預(yù)訓(xùn)練的yolov3模型循環(huán)讀取旅游視頻的視頻幀,檢測視頻中物體,通過預(yù)添加類別名稱映射,使yolov3模型輸出物體名稱;
35、使用ocr技術(shù)提取視頻中的文字,并將檢測到的文字生成文本格式數(shù)據(jù);
36、通過關(guān)鍵詞算法從文本格式數(shù)據(jù)中提取景點(diǎn)名稱、版權(quán)聲明、時(shí)間關(guān)鍵詞;
37、將提取到的關(guān)鍵詞構(gòu)成關(guān)鍵詞數(shù)據(jù)庫,并將關(guān)鍵詞數(shù)據(jù)庫發(fā)送到云端存儲(chǔ)。
38、優(yōu)選的,所述從待推薦信息中提取關(guān)鍵特征,與用戶畫像進(jìn)行匹配,將與用戶畫像匹配的待推薦信息構(gòu)成原始信息庫,包括:
39、使用tf-idf向量化關(guān)鍵詞和用戶關(guān)鍵特征;
40、通過pandas庫計(jì)算用戶關(guān)鍵特征向量與關(guān)鍵詞向量間的相似度,輸出相似度分?jǐn)?shù),并對相似度分?jǐn)?shù)進(jìn)行升序排列;
41、根據(jù)相似度分?jǐn)?shù)排序?qū)σ曨l進(jìn)行降序排序,選出前個(gè)旅游視頻,為每個(gè)旅游視頻提交相似度分?jǐn)?shù)標(biāo)簽,將選出的個(gè)旅游視頻構(gòu)成原始信息庫。
42、優(yōu)選的,所述篩選原始信息庫,將原始信息庫分為有效信息集和無效信息集,包括:
43、從原始信息庫中獲取旅游視頻信息;
44、通過滑動(dòng)窗口從旅游視頻中提取多個(gè)視頻幀;
45、將視頻幀輸入到訓(xùn)練好的cnn模型中,通過cnn模型將視頻幀與原創(chuàng)視頻庫中的圖像進(jìn)行比較,識(shí)別旅游視頻是否是原創(chuàng)視頻;
46、將識(shí)別為原創(chuàng)視頻的旅游視頻歸類為有效信息集;將非原創(chuàng)視頻的旅游視頻歸類為無效信息集。
47、優(yōu)選的,所述將視頻幀輸入到訓(xùn)練好的cnn模型中,通過cnn模型將視頻幀與原創(chuàng)視頻庫中的圖像進(jìn)行比較,識(shí)別旅游視頻是否是原創(chuàng)視頻,包括以下步驟:
48、使用tensorflow或pytorch構(gòu)建一個(gè)cnn模型;所述cnn模型包括多個(gè)卷積層、池化層和全連接層;
49、從原創(chuàng)視頻庫中獲取多個(gè)原創(chuàng)圖像數(shù)據(jù);
50、從網(wǎng)絡(luò)上獲取多個(gè)對應(yīng)的非原創(chuàng)視頻的圖像數(shù)據(jù);
51、將原創(chuàng)圖像數(shù)據(jù)進(jìn)而非原創(chuàng)視頻的圖像數(shù)據(jù)構(gòu)成圖像樣本集,并將圖像樣本集分為訓(xùn)練集和驗(yàn)證集;
52、使用訓(xùn)練集訓(xùn)練cnn模型,使用交叉熵?fù)p失函數(shù)和優(yōu)化器來最小化cnn模型的損失,cnn模型的輸出為圖像為原創(chuàng)視頻的概率值;
53、設(shè)定比較閾值,當(dāng)|-|≥0,則判斷是原創(chuàng)視頻;
54、將獲取到的多個(gè)視頻幀輸入到訓(xùn)練好的cnn模型內(nèi),判斷是否是原創(chuàng)視頻。
55、優(yōu)選的,所述將有效信息集內(nèi)的待推薦信息,推送到用戶終端,并接收反饋,包括:
56、將有效信息集內(nèi)的待推薦信息按照相似度分?jǐn)?shù)降序排列,構(gòu)成推薦信息序列;
57、設(shè)定推薦閾值、推送時(shí)間段(,)、推送時(shí)間間隔,,表示推送起始時(shí)間點(diǎn),表示推送結(jié)束時(shí)間點(diǎn);
58、選擇個(gè)相似度分?jǐn)?shù)大于的待推薦信息,當(dāng)推送起始時(shí)間大于時(shí),將待推薦信息送給用戶,并接收反饋信息,將接收到反饋信息發(fā)送到云端存儲(chǔ);其中,其中,,為時(shí)間參數(shù),;如果,,則將第個(gè)視頻信息,返回到有效信息集中,插入推薦信息序列的首位,保證在下次優(yōu)先推薦。
59、本發(fā)明還提供基于人工智能的旅游服務(wù)信息推送系統(tǒng),所述系統(tǒng)用于執(zhí)行所述的基于人工智能的旅游服務(wù)信息推送方法。
60、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行以實(shí)現(xiàn)所述的基于人工智能的旅游服務(wù)信息推送方法。
61、本發(fā)明的有益效果:
62、1、本發(fā)明中,對收集到的個(gè)人信息、瀏覽歷史和購買歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和預(yù)處理,構(gòu)成原始用戶信息庫;從原始信息庫中提取旅游視頻信息;利用滑動(dòng)窗口從旅游視頻中提取多個(gè)視頻幀;將視頻幀導(dǎo)入到訓(xùn)練好的cnn模型中,利用cnn模型將視頻幀與原創(chuàng)視頻庫中的圖像進(jìn)行比較,識(shí)別旅游視頻是否為原創(chuàng)視頻;將識(shí)別為原創(chuàng)的旅游視頻劃分為有效信息集;將非原創(chuàng)的旅游視頻劃分為無效信息集,在信息推送時(shí),只篩選有效信息集內(nèi)的視頻數(shù)據(jù),保質(zhì)推送視頻的參考價(jià)值。
63、2、本發(fā)明,將有效信息集內(nèi)的待推薦信息按照相似度分?jǐn)?shù)降序排列,構(gòu)成推薦信息序列;以確定優(yōu)先推送哪些信息;設(shè)定推薦閾值、推送時(shí)間段(,)、推送時(shí)間間隔,,設(shè)定合理的推送間隔,避免頻繁打擾用戶,過于頻繁的推送可能會(huì)導(dǎo)致用戶感到煩惱,從而減少對平臺(tái)的使用;分析用戶過去的瀏覽數(shù)據(jù)確定其活躍時(shí)間段,這些時(shí)段內(nèi)推送信息,以提高用戶的關(guān)注度和接受度。