愛鋒貝
標(biāo)題:
使用后羿采集器采集旅游景點(diǎn)評價數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...
[打印本頁]
作者:
妖貝聊科技
時間:
2022-1-1 13:03
標(biāo)題:
使用后羿采集器采集旅游景點(diǎn)評價數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...
原文地址:使用后羿采集器采集旅游景點(diǎn)評價數(shù)據(jù)
由于目前寫論文需要爬些旅游景點(diǎn)的數(shù)據(jù)做數(shù)據(jù)分析,因此探索了一番評價數(shù)據(jù)的采集,此處打算把整個過程記錄下來。過去我爬取數(shù)據(jù)的思路都是各種F12然后找http請求,解析數(shù)據(jù)各種操作,不過發(fā)現(xiàn)這個方法用在這里并不太適用,單個平臺的反爬就已經(jīng)很麻煩了,何況是攜程、馬蜂窩、美團(tuán)、大眾點(diǎn)評整整四個平臺,估計等我搞定了,黃花菜也涼了。不過由于之前聽過一些自動采集的軟件,好像挺強(qiáng)大,于是隨便下載了個后羿采集器來準(zhǔn)備試試,沒想到,這玩意確實好用,沒過多久,就把四個平臺的數(shù)據(jù)都爬取下來了。由于我用得不深,不過爬取的數(shù)據(jù)效果還可以,話不多說,先上效果圖吧:
攜程采集結(jié)果:
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
馬蜂窩采集結(jié)果:
(, 下載次數(shù): 4)
上傳
點(diǎn)擊文件名下載附件
當(dāng)然,有些平臺的數(shù)據(jù)也不夠完整,或存在些問題,我會在最后面注明。
先來介紹下后羿采集器吧:(先注明下,并不是說這個采集器就一定是最好的,其他的比如火車頭采集器等估計也可以實現(xiàn),只是我用了這個,覺得用起來比較簡單,也能完成采集任務(wù))
后羿采集器
后羿采集器是由前谷歌搜索技術(shù)團(tuán)隊基于人工智能技術(shù)研發(fā)的新一代網(wǎng)頁采集軟件。具有以下特點(diǎn);
自動化采集
支持對數(shù)據(jù)進(jìn)行清洗、過濾等
同時支持Windows、Mac和Linux全操作系統(tǒng)
支持智能采集以及流程圖采集兩種模式,90%多的網(wǎng)頁數(shù)據(jù)都可采集到
免費(fèi)(當(dāng)然,更強(qiáng)大的功能是收費(fèi)的,不過普通的采集任務(wù)的話免費(fèi)版就可以搞定了)
官網(wǎng)下載地址:后羿采集器_真免費(fèi)!導(dǎo)出無限制網(wǎng)絡(luò)爬蟲軟件_人工智能數(shù)據(jù)采集軟件
文檔中心:數(shù)據(jù)采集教程_新手入門_新手入門必看_后羿采集器
具體下載安裝步驟參考文檔即可。
下面就一一介紹各個平臺的旅游評價數(shù)據(jù)采集過程。
攜程
找到需要采集的網(wǎng)頁
以`清江畫廊` 這個景點(diǎn)為例,在攜程官網(wǎng)首頁搜索后便出現(xiàn)了關(guān)于該景點(diǎn)的詳細(xì)介紹,往下拉后可看到最后一個面板為`用戶點(diǎn)評`,就出現(xiàn)了我們需要的評價數(shù)據(jù),以分頁的列表展示,每頁10條,有238頁,總的數(shù)據(jù)條數(shù)是2373。
復(fù)制該頁面的地址:
```
德天瀑布門票,德天瀑布門票價格,德天瀑布門票團(tuán)購【攜程門票】
```
(, 下載次數(shù): 4)
上傳
點(diǎn)擊文件名下載附件
2. 配置規(guī)則
打開后羿采集器,首頁輸入上一步中找到的頁面地址,點(diǎn)擊`智能采集`,智能采集的意思是采集器會識別你輸入的網(wǎng)頁結(jié)構(gòu),并找到列表數(shù)據(jù),并自動進(jìn)行翻頁,直到采集到最后一頁數(shù)據(jù)為止。
(, 下載次數(shù): 4)
上傳
點(diǎn)擊文件名下載附件
然后進(jìn)入采集界面,采集器會自動在軟件中打開你輸入的網(wǎng)頁,并識別網(wǎng)頁結(jié)構(gòu),找到數(shù)據(jù)列表。這需要一些時間,耐心等待即可。
不過一開始識別出來后可能是這樣的:
(, 下載次數(shù): 3)
上傳
點(diǎn)擊文件名下載附件
似乎不是我們需要的評價數(shù)據(jù)啊, 證明自動識別的列表并不是我們想要的,那怎么辦呢?
可以這樣解決:
點(diǎn)擊識別結(jié)果列表上面的`頁面類型`下拉框
`列表類型`修改為`手動點(diǎn)選列表`,然后鼠標(biāo)變成了一只可以點(diǎn)擊上方頁面的筆,用鼠標(biāo)分別點(diǎn)擊評論數(shù)據(jù)中第一條的評價內(nèi)容,以及下方的用戶名和時間,點(diǎn)擊后就下面的結(jié)果列表中的數(shù)據(jù)就會變成我們需要的評價數(shù)據(jù)啦。如果還需要增加字段,點(diǎn)擊工具類最后的`添加字段`,選擇你需要增加的字段即可。
(, 下載次數(shù): 5)
上傳
點(diǎn)擊文件名下載附件
3. 開始采集任務(wù)
到此,我們配置好了需要采集的頁面以及數(shù)據(jù)列表,并且可以在頁面下方預(yù)覽前10條數(shù)據(jù),確認(rèn)無誤后,點(diǎn)擊`開始采集即可`啟動采集任務(wù)。此處可以配置各種選項,比如定時采集,加速、防屏蔽、啟用代理等功能,自己按需配置,攜程這個不需要任何配置也能采集到數(shù)據(jù)的。點(diǎn)擊開始后,就進(jìn)入了采集頁面
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
最后面自動采集完成后,會提示采集完成,將數(shù)據(jù)導(dǎo)出到本地即可。
由于后續(xù)其他平臺操作類似,故只會說明下需要注意的地方。
馬蜂窩
馬蜂窩頁面顯示的數(shù)據(jù)其實是不完整的,如下圖所示:
(, 下載次數(shù): 4)
上傳
點(diǎn)擊文件名下載附件
每頁是15條,總的只能看到5頁,總的75條,但其實總的是333條,因此,不管顯示多少評論,采集的結(jié)果最終只是75條。
美團(tuán)
和攜程差不多,頁面列表可以自動識別。
大眾點(diǎn)評
大眾點(diǎn)評稍微有點(diǎn)特殊,查看評價時候可以看到,需要登錄后才能看到所有的評價。
(, 下載次數(shù): 2)
上傳
點(diǎn)擊文件名下載附件
因此,在后羿采集器中需要解決的一個問題就是登錄后才能拿到數(shù)據(jù),那具體應(yīng)該怎么操作呢?
在采集頁面上面,有個預(yù)登陸功能
(, 下載次數(shù): 5)
上傳
點(diǎn)擊文件名下載附件
在彈出的頁面上,進(jìn)行登錄后,點(diǎn)擊`登錄完成`,即可。
不過需要注意的是每頁數(shù)據(jù)的url都是不同的,比如:首頁`http://www.dianping.com/shop/3328354/review_all`,第二頁: `http://www.dianping.com/shop/3328354/review_all/p2`,那這種url怎么辦呢?
可以看到,各個頁面的前綴都是一樣的,只是最后p2,p3數(shù)字不同而已,采集器提供了一種針對這種有規(guī)律的url生成器,詳見下圖,在參數(shù)那里填入開始的頁面和結(jié)束的頁面數(shù)字即可生成,復(fù)制網(wǎng)址預(yù)覽中的url到`手動輸入`欄中,并進(jìn)行一定的修改即可。
(, 下載次數(shù): 6)
上傳
點(diǎn)擊文件名下載附件
總結(jié)
其實從過程來說,還是挺簡單的,只是可能一些配置規(guī)則、預(yù)登陸這種得多弄幾次才會熟悉。大多數(shù)只要能在網(wǎng)頁上看到的數(shù)據(jù),都是可以通過采集器采集到的,當(dāng)然,還有很多高級復(fù)雜的東西此處并沒有涉及到,后續(xù)遇到的話再去研究研究。
存在問題
由于采集器以及各個平臺的差異性,采集到的數(shù)據(jù)難免存在些問題,這里僅記錄我觀察到的比較明顯的問題:
馬蜂窩的數(shù)據(jù)不管評價數(shù)量多少,最終采集到的最多75條(網(wǎng)頁上也只顯示這么多)
美團(tuán)上采集到的評價內(nèi)容有些是空的,不知道啥問題,目前還沒搞清楚
大眾點(diǎn)評的評價數(shù)據(jù)有些是需要手動點(diǎn)擊`展開評論`才能看到完整內(nèi)容的,因此采集結(jié)果有些并不完整。
目前來看,攜程的評論數(shù)據(jù)是比較完整的。
我的網(wǎng)站提供了一系列POI數(shù)據(jù)爬取、人流量爬取、數(shù)據(jù)可視化、以及地圖在線工具等功能,歡迎使用哦,地址:[BLT-LEAD 一個專注于分享與地圖數(shù)據(jù)相關(guān)的爬取、可視化、應(yīng)用工具與知識的網(wǎng)站_](BLT-LEAD 一個專注于分享與地圖數(shù)據(jù)相關(guān)的爬取、可視化、應(yīng)用工具與知識的網(wǎng)站_)
-----------------------------
作者:
落葉84
時間:
2022-1-1 14:29
我有更好的采集軟件
作者:
霞兒
時間:
2022-1-1 16:17
你好可以分享一下嗎,
作者:
愛你如初
時間:
2022-1-1 17:50
私聊
作者:
幸福雨露
時間:
2022-1-1 18:56
什么軟件呢,分享下啊
作者:
余溫
時間:
2022-1-1 20:09
分享下啊
作者:
余孤
時間:
2022-1-1 21:52
想請教一下 后羿采集器怎么采集到美團(tuán)上的評論分?jǐn)?shù)
作者:
翔勻
時間:
2022-1-1 23:35
先謝謝!被八爪魚折磨了兩天的小白去試試后羿。希望能得到我想要的數(shù)據(jù)嗚嗚嗚
作者:
熊貓
時間:
2022-1-2 01:24
哈哈,我寫的是親測可用的
作者:
能力有限
時間:
2022-1-2 02:25
請問“展開評論”怎么處理呢?謝謝!怎么感覺這個采集器好慢呀~這是正?,F(xiàn)象嗎
作者:
Wjjyb4
時間:
2022-1-2 04:05
不慢吧。展開評論這個需要自己設(shè)置另一種模式
作者:
帥哥哥
時間:
2022-1-2 05:22
還有嗎
作者:
采夢
時間:
2022-1-2 06:45
你好我想請問馬蜂窩具體哪個時間前的評論可以采集到嗎[捂臉]
作者:
下一站
時間:
2022-1-2 08:29
請問這個軟件可以采集游記嗎?大篇文章那種[捂臉]
作者:
一個人的世界
時間:
2022-1-2 09:58
你好,為什么我采集攜程的景點(diǎn)評論的時候只有300條,遠(yuǎn)遠(yuǎn)少于網(wǎng)站上的評論
作者:
飛翔4
時間:
2022-1-2 11:07
想問一下展開評論怎么弄[捂臉]
作者:
育73
時間:
2022-1-2 12:21
可以分享嗎
作者:
雪兒寶寶
時間:
2022-1-2 13:54
請教一下后羿采集器可以采集app上的評價嗎?
作者:
傳晟原單名品
時間:
2022-1-2 14:54
你好,可以私聊下咋做的嘛[笑哭],我還是不太會
作者:
黑蝙蝠,
時間:
2022-1-2 16:53
想問樓主我采的攜程,每頁只有8條,漏了很多,這是為什么?
作者:
天使
時間:
2022-1-2 18:27
可以分享嗎
歡迎光臨 愛鋒貝 (http://7gfy2te7.cn/)
Powered by Discuz! X3.4