|
一鍵注冊,加入手機(jī)圈
您需要 登錄 才可以下載或查看,沒有帳號?立即注冊
x
原文地址:使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)
由于目前寫論文需要爬些旅游景點(diǎn)的數(shù)據(jù)做數(shù)據(jù)分析,因此探索了一番評價(jià)數(shù)據(jù)的采集,此處打算把整個(gè)過程記錄下來。過去我爬取數(shù)據(jù)的思路都是各種F12然后找http請求,解析數(shù)據(jù)各種操作,不過發(fā)現(xiàn)這個(gè)方法用在這里并不太適用,單個(gè)平臺的反爬就已經(jīng)很麻煩了,何況是攜程、馬蜂窩、美團(tuán)、大眾點(diǎn)評整整四個(gè)平臺,估計(jì)等我搞定了,黃花菜也涼了。不過由于之前聽過一些自動采集的軟件,好像挺強(qiáng)大,于是隨便下載了個(gè)后羿采集器來準(zhǔn)備試試,沒想到,這玩意確實(shí)好用,沒過多久,就把四個(gè)平臺的數(shù)據(jù)都爬取下來了。由于我用得不深,不過爬取的數(shù)據(jù)效果還可以,話不多說,先上效果圖吧:
攜程采集結(jié)果:
使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...-1.jpg (660.74 KB, 下載次數(shù): 5)
下載附件
2022-1-3 23:54 上傳
馬蜂窩采集結(jié)果:
使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...-2.jpg (872.96 KB, 下載次數(shù): 4)
下載附件
2022-1-3 23:54 上傳
當(dāng)然,有些平臺的數(shù)據(jù)也不夠完整,或存在些問題,我會在最后面注明。
先來介紹下后羿采集器吧:(先注明下,并不是說這個(gè)采集器就一定是最好的,其他的比如火車頭采集器等估計(jì)也可以實(shí)現(xiàn),只是我用了這個(gè),覺得用起來比較簡單,也能完成采集任務(wù))
后羿采集器
后羿采集器是由前谷歌搜索技術(shù)團(tuán)隊(duì)基于人工智能技術(shù)研發(fā)的新一代網(wǎng)頁采集軟件。具有以下特點(diǎn);
- 自動化采集
- 支持對數(shù)據(jù)進(jìn)行清洗、過濾等
- 同時(shí)支持Windows、Mac和Linux全操作系統(tǒng)
- 支持智能采集以及流程圖采集兩種模式,90%多的網(wǎng)頁數(shù)據(jù)都可采集到
- 免費(fèi)(當(dāng)然,更強(qiáng)大的功能是收費(fèi)的,不過普通的采集任務(wù)的話免費(fèi)版就可以搞定了)
官網(wǎng)下載地址:后羿采集器_真免費(fèi)!導(dǎo)出無限制網(wǎng)絡(luò)爬蟲軟件_人工智能數(shù)據(jù)采集軟件
文檔中心:數(shù)據(jù)采集教程_新手入門_新手入門必看_后羿采集器
具體下載安裝步驟參考文檔即可。
下面就一一介紹各個(gè)平臺的旅游評價(jià)數(shù)據(jù)采集過程。
攜程
以`清江畫廊` 這個(gè)景點(diǎn)為例,在攜程官網(wǎng)首頁搜索后便出現(xiàn)了關(guān)于該景點(diǎn)的詳細(xì)介紹,往下拉后可看到最后一個(gè)面板為`用戶點(diǎn)評`,就出現(xiàn)了我們需要的評價(jià)數(shù)據(jù),以分頁的列表展示,每頁10條,有238頁,總的數(shù)據(jù)條數(shù)是2373。
復(fù)制該頁面的地址:
```
德天瀑布門票,德天瀑布門票價(jià)格,德天瀑布門票團(tuán)購【攜程門票】
```
使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...-3.jpg (199.24 KB, 下載次數(shù): 4)
下載附件
2022-1-3 23:54 上傳
2. 配置規(guī)則
打開后羿采集器,首頁輸入上一步中找到的頁面地址,點(diǎn)擊`智能采集`,智能采集的意思是采集器會識別你輸入的網(wǎng)頁結(jié)構(gòu),并找到列表數(shù)據(jù),并自動進(jìn)行翻頁,直到采集到最后一頁數(shù)據(jù)為止。
使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...-4.jpg (146.42 KB, 下載次數(shù): 4)
下載附件
2022-1-3 23:54 上傳
然后進(jìn)入采集界面,采集器會自動在軟件中打開你輸入的網(wǎng)頁,并識別網(wǎng)頁結(jié)構(gòu),找到數(shù)據(jù)列表。這需要一些時(shí)間,耐心等待即可。
不過一開始識別出來后可能是這樣的:
使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...-5.jpg (231.67 KB, 下載次數(shù): 2)
下載附件
2022-1-3 23:54 上傳
似乎不是我們需要的評價(jià)數(shù)據(jù)啊, 證明自動識別的列表并不是我們想要的,那怎么辦呢?
可以這樣解決:
- 點(diǎn)擊識別結(jié)果列表上面的`頁面類型`下拉框
- `列表類型`修改為`手動點(diǎn)選列表`,然后鼠標(biāo)變成了一只可以點(diǎn)擊上方頁面的筆,用鼠標(biāo)分別點(diǎn)擊評論數(shù)據(jù)中第一條的評價(jià)內(nèi)容,以及下方的用戶名和時(shí)間,點(diǎn)擊后就下面的結(jié)果列表中的數(shù)據(jù)就會變成我們需要的評價(jià)數(shù)據(jù)啦。如果還需要增加字段,點(diǎn)擊工具類最后的`添加字段`,選擇你需要增加的字段即可。
使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...-6.jpg (282.68 KB, 下載次數(shù): 4)
下載附件
2022-1-3 23:54 上傳
3. 開始采集任務(wù)
到此,我們配置好了需要采集的頁面以及數(shù)據(jù)列表,并且可以在頁面下方預(yù)覽前10條數(shù)據(jù),確認(rèn)無誤后,點(diǎn)擊`開始采集即可`啟動采集任務(wù)。此處可以配置各種選項(xiàng),比如定時(shí)采集,加速、防屏蔽、啟用代理等功能,自己按需配置,攜程這個(gè)不需要任何配置也能采集到數(shù)據(jù)的。點(diǎn)擊開始后,就進(jìn)入了采集頁面
使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...-7.jpg (142.9 KB, 下載次數(shù): 6)
下載附件
2022-1-3 23:54 上傳
最后面自動采集完成后,會提示采集完成,將數(shù)據(jù)導(dǎo)出到本地即可。
由于后續(xù)其他平臺操作類似,故只會說明下需要注意的地方。
馬蜂窩
馬蜂窩頁面顯示的數(shù)據(jù)其實(shí)是不完整的,如下圖所示:
使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...-8.jpg (79.29 KB, 下載次數(shù): 4)
下載附件
2022-1-3 23:54 上傳
每頁是15條,總的只能看到5頁,總的75條,但其實(shí)總的是333條,因此,不管顯示多少評論,采集的結(jié)果最終只是75條。
美團(tuán)
和攜程差不多,頁面列表可以自動識別。
大眾點(diǎn)評
大眾點(diǎn)評稍微有點(diǎn)特殊,查看評價(jià)時(shí)候可以看到,需要登錄后才能看到所有的評價(jià)。
使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...-9.jpg (255.99 KB, 下載次數(shù): 2)
下載附件
2022-1-3 23:54 上傳
因此,在后羿采集器中需要解決的一個(gè)問題就是登錄后才能拿到數(shù)據(jù),那具體應(yīng)該怎么操作呢?
在采集頁面上面,有個(gè)預(yù)登陸功能
使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...-10.jpg (443.91 KB, 下載次數(shù): 5)
下載附件
2022-1-3 23:54 上傳
在彈出的頁面上,進(jìn)行登錄后,點(diǎn)擊`登錄完成`,即可。
不過需要注意的是每頁數(shù)據(jù)的url都是不同的,比如:首頁`http://www.dianping.com/shop/3328354/review_all`,第二頁: `http://www.dianping.com/shop/3328354/review_all/p2`,那這種url怎么辦呢?
可以看到,各個(gè)頁面的前綴都是一樣的,只是最后p2,p3數(shù)字不同而已,采集器提供了一種針對這種有規(guī)律的url生成器,詳見下圖,在參數(shù)那里填入開始的頁面和結(jié)束的頁面數(shù)字即可生成,復(fù)制網(wǎng)址預(yù)覽中的url到`手動輸入`欄中,并進(jìn)行一定的修改即可。
使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...-11.jpg (287.64 KB, 下載次數(shù): 5)
下載附件
2022-1-3 23:54 上傳
總結(jié)
其實(shí)從過程來說,還是挺簡單的,只是可能一些配置規(guī)則、預(yù)登陸這種得多弄幾次才會熟悉。大多數(shù)只要能在網(wǎng)頁上看到的數(shù)據(jù),都是可以通過采集器采集到的,當(dāng)然,還有很多高級復(fù)雜的東西此處并沒有涉及到,后續(xù)遇到的話再去研究研究。
存在問題
由于采集器以及各個(gè)平臺的差異性,采集到的數(shù)據(jù)難免存在些問題,這里僅記錄我觀察到的比較明顯的問題:
- 馬蜂窩的數(shù)據(jù)不管評價(jià)數(shù)量多少,最終采集到的最多75條(網(wǎng)頁上也只顯示這么多)
- 美團(tuán)上采集到的評價(jià)內(nèi)容有些是空的,不知道啥問題,目前還沒搞清楚
- 大眾點(diǎn)評的評價(jià)數(shù)據(jù)有些是需要手動點(diǎn)擊`展開評論`才能看到完整內(nèi)容的,因此采集結(jié)果有些并不完整。
- 目前來看,攜程的評論數(shù)據(jù)是比較完整的。
我的網(wǎng)站提供了一系列POI數(shù)據(jù)爬取、人流量爬取、數(shù)據(jù)可視化、以及地圖在線工具等功能,歡迎使用哦,地址:[BLT-LEAD 一個(gè)專注于分享與地圖數(shù)據(jù)相關(guān)的爬取、可視化、應(yīng)用工具與知識的網(wǎng)站_](BLT-LEAD 一個(gè)專注于分享與地圖數(shù)據(jù)相關(guān)的爬取、可視化、應(yīng)用工具與知識的網(wǎng)站_)
----------------------------- |
|