愛鋒貝

 找回密碼
 立即注冊

只需一步,快速開始

扫一扫,极速登录

查看: 1923|回復(fù): 20
打印 上一主題 下一主題
收起左側(cè)

使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)(攜程、馬蜂窩、美團(tuán) ...

[復(fù)制鏈接]

1516

主題

1620

帖子

6391

積分

Rank: 8Rank: 8

跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2022-1-1 13:03:36 | 只看該作者 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式

一鍵注冊,加入手機(jī)圈

您需要 登錄 才可以下載或查看,沒有帳號?立即注冊   

x
原文地址:使用后羿采集器采集旅游景點(diǎn)評價(jià)數(shù)據(jù)

由于目前寫論文需要爬些旅游景點(diǎn)的數(shù)據(jù)做數(shù)據(jù)分析,因此探索了一番評價(jià)數(shù)據(jù)的采集,此處打算把整個(gè)過程記錄下來。過去我爬取數(shù)據(jù)的思路都是各種F12然后找http請求,解析數(shù)據(jù)各種操作,不過發(fā)現(xiàn)這個(gè)方法用在這里并不太適用,單個(gè)平臺的反爬就已經(jīng)很麻煩了,何況是攜程、馬蜂窩、美團(tuán)、大眾點(diǎn)評整整四個(gè)平臺,估計(jì)等我搞定了,黃花菜也涼了。不過由于之前聽過一些自動采集的軟件,好像挺強(qiáng)大,于是隨便下載了個(gè)后羿采集器來準(zhǔn)備試試,沒想到,這玩意確實(shí)好用,沒過多久,就把四個(gè)平臺的數(shù)據(jù)都爬取下來了。由于我用得不深,不過爬取的數(shù)據(jù)效果還可以,話不多說,先上效果圖吧:

攜程采集結(jié)果:


馬蜂窩采集結(jié)果:



當(dāng)然,有些平臺的數(shù)據(jù)也不夠完整,或存在些問題,我會在最后面注明。

先來介紹下后羿采集器吧:(先注明下,并不是說這個(gè)采集器就一定是最好的,其他的比如火車頭采集器等估計(jì)也可以實(shí)現(xiàn),只是我用了這個(gè),覺得用起來比較簡單,也能完成采集任務(wù))

后羿采集器

后羿采集器是由前谷歌搜索技術(shù)團(tuán)隊(duì)基于人工智能技術(shù)研發(fā)的新一代網(wǎng)頁采集軟件。具有以下特點(diǎn);

  • 自動化采集
  • 支持對數(shù)據(jù)進(jìn)行清洗、過濾等
  • 同時(shí)支持Windows、Mac和Linux全操作系統(tǒng)
  • 支持智能采集以及流程圖采集兩種模式,90%多的網(wǎng)頁數(shù)據(jù)都可采集到
  • 免費(fèi)(當(dāng)然,更強(qiáng)大的功能是收費(fèi)的,不過普通的采集任務(wù)的話免費(fèi)版就可以搞定了)


官網(wǎng)下載地址:后羿采集器_真免費(fèi)!導(dǎo)出無限制網(wǎng)絡(luò)爬蟲軟件_人工智能數(shù)據(jù)采集軟件

文檔中心:數(shù)據(jù)采集教程_新手入門_新手入門必看_后羿采集器

具體下載安裝步驟參考文檔即可。

下面就一一介紹各個(gè)平臺的旅游評價(jià)數(shù)據(jù)采集過程。

攜程


  • 找到需要采集的網(wǎng)頁
以`清江畫廊` 這個(gè)景點(diǎn)為例,在攜程官網(wǎng)首頁搜索后便出現(xiàn)了關(guān)于該景點(diǎn)的詳細(xì)介紹,往下拉后可看到最后一個(gè)面板為`用戶點(diǎn)評`,就出現(xiàn)了我們需要的評價(jià)數(shù)據(jù),以分頁的列表展示,每頁10條,有238頁,總的數(shù)據(jù)條數(shù)是2373。

復(fù)制該頁面的地址:
```
德天瀑布門票,德天瀑布門票價(jià)格,德天瀑布門票團(tuán)購【攜程門票】
```



2. 配置規(guī)則
打開后羿采集器,首頁輸入上一步中找到的頁面地址,點(diǎn)擊`智能采集`,智能采集的意思是采集器會識別你輸入的網(wǎng)頁結(jié)構(gòu),并找到列表數(shù)據(jù),并自動進(jìn)行翻頁,直到采集到最后一頁數(shù)據(jù)為止。



然后進(jìn)入采集界面,采集器會自動在軟件中打開你輸入的網(wǎng)頁,并識別網(wǎng)頁結(jié)構(gòu),找到數(shù)據(jù)列表。這需要一些時(shí)間,耐心等待即可。

不過一開始識別出來后可能是這樣的:



似乎不是我們需要的評價(jià)數(shù)據(jù)啊, 證明自動識別的列表并不是我們想要的,那怎么辦呢?
可以這樣解決:

  • 點(diǎn)擊識別結(jié)果列表上面的`頁面類型`下拉框
  • `列表類型`修改為`手動點(diǎn)選列表`,然后鼠標(biāo)變成了一只可以點(diǎn)擊上方頁面的筆,用鼠標(biāo)分別點(diǎn)擊評論數(shù)據(jù)中第一條的評價(jià)內(nèi)容,以及下方的用戶名和時(shí)間,點(diǎn)擊后就下面的結(jié)果列表中的數(shù)據(jù)就會變成我們需要的評價(jià)數(shù)據(jù)啦。如果還需要增加字段,點(diǎn)擊工具類最后的`添加字段`,選擇你需要增加的字段即可。



3. 開始采集任務(wù)
到此,我們配置好了需要采集的頁面以及數(shù)據(jù)列表,并且可以在頁面下方預(yù)覽前10條數(shù)據(jù),確認(rèn)無誤后,點(diǎn)擊`開始采集即可`啟動采集任務(wù)。此處可以配置各種選項(xiàng),比如定時(shí)采集,加速、防屏蔽、啟用代理等功能,自己按需配置,攜程這個(gè)不需要任何配置也能采集到數(shù)據(jù)的。點(diǎn)擊開始后,就進(jìn)入了采集頁面


最后面自動采集完成后,會提示采集完成,將數(shù)據(jù)導(dǎo)出到本地即可。

由于后續(xù)其他平臺操作類似,故只會說明下需要注意的地方。

馬蜂窩

馬蜂窩頁面顯示的數(shù)據(jù)其實(shí)是不完整的,如下圖所示:


每頁是15條,總的只能看到5頁,總的75條,但其實(shí)總的是333條,因此,不管顯示多少評論,采集的結(jié)果最終只是75條。

美團(tuán)

和攜程差不多,頁面列表可以自動識別。

大眾點(diǎn)評

大眾點(diǎn)評稍微有點(diǎn)特殊,查看評價(jià)時(shí)候可以看到,需要登錄后才能看到所有的評價(jià)。



因此,在后羿采集器中需要解決的一個(gè)問題就是登錄后才能拿到數(shù)據(jù),那具體應(yīng)該怎么操作呢?

在采集頁面上面,有個(gè)預(yù)登陸功能



在彈出的頁面上,進(jìn)行登錄后,點(diǎn)擊`登錄完成`,即可。
不過需要注意的是每頁數(shù)據(jù)的url都是不同的,比如:首頁`http://www.dianping.com/shop/3328354/review_all`,第二頁:        `http://www.dianping.com/shop/3328354/review_all/p2`,那這種url怎么辦呢?

可以看到,各個(gè)頁面的前綴都是一樣的,只是最后p2,p3數(shù)字不同而已,采集器提供了一種針對這種有規(guī)律的url生成器,詳見下圖,在參數(shù)那里填入開始的頁面和結(jié)束的頁面數(shù)字即可生成,復(fù)制網(wǎng)址預(yù)覽中的url到`手動輸入`欄中,并進(jìn)行一定的修改即可。



總結(jié)

其實(shí)從過程來說,還是挺簡單的,只是可能一些配置規(guī)則、預(yù)登陸這種得多弄幾次才會熟悉。大多數(shù)只要能在網(wǎng)頁上看到的數(shù)據(jù),都是可以通過采集器采集到的,當(dāng)然,還有很多高級復(fù)雜的東西此處并沒有涉及到,后續(xù)遇到的話再去研究研究。

存在問題

由于采集器以及各個(gè)平臺的差異性,采集到的數(shù)據(jù)難免存在些問題,這里僅記錄我觀察到的比較明顯的問題:


  • 馬蜂窩的數(shù)據(jù)不管評價(jià)數(shù)量多少,最終采集到的最多75條(網(wǎng)頁上也只顯示這么多)
  • 美團(tuán)上采集到的評價(jià)內(nèi)容有些是空的,不知道啥問題,目前還沒搞清楚
  • 大眾點(diǎn)評的評價(jià)數(shù)據(jù)有些是需要手動點(diǎn)擊`展開評論`才能看到完整內(nèi)容的,因此采集結(jié)果有些并不完整。
  • 目前來看,攜程的評論數(shù)據(jù)是比較完整的。


我的網(wǎng)站提供了一系列POI數(shù)據(jù)爬取、人流量爬取、數(shù)據(jù)可視化、以及地圖在線工具等功能,歡迎使用哦,地址:[BLT-LEAD 一個(gè)專注于分享與地圖數(shù)據(jù)相關(guān)的爬取、可視化、應(yīng)用工具與知識的網(wǎng)站_](BLT-LEAD 一個(gè)專注于分享與地圖數(shù)據(jù)相關(guān)的爬取、可視化、應(yīng)用工具與知識的網(wǎng)站_)

-----------------------------
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

46

帖子

3

積分

Rank: 1

沙發(fā)
發(fā)表于 2022-1-1 14:29:31 | 只看該作者
我有更好的采集軟件
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

50

帖子

3

積分

Rank: 1

板凳
發(fā)表于 2022-1-1 16:17:42 | 只看該作者
你好可以分享一下嗎,
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

42

帖子

2

積分

Rank: 1

地板
發(fā)表于 2022-1-1 17:50:09 | 只看該作者
私聊
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

43

帖子

6

積分

Rank: 1

5
發(fā)表于 2022-1-1 18:56:28 | 只看該作者
什么軟件呢,分享下啊
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

49

帖子

3

積分

Rank: 1

6
發(fā)表于 2022-1-1 20:09:07 | 只看該作者
分享下啊
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

45

帖子

6

積分

Rank: 1

7
發(fā)表于 2022-1-1 21:52:13 | 只看該作者
想請教一下 后羿采集器怎么采集到美團(tuán)上的評論分?jǐn)?shù)
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

40

帖子

3

積分

Rank: 1

8
發(fā)表于 2022-1-1 23:35:57 | 只看該作者
先謝謝!被八爪魚折磨了兩天的小白去試試后羿。希望能得到我想要的數(shù)據(jù)嗚嗚嗚
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

53

帖子

12

積分

Rank: 1

9
發(fā)表于 2022-1-2 01:24:26 | 只看該作者
哈哈,我寫的是親測可用的
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

46

帖子

2

積分

Rank: 1

10
發(fā)表于 2022-1-2 02:25:41 | 只看該作者
請問“展開評論”怎么處理呢?謝謝!怎么感覺這個(gè)采集器好慢呀~這是正?,F(xiàn)象嗎
精選高品質(zhì)二手iPhone,上愛鋒貝APP
您需要登錄后才可以回帖 登錄 | 立即注冊   

本版積分規(guī)則

QQ|Archiver|手機(jī)版|小黑屋|愛鋒貝 ( 粵ICP備16041312號-5 )

GMT+8, 2025-1-13 02:29

Powered by Discuz! X3.4

© 2001-2013 Discuz Team. 技術(shù)支持 by 巔峰設(shè)計(jì).

快速回復(fù) 返回頂部 返回列表