愛鋒貝

 找回密碼
 立即注冊(cè)

只需一步,快速開始

扫一扫,极速登录

打印 上一主題 下一主題
收起左側(cè)

大家都是在哪些網(wǎng)站找數(shù)據(jù)?

[復(fù)制鏈接]

0

主題

50

帖子

-2

積分

11
發(fā)表于 2021-12-13 04:54:09 | 只看該作者
對(duì)于做數(shù)據(jù)分析師或者從事數(shù)據(jù)職業(yè)的人員來說,工作需要的技能應(yīng)用和數(shù)據(jù)網(wǎng)站都是不可缺少的,這次課的內(nèi)容就是關(guān)于他們的介紹啦。這次課學(xué)完,你再也不用擔(dān)心不能處理工作中無法協(xié)同工作的工具以及需要的數(shù)據(jù)資源等相關(guān)材料啦。
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

50

帖子

2

積分

Rank: 1

12
發(fā)表于 2021-12-13 05:52:22 | 只看該作者
想要分析的時(shí)候,沒有數(shù)據(jù),就是巧婦難為無米之炊。以前想找一個(gè)數(shù)據(jù)需要費(fèi)盡心思在網(wǎng)上去搜,最終還找不到自己想要的數(shù)據(jù)。通過編程爬蟲數(shù)據(jù),學(xué)習(xí)成本又太高,畢竟你的目標(biāo)不是想要成為爬蟲工程師,只是想要拿到數(shù)據(jù)來分析。那有沒有傻瓜式的獲取數(shù)據(jù)方法呢?
下面介紹4種獲取數(shù)據(jù)的方法,選擇一種適合你自己的方法就可以。


  • 方法一:直接獲取10大行業(yè)免費(fèi)數(shù)據(jù)


1)如何選擇行業(yè)?
不知道如何選擇行業(yè)的,可以在下面網(wǎng)站里看到各個(gè)行業(yè)的分析報(bào)告:
如何選擇入職行業(yè) :https://www.zhihu.com/question/24995484/answer/516813008
艾瑞研究-艾瑞網(wǎng)(行業(yè)報(bào)告):http://report.iresearch.cn
Talkingdata報(bào)告(行業(yè)報(bào)告):http://mi.talkingdata.com
199IT互聯(lián)網(wǎng)數(shù)據(jù)中心(行業(yè)報(bào)告,內(nèi)容多,支持搜索):http://www.199it.com

2)10大行業(yè)免費(fèi)數(shù)據(jù)匯總
【優(yōu)點(diǎn)】直接拿來使用
【缺點(diǎn)】數(shù)據(jù)有限
根據(jù)你確定的行業(yè),選擇一個(gè)自己感興趣的數(shù)據(jù)。比如你確定了電商行業(yè),然后就找一個(gè)電商行業(yè)的數(shù)據(jù)。
在《數(shù)據(jù)分析思維》中匯聚了10多個(gè)行業(yè)的數(shù)據(jù)以及分析案例





《數(shù)據(jù)分析思維》12大行業(yè)案例數(shù)據(jù)

更多行業(yè)數(shù)據(jù):
<a href="http://zhuanlan.zhihu.com/p/48413088" class="internal">10大行業(yè)公開數(shù)據(jù)集免費(fèi)下載:電商零售行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費(fèi)下載:金融行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費(fèi)下載:游戲行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費(fèi)下載:教育行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費(fèi)下載:旅游行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費(fèi)下載:文化娛樂行業(yè)(電影,音樂等)
10大行業(yè)公開數(shù)據(jù)集免費(fèi)下載:醫(yī)療行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費(fèi)下載:汽車及出行
10大行業(yè)公開數(shù)據(jù)集免費(fèi)下載:房產(chǎn)行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費(fèi)下載:自媒體等行業(yè)


  • 方法二:從數(shù)據(jù)平臺(tái)獲取
1.國內(nèi)中文平臺(tái):
1)阿里云天池,官網(wǎng)網(wǎng)址:https://tianchi.aliyun.com/dataset/
數(shù)據(jù)下載辦法:






2)DataFountain,官網(wǎng)地址:https://www.datafountain.cn/dataSets
有的文件下載后會(huì)顯示后綴是.zip, .zip是個(gè)壓縮包,下載后需要減壓后才能看到壓縮包里的excel文件


2.國外英文平臺(tái)
Kaggle,官網(wǎng)地址和如何下載數(shù)據(jù):如何在Kaggle上查找數(shù)據(jù)


  • 方法三:傻瓜式爬蟲工具(不需要編程)
【優(yōu)點(diǎn)】在網(wǎng)站上爬取你感興趣領(lǐng)域網(wǎng)站的數(shù)據(jù),可以獲取到自己想要的領(lǐng)域數(shù)據(jù)
【缺點(diǎn)】需要看官網(wǎng)教程來學(xué)習(xí),有一定門檻

1)工具: 后羿,同時(shí)有mac,windows版本
網(wǎng)址:http://www.houyicaiji.com/
打開官網(wǎng)后點(diǎn)擊下圖“教程”的地方有入門教程。


2)工具:集搜客,只有windows版本
操作指南只需要看下面紅框中的內(nèi)容就可以,操作指南地址:
https://www.gooseeker.com/tuto/tutorial.html


爬取多少數(shù)據(jù)?
數(shù)據(jù)量少一般說明不了什么問題,起碼的超過幾萬條數(shù)據(jù)。
多嘗試、思維邏輯要清晰,一定要知道自己做什么,爬取什么樣的數(shù)據(jù),提前規(guī)劃好了,整個(gè)過程就不會(huì)走太多的彎路。


案例:https://zhuanlan.zhihu.com/p/39733403

歡迎留言補(bǔ)充更多行業(yè)數(shù)據(jù)。

上面提到3種獲取數(shù)據(jù)的方法,選擇一種適合你自己方法。獲取數(shù)據(jù)后分析,可以使用這個(gè)里面的方法來分析:
如何分析數(shù)據(jù)?
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

57

帖子

6

積分

Rank: 1

13
發(fā)表于 2021-12-13 06:43:14 | 只看該作者
我是IT行業(yè),所以找數(shù)據(jù)通過以下幾個(gè)網(wǎng)站
名稱                                      范圍
ICTresearch  產(chǎn)業(yè)
艾瑞咨詢  產(chǎn)業(yè)
工業(yè)和信息化部  產(chǎn)業(yè)
中國電子商務(wù)研究中心  產(chǎn)業(yè)
易觀智庫  產(chǎn)業(yè)
上市公司  公司
中國互聯(lián)網(wǎng)信息中心  互聯(lián)網(wǎng)
互聯(lián)網(wǎng)消費(fèi)調(diào)研中心  互聯(lián)網(wǎng)
艾瑞咨詢產(chǎn)品  互聯(lián)網(wǎng)
WIND  金融
Gartner  全球
OECD  全球
IDC  全球
賽迪顧問  中國
國家統(tǒng)計(jì)局-國家數(shù)據(jù)
國家統(tǒng)計(jì)局  中國
國家知識(shí)產(chǎn)權(quán)局  中國
百度文庫  綜合
維基百科  綜合
天極網(wǎng)  綜合
網(wǎng)易財(cái)經(jīng)
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

43

帖子

6

積分

Rank: 1

14
發(fā)表于 2021-12-13 08:23:03 | 只看該作者
本文轉(zhuǎn)自簡道云的知乎回答有哪些「神奇」的數(shù)據(jù)獲取方式?
已經(jīng)將網(wǎng)站匯總成表格,大家可以下載查看:【簡道云匯總】110+數(shù)據(jù)網(wǎng)站
如果你不是會(huì)爬蟲的技術(shù)流,那下面這110+網(wǎng)站可以解決你90%的數(shù)據(jù)需求。
首先,常見的公開數(shù)據(jù)網(wǎng)站在https://hao.199it.com/都可以搜索到。


除此之外,補(bǔ)充上面沒有的一些網(wǎng)站,一共110+,按需選擇:
金融財(cái)經(jīng)數(shù)據(jù)


  • 同花順數(shù)據(jù)中心:提供股票債券等金融數(shù)據(jù)
  • 和訊數(shù)據(jù):提供各種股票、基金、外匯、債券等實(shí)時(shí)數(shù)據(jù),有付費(fèi),有免費(fèi)
  • 零壹財(cái)經(jīng):大大小小的網(wǎng)貸數(shù)據(jù)、排行榜等
  • 金融數(shù)據(jù)網(wǎng):提供每日的黃金、匯率、農(nóng)產(chǎn)品、汽油價(jià)格的相關(guān)數(shù)據(jù)
  • 蘿卜投研:提供股市、證券等數(shù)據(jù),多以數(shù)據(jù)研究報(bào)告形式展示
  • 金融界:提供股市、融資等各種資金流向數(shù)據(jù),以及豐富的財(cái)報(bào)和研報(bào)
  • 東方財(cái)富網(wǎng):提供多國的股票、財(cái)稅、行業(yè)、消費(fèi)等大量豐富的經(jīng)濟(jì)數(shù)據(jù)
  • 吉林金融網(wǎng):提供吉林的融資、市場數(shù)據(jù)
  • 搜狐證券:提供貨幣、外匯、行業(yè)、市場等宏觀數(shù)據(jù)
  • CCER經(jīng)濟(jì)金融數(shù)據(jù)庫:提供企業(yè)財(cái)務(wù)年度數(shù)據(jù)、股票收益數(shù)據(jù)等數(shù)據(jù)庫下載
  • 香港金融管理局:提供香港的各種經(jīng)濟(jì)及金融數(shù)據(jù),以宏觀數(shù)據(jù)為主
  • 世紀(jì)未來:數(shù)據(jù)服務(wù)平臺(tái),提供銀行業(yè)務(wù)研究、金融大數(shù)據(jù)等各種付費(fèi)數(shù)據(jù)
  • 新浪財(cái)經(jīng):提供國內(nèi)國民經(jīng)濟(jì)、行業(yè)信息、對(duì)外經(jīng)貿(mào)、居民收入等各種宏觀的經(jīng)濟(jì)數(shù)據(jù)
  • 司爾亞司數(shù)據(jù)信息有限公司:覆蓋超過195+個(gè)國家的經(jīng)濟(jì)數(shù)據(jù)庫,數(shù)據(jù)全面但收費(fèi)
  • INSEE數(shù)據(jù):法國統(tǒng)計(jì)與經(jīng)濟(jì)研究院公開數(shù)據(jù)
  • 投中研究院:提供投資領(lǐng)域的分析報(bào)告,網(wǎng)站更新頻率較高
互聯(lián)網(wǎng)數(shù)據(jù)

營銷查詢:

  • 5118 / chinaz:支持查詢網(wǎng)站排名及發(fā)展趨勢、百度收錄情況等信息
  • 百度指數(shù):百度旗下/以百度網(wǎng)民行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分享平臺(tái),支持查詢需求圖譜
  • 微信指數(shù):微信旗下/基于微信大數(shù)據(jù)分析的移動(dòng)端指數(shù),打開微信→搜索“微信指數(shù)”可用
  • 移動(dòng)觀象臺(tái):基于移動(dòng)設(shè)備用戶的操作行為,提供應(yīng)用、公眾號(hào)排行等,以及大量數(shù)據(jù)報(bào)告
  • 新榜/微小寶/易贊:幾款工具比較類似,支持查看公眾號(hào)排行、看公眾號(hào)人群畫像等功能
  • 阿里指數(shù):阿里旗下/反映淘寶平臺(tái)市場動(dòng)向的數(shù)據(jù)分析平臺(tái)
報(bào)告分析:

  • 易觀智庫:199IT導(dǎo)航的母網(wǎng)站,權(quán)威的互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái),涵蓋戰(zhàn)略新興產(chǎn)業(yè)、電商互聯(lián)網(wǎng)、共享經(jīng)濟(jì)、社交營銷、移動(dòng)互聯(lián)網(wǎng)以及其他互聯(lián)網(wǎng)服務(wù)的數(shù)據(jù)及分析報(bào)告
  • 艾瑞網(wǎng):高頻率更新互聯(lián)網(wǎng)前沿的新聞資訊、分析報(bào)告,旗下包括艾瑞指數(shù)、艾瑞咨詢等
  • 艾媒網(wǎng):艾媒與艾瑞無關(guān),艾媒網(wǎng)發(fā)布的研究報(bào)告多偏向移動(dòng)互聯(lián)網(wǎng)方向
  • CBNDdata:以阿里巴巴的商業(yè)數(shù)據(jù)庫為基礎(chǔ),輸出產(chǎn)業(yè)經(jīng)濟(jì)分析報(bào)告
  • QuestMobile:周期性地發(fā)布一些關(guān)于APP的研究報(bào)告
  • 阿里研究院:阿里旗下/發(fā)布研究電商等方向趨勢的數(shù)據(jù)報(bào)告,內(nèi)容多與阿里相關(guān)
  • 360研究報(bào)告:360旗下/移動(dòng)、PC、網(wǎng)站、企業(yè)、詐騙等安全領(lǐng)域的研究,以及大數(shù)據(jù)等非安全領(lǐng)域的研究
  • 中國互聯(lián)網(wǎng)信息研究中心:經(jīng)國家主管部門批準(zhǔn)組建的管理和服務(wù)機(jī)構(gòu),經(jīng)常發(fā)布一些有價(jià)值的互聯(lián)網(wǎng)信息報(bào)告
  • 中國信通院:針對(duì)互聯(lián)網(wǎng)多個(gè)行業(yè)的發(fā)展趨勢,發(fā)布白皮書,角度較為宏觀
  • 中國互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái):提供全國各地區(qū)互聯(lián)網(wǎng)發(fā)展報(bào)告、基礎(chǔ)數(shù)據(jù)及研究分析報(bào)告,數(shù)據(jù)及報(bào)告偏向?qū)W術(shù)性研究
  • 清博大數(shù)據(jù):提供微信、微博、頭條榜單數(shù)據(jù),各種研究報(bào)告、數(shù)據(jù)報(bào)告、輿情報(bào)告及行業(yè)熱點(diǎn)
  • 數(shù)據(jù)觀:豐富的前沿行業(yè)資訊,及部分研究報(bào)告下載
  • 騰訊大數(shù)據(jù):數(shù)據(jù)服務(wù)平臺(tái),提供調(diào)查研究、移動(dòng)互聯(lián)網(wǎng)及特色數(shù)據(jù)報(bào)告,質(zhì)量較高
  • 大數(shù)據(jù)世界:提供大數(shù)據(jù)相關(guān)資訊、應(yīng)用案例、技術(shù)方案及資料下載
地理數(shù)據(jù)

水土氣候數(shù)據(jù):

  • 水土保持生態(tài)建設(shè)網(wǎng)http://www.swcc.org.cn/
  • 黃河風(fēng)情http://www.yellowriver.org/
  • 黃河流域數(shù)據(jù)中心http://henu.geodata.cn/index.jsp
  • 黃土高原水土保護(hù)數(shù)據(jù)庫http://www.loess.csdb.cn/
  • 數(shù)字黑河http://heihe.westgis.ac.cn/Default.aspx?tabid=106
  • 大氣科學(xué)數(shù)據(jù)庫http://data.iap.ac.cn/
  • 中國氣象科學(xué)數(shù)據(jù)http://cdc.cma.gov.cn/
  • 中國氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)http://cdc.cma.gov.cn/
  • 全球森林土地覆蓋動(dòng)態(tài)http://www.fao.org/gtos/gofc-gold/
  • FRA 2000http://edcsns17.cr.usgs.gov/glcc/fao/index.html全球森林資源
  • NOAAhttp://www.noaa.gov/美國國家海洋和大氣管理局
  • NCDC http://lwf.ncdc.noaa.gov/oa/ncdc.html美國國家氣候數(shù)據(jù)中心
  • 國際水管理研究所http://www.iwmidsp.org/iwmi/info/main.asp
  • 氣候研究所http://www.cru.uea.ac.uk/
  • 植被覆蓋數(shù)據(jù)http://www.vgt.vito.be/
環(huán)境數(shù)據(jù):

  • 黃土區(qū)農(nóng)業(yè)與生態(tài)環(huán)境數(shù)據(jù)分中心http://loess.geodata.cn/
  • 東北黑土農(nóng)業(yè)生態(tài)數(shù)據(jù)庫http://www.blackland.csdb.cn/default.asp
  • 中國西部環(huán)境與生態(tài)科學(xué)數(shù)據(jù)中心http://westdc.westgis.ac.cn/
  • 西部數(shù)據(jù)中心http://westdc.westgis.ac.cn/data
  • 黃土高原區(qū)域數(shù)據(jù)共享運(yùn)行服務(wù)中心http://loess.geodata.cn/Portal/?isCookieChecked=true
遙感數(shù)據(jù):

  • 地面站RS地圖查詢http://cs.rsgs.ac.cn/cs_cn/query/query_map.asp
  • 甘肅省基礎(chǔ)地理信息中心http://www.cehuiju.gansu.gov.cn/5chcg/giscenter.asp
  • 遙感數(shù)據(jù)網(wǎng)絡(luò)資源http://ecology.bnu.edu.cn/gejp/student/zhj/webresource.htm
  • 中國遙感數(shù)據(jù)網(wǎng)http://ids.ceode.ac.cn/
  • GLCF http://glcf.geodata.cn/etm/Welcome.do
  • GIS FORUM http://www.gisforum.net/全球最大的GIS中文門戶網(wǎng)站
  • 遙感數(shù)據(jù)共享http://ids.ceode.ac.cn/
其他自然人文數(shù)據(jù):

  • 地理國情監(jiān)測云平臺(tái) http://www.dsac.cn/
  • 中國資源衛(wèi)星應(yīng)用中心 http://www.cresda.com/cn/profile.htm
  • 中國自然資源數(shù)據(jù)庫 http://www.data.ac.cn/index.asp
  • 中國科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心 http://www.resdc.cn/resdc/first.asp
  • 中國地球系統(tǒng)科學(xué)數(shù)據(jù)共享網(wǎng) http://www.geodata.cn:8086/Metadata/index.jsp
  • 國家地球系統(tǒng)科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái) http://www.geodata.cn/
  • PM25.in | PM2.5(細(xì)顆粒物)及空氣質(zhì)量指數(shù)(AQI)實(shí)時(shí)查詢?。褐袊諝赓|(zhì)量監(jiān)測實(shí)時(shí)數(shù)據(jù)http://pm25.in/
  • 國際科學(xué)數(shù)據(jù)服務(wù)平臺(tái) http://datamirror.csdb.cn/index.jsp
  • 原始數(shù)據(jù)搜索 https://wist.echo.nasa.gov/api
  • 中國科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心 http://www.resdc.cn/resdc/first.asp
  • 世界聚集人口數(shù)據(jù) http://beta.sedac.ciesin.columbia.edu/gpw/index.jsp
  • 光譜數(shù)據(jù)分析網(wǎng)站 http://modis.gsfc.nasa.gov/
  • 美國航空航天局NASA http://daac.gsfc.nasa.gov/
  • 城市軌道交通http://www.ntsg.umt.edu/
  • 人地系統(tǒng)主題數(shù)據(jù)庫http://webpanda.iis.u-tokyo.ac.jp/
影像數(shù)據(jù):

  • USGS Earth Explorer:提供Landsat、MODIS等數(shù)據(jù)
  • ESA’s Sentinel Mission:提供Sentinel系列衛(wèi)星數(shù)據(jù),可以下載歐洲航天局所屬的影像數(shù)據(jù)
  • NOAA CLASS:提供高品質(zhì)大氣數(shù)據(jù)集,包括美國國防部(DoD)、極地作戰(zhàn)環(huán)境衛(wèi)星(POES)、NOAA的地球靜止環(huán)境衛(wèi)星(GOES)以及其他派生數(shù)據(jù)
  • NASA Reverb:提供多種類數(shù)據(jù),包括:Aqua, Terra, Aura, TRMM, Calipso, NASA DC, JASON, ENVISAT等
  • EOLi:歐洲航天局的地球觀測目錄和訂購服務(wù)的客戶,通過Java 程序下載數(shù)據(jù),支持的數(shù)據(jù)包括:Envisat, ERS, IKONOS, DMC, ALOS, SPOT, Kompsat, Proba, IRS, SCISAT.
  • INPE:提供中巴資源衛(wèi)星數(shù)據(jù)
  • Bhuvan Indian Geo-Platform of ISRO:提供印度境內(nèi)的MS-1, Cartosat,,OceanSat and ResourceSat數(shù)據(jù)以及全球的NVDI數(shù)據(jù)、南亞國家的CartoDem Version -3R1數(shù)據(jù)和北印度洋的氣候數(shù)據(jù)
政府?dāng)?shù)據(jù)


  • 新加坡政府公開數(shù)據(jù):提供新加坡各類數(shù)據(jù)
  • 美國政府公開數(shù)據(jù):提供美國全國各類數(shù)據(jù)
  • 法國政府公開數(shù)據(jù):法國政府開放數(shù)據(jù)平臺(tái)
  • 英國政府公開數(shù)據(jù):提供英國各類數(shù)據(jù)
  • 國家數(shù)據(jù):中國國家統(tǒng)計(jì)局權(quán)威數(shù)據(jù)
  • 中國統(tǒng)計(jì)年鑒:1999年至今中國統(tǒng)計(jì)年鑒,國家統(tǒng)計(jì)局官網(wǎng),提供單頁Excel文件下載
  • 中國統(tǒng)計(jì)信息網(wǎng):全國及各級(jí)政府各年度統(tǒng)計(jì)公報(bào)、年鑒等,為收費(fèi)數(shù)據(jù)
  • 年鑒汪:全國城市統(tǒng)計(jì)數(shù)據(jù)搜索引擎,瀏覽免費(fèi),下載收費(fèi)
  • 倫敦市公開數(shù)據(jù):提供倫敦人口、就業(yè)、環(huán)境等各類數(shù)據(jù)
  • 國土資源部:國土資源部對(duì)外公開的信息報(bào)告
其他細(xì)分行業(yè)數(shù)據(jù)


  • 中研網(wǎng)數(shù)據(jù):提供醫(yī)療、房產(chǎn)、制造業(yè)、服務(wù)業(yè)、零售消費(fèi)、車輛等全行業(yè)數(shù)據(jù)
  • 中國報(bào)告大廳:提供各行各業(yè)的基礎(chǔ)數(shù)據(jù)、調(diào)查報(bào)告、分析報(bào)告、預(yù)測報(bào)告,種類豐富
  • CADMAPPER:世界各大城市的DXF文件,原始數(shù)據(jù)源為OSM,NASA,USGS
  • 亞馬遜網(wǎng)絡(luò)服務(wù)公共數(shù)據(jù)集:跨科學(xué)云數(shù)據(jù)平臺(tái),包含化學(xué)、生物、經(jīng)濟(jì)等多個(gè)領(lǐng)域的數(shù)據(jù)集
  • Awesome Public Datasets:Github公共數(shù)據(jù)搜集項(xiàng)目,自然科學(xué)、社會(huì)科學(xué)覆蓋較面,包含各個(gè)細(xì)分領(lǐng)域的數(shù)據(jù)庫資源。
  • figshare:數(shù)據(jù)分析與研究成果共享平臺(tái)。
  • 英國公開數(shù)據(jù)瀏覽工具:James Trimble制作的英國數(shù)據(jù)可視化瀏覽工具集;
  • 數(shù)據(jù)法國:法國各類數(shù)據(jù)的可視化呈現(xiàn);
  • DataEye:基于國內(nèi)游戲、汽車行業(yè)數(shù)據(jù),進(jìn)行多角度的行業(yè)調(diào)查報(bào)告撰寫發(fā)布
  • CBO中國票房:基于國內(nèi)票房數(shù)據(jù),統(tǒng)計(jì)票房排行、上座率等信息。
  • 易車指數(shù):反映國內(nèi)汽車銷售市場,為購車者或汽車從業(yè)者提供參考的數(shù)據(jù)指數(shù)
  • 高德地圖:支持實(shí)時(shí)查看國內(nèi)交通情況,此外高德周期性提供一系列數(shù)據(jù)報(bào)告
  • 房天下:提供中國指數(shù)研究院和CREIS中指數(shù)據(jù),展示國內(nèi)房地產(chǎn)數(shù)據(jù)情況
  • 藝恩:CBO中國票房數(shù)據(jù)的提供方,提供一些行業(yè)數(shù)據(jù)報(bào)告,如動(dòng)漫IP價(jià)值研究報(bào)告
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

48

帖子

3

積分

Rank: 1

15
發(fā)表于 2021-12-13 10:06:54 | 只看該作者
一般來說數(shù)據(jù)有以下幾種獲取方式:
1、使用爬蟲或者爬蟲軟件采集數(shù)據(jù) (適用于一些網(wǎng)站不提供數(shù)據(jù)下載,只存在網(wǎng)頁上,這個(gè)時(shí)候可以利用爬蟲進(jìn)行數(shù)據(jù)采集)
2、從數(shù)據(jù)平臺(tái)上直接下載數(shù)據(jù)
下面分別從這幾個(gè)維度,給大家具體介紹數(shù)據(jù)如何尋找。
一、使用爬蟲或者爬蟲軟件采集數(shù)據(jù)

獲取數(shù)據(jù)首推的還是利用爬蟲,所謂爬蟲是什么呢,這里給大家解釋一下,爬蟲其實(shí)就是一套自動(dòng)讀取網(wǎng)頁和解析網(wǎng)頁的程序或工具而已。
爬蟲有很多種,懂代碼的技術(shù)流可以使用Fiddler抓包,然后python采集,一頓猛如虎的操作后獲取到想要的微博數(shù)據(jù)。
針對(duì)小白,或者懂代碼的朋友不想麻煩,只是想快速獲取到自己想要的數(shù)據(jù)
利益相關(guān),推薦使用八爪魚進(jìn)行采集
只需輸入網(wǎng)址,一鍵智能識(shí)別采集數(shù)據(jù),幾分鐘搞定網(wǎng)頁數(shù)據(jù)采集。
沒圖沒真相,以今日頭條采集為例,給答主演示采集過程:

今日頭條新聞一鍵智能采集
https://www.zhihu.com/video/1247172927281795072
具體詳細(xì)使用教程:自定義配置采集數(shù)據(jù)(含智能識(shí)別)
如果您對(duì)用八爪魚采集網(wǎng)頁數(shù)據(jù)有興趣,可以用電腦下載客戶端試試。
下載地址:
免費(fèi)下載 - 八爪魚采集器
二、一些常用數(shù)據(jù)獲取平臺(tái)推薦

城市交通
1、高德交通。提供全國100個(gè)城市的交通實(shí)時(shí)數(shù)據(jù),提供非??犰拧⒅庇^的數(shù)據(jù)可視化呈現(xiàn),并定期提供專題分析報(bào)告與研究。
2、北京城市實(shí)驗(yàn)室。由龍瀛博士首創(chuàng)致力于定量城市研究的學(xué)術(shù)網(wǎng)絡(luò),提供微觀視角下的中國城市空間量化研究。
3、北京大學(xué)軌跡可視化。由北京大學(xué)可視化與可視分析研究組創(chuàng)建,通過位置采樣記錄物體的移動(dòng),進(jìn)行城市交通密度繪制、擁堵分析以及不同交通模式的關(guān)聯(lián)分析、移動(dòng)行為以及語意分析等工作,在城市交通GPS軌跡數(shù)據(jù),減少交通事故和擁堵等領(lǐng)域發(fā)揮作用。
4、城市CAD地圖數(shù)據(jù)。提供全球200+城市精美的繪圖文件,幫助城市規(guī)劃設(shè)計(jì)人員節(jié)省大量制圖繪圖的時(shí)間。要求有AutoCAD、SketchUp 8+、Illustrator、Rhinoceros 5+軟件。
5、深圳市道路交通運(yùn)行指數(shù)。深圳交通運(yùn)輸局旗下網(wǎng)站,是對(duì)深圳路網(wǎng)交通總體運(yùn)行狀況進(jìn)行定量化評(píng)估的綜合性指標(biāo),與傳統(tǒng)的車速、流量等參數(shù)相比,具有直觀、簡單的特點(diǎn),讓人們更能清楚地了解堵到何種程度。
社會(huì)經(jīng)濟(jì)
1、國家統(tǒng)計(jì)局。國家權(quán)威數(shù)據(jù)發(fā)布平臺(tái)。提供所有國民經(jīng)濟(jì)、社會(huì)、民生數(shù)據(jù),同時(shí)發(fā)布最新的統(tǒng)計(jì)政策、會(huì)議、統(tǒng)計(jì)標(biāo)準(zhǔn)等信息。
2、國家數(shù)據(jù)。國家統(tǒng)計(jì)局子網(wǎng)站。你想了解的中國所有權(quán)威數(shù)據(jù)幾乎都能在上面找到,涵蓋工業(yè)、能源、價(jià)格、投資、地產(chǎn)、消費(fèi)、交通運(yùn)輸、采購、財(cái)政、金融等等數(shù)據(jù),提供月度、季度、年鑒等多各維度數(shù)據(jù),并包含數(shù)據(jù)可視化的圖表走勢對(duì)比分析。
3、世界銀行公開數(shù)據(jù)。世界銀行公開數(shù)據(jù)上羅列7000多個(gè)指標(biāo),包括貧困與不平等、人口、環(huán)境、經(jīng)濟(jì)、國家與市場等數(shù)據(jù)。用戶可以免費(fèi)使用和分享數(shù)據(jù),還可以按照國家、指標(biāo)、專題和數(shù)據(jù)目錄瀏覽并下載數(shù)據(jù),并供支持EXCEL、CSV、API、ACCESS等不同導(dǎo)出形式。
4、前瞻數(shù)據(jù)庫。前瞻數(shù)據(jù)庫擁有16年的細(xì)分產(chǎn)業(yè)大數(shù)據(jù)積累,提供中國宏觀、區(qū)域宏觀、全球宏觀、行業(yè)經(jīng)濟(jì)、進(jìn)出口、上市公司等數(shù)據(jù)。
5、中經(jīng)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)庫?!吨薪?jīng)網(wǎng)統(tǒng)計(jì)數(shù)據(jù)庫》是由國家信息中心中經(jīng)網(wǎng)憑借與國家發(fā)改委、國家統(tǒng)計(jì)局、海關(guān)總署、各行業(yè)主管部門以及其他政府部門經(jīng)過長期數(shù)據(jù)積累的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫群。內(nèi)容涵蓋宏觀經(jīng)濟(jì)、行業(yè)經(jīng)濟(jì)、區(qū)域經(jīng)濟(jì)以及世界經(jīng)濟(jì)等各個(gè)領(lǐng)域。
6、中經(jīng)網(wǎng)產(chǎn)業(yè)數(shù)據(jù)庫。中經(jīng)網(wǎng)數(shù)據(jù)中心是國家信息中心中經(jīng)網(wǎng)組建的專業(yè)從事經(jīng)濟(jì)數(shù)據(jù)資源開發(fā)和服務(wù)的機(jī)構(gòu),網(wǎng)站提供24個(gè)產(chǎn)業(yè)數(shù)據(jù)以及經(jīng)濟(jì)綜合數(shù)據(jù)。
7、一帶一路統(tǒng)計(jì)數(shù)據(jù)庫。一代一路統(tǒng)計(jì)數(shù)據(jù)庫設(shè)置了沿線各國和地區(qū)的特色經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù),涵蓋經(jīng)濟(jì)、農(nóng)業(yè)、工業(yè)、環(huán)境、資源、貿(mào)易、投資等十幾個(gè)領(lǐng)域。

股票金融
1、新浪財(cái)經(jīng)。新浪財(cái)經(jīng)是一家創(chuàng)建于1999年8月的財(cái)經(jīng)平臺(tái),提供全球財(cái)經(jīng)實(shí)時(shí)數(shù)據(jù),內(nèi)容專業(yè)且豐富。
2、東方財(cái)富。東方財(cái)富網(wǎng)2004年3月上線,網(wǎng)站內(nèi)容涉及財(cái)經(jīng)、股票、基金、期貨、債券、外匯、銀行、保險(xiǎn)等諸多金融資訊與財(cái)經(jīng)信息,全面覆蓋財(cái)經(jīng)領(lǐng)域,每日更新上萬條最新數(shù)據(jù)及資訊,為用戶提供便利的查詢。
3、中財(cái)網(wǎng)數(shù)據(jù)引擎。非常強(qiáng)大齊全的金融數(shù)據(jù)引擎,免費(fèi)提供股票、基金、債券、外匯、理財(cái)?shù)刃星閿?shù)據(jù)以及其他資料。
投融資
1、IT桔子。IT桔子是關(guān)注IT互聯(lián)網(wǎng)行業(yè)的結(jié)構(gòu)化的公司數(shù)據(jù)庫和商業(yè)信息服務(wù)提供商,提供風(fēng)險(xiǎn)投資、收購、競爭情報(bào)、細(xì)分行業(yè)信息、國外公司產(chǎn)品信息數(shù)據(jù)服務(wù)等。
2、投資界。投資界是清科集團(tuán)旗下提供行業(yè)豐富數(shù)據(jù)及深入分析的專業(yè)化網(wǎng)站,提供投融資方面比較詳細(xì)的數(shù)據(jù)。
互聯(lián)網(wǎng)金融
1、網(wǎng)貸之家。網(wǎng)貸之家是第三方網(wǎng)貸資訊平臺(tái),于2011年10月上線。上面披露各P2P平臺(tái)最新交易數(shù)據(jù)、轉(zhuǎn)型及停業(yè)、問題平臺(tái)、網(wǎng)貸行業(yè)等數(shù)據(jù)。
2、網(wǎng)貸天眼。國內(nèi)網(wǎng)貸行業(yè)較為權(quán)威的第三方機(jī)構(gòu),同樣披露各P2P平臺(tái)最新數(shù)據(jù)、行業(yè)數(shù)據(jù)、停業(yè)及問題平臺(tái)、研究報(bào)告、行業(yè)政策等信息數(shù)據(jù)。  
生態(tài)環(huán)境
1、國家生態(tài)環(huán)境部數(shù)據(jù)中心。國家生態(tài)環(huán)境部旗下提供的數(shù)據(jù)服務(wù),包括環(huán)境質(zhì)量、生態(tài)環(huán)境、污染源、環(huán)境管理業(yè)務(wù)等10大類數(shù)據(jù)信息。同時(shí),還提供專題數(shù)據(jù)、數(shù)據(jù)分析、以及API接口等服務(wù)。
2、PM2.5in。PM25.in是為大家提供空氣質(zhì)量監(jiān)測數(shù)據(jù)的網(wǎng)站,數(shù)據(jù)采自于國家環(huán)境保護(hù)部,上面有全國各大城市的空氣質(zhì)量數(shù)據(jù)。
3、環(huán)境云。環(huán)境云是一個(gè)綜合環(huán)境數(shù)據(jù)服務(wù)的平臺(tái),收錄專業(yè)數(shù)據(jù)源(國家環(huán)保部數(shù)據(jù)中心、美國全球地震信息中心等)所發(fā)布的各類環(huán)境數(shù)據(jù),接收其自主布建的各類環(huán)境監(jiān)控傳感器網(wǎng)絡(luò)(包括空氣質(zhì)量指標(biāo),土壤環(huán)境質(zhì)量指標(biāo)檢測網(wǎng)絡(luò))所采集的數(shù)據(jù),結(jié)合相關(guān)數(shù)據(jù)預(yù)測模型生成的預(yù)報(bào)數(shù)據(jù)。  
體育
1、體育大數(shù)據(jù)SportsDT。SportsDT 以體育大數(shù)據(jù)為入口,提供比分?jǐn)?shù)據(jù)、指數(shù)數(shù)據(jù)、比賽數(shù)據(jù)、分析數(shù)據(jù)等數(shù)據(jù)。
2、stat-nba。號(hào)稱全專業(yè)最全的NBA中文數(shù)據(jù)庫。   
文化娛樂
1、中國票房網(wǎng)。中國票房網(wǎng)收錄了國內(nèi)所有上映電影的票房實(shí)時(shí)數(shù)據(jù),提供單日、單周、周末、單月、年度、中美對(duì)比、城市排片、電影資源庫等豐富數(shù)據(jù)。
2、貓眼電影數(shù)據(jù)。貓眼專業(yè)版提供全國各大電影的票房實(shí)時(shí)數(shù)據(jù),包括票房占比、排片場次、排片占比、場均人次、上座率等動(dòng)態(tài)實(shí)時(shí)數(shù)據(jù)。  
自媒體
1、清博大數(shù)據(jù)。清博指數(shù)(前稱新媒體指數(shù))、提供各類新媒體數(shù)據(jù)、榜單、分析報(bào)告、輿情監(jiān)測、品牌推廣、精準(zhǔn)營銷等服務(wù)。
2、新浪輿情通。輿情通以中文互聯(lián)網(wǎng)大數(shù)據(jù)及新浪微博的獨(dú)家官方數(shù)據(jù)為基礎(chǔ),7*24小時(shí)不間斷采集新聞、報(bào)刊、政務(wù)、外媒、微博、微信、博客、論壇、視頻、網(wǎng)站、客戶端等全網(wǎng)11大信息來源,每天采集超過9000萬條數(shù)據(jù)。   
論文期刊
1、知網(wǎng)。知網(wǎng)始建于1999年6月,提供中國知識(shí)資源總、數(shù)字出版物、文獻(xiàn)評(píng)價(jià)數(shù)據(jù)、知識(shí)檢索。據(jù)了解,中國知網(wǎng)文獻(xiàn)總量達(dá)2.8億篇,中外學(xué)術(shù)期刊品種達(dá)58000余種。
2、國家哲學(xué)社會(huì)科學(xué)學(xué)術(shù)期刊數(shù)據(jù)庫。國家期刊庫收錄精品學(xué)術(shù)期刊1000多種,論文超過485萬篇以及超過101萬位學(xué)者、2.1萬家研究機(jī)構(gòu)相關(guān)信息。  
指數(shù)
1、百度指數(shù)。百度指數(shù)是以百度海量網(wǎng)民行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分析平臺(tái),主要功能模塊有:基于單個(gè)詞的趨勢研究(包含整體趨勢、PC趨勢還有移動(dòng)趨勢)、需求圖譜、輿情管家、人群畫像;基于行業(yè)的整體趨勢、地域分布、人群屬性、搜索時(shí)間特征。
2、愛奇藝指數(shù)。愛奇藝指數(shù)是由愛奇藝基于平臺(tái)上收錄的視頻提供的視頻數(shù)據(jù)分析工具。用戶可以選擇你想了解的視頻或節(jié)目名字,平臺(tái)輸出包括熱度趨勢、視頻看點(diǎn)、輿情分析、受眾畫像等維度的數(shù)據(jù)分析。用戶還可以添加多個(gè)節(jié)目進(jìn)行對(duì)比,哪個(gè)節(jié)目熱度高、哪個(gè)明星帶的流量多、用戶都在討論什么等數(shù)據(jù)一目了然。
3、阿里指數(shù)。阿里指數(shù)是了解電子商務(wù)平臺(tái)市場動(dòng)向的數(shù)據(jù)分析平臺(tái),2012年11月26日上線。根據(jù)阿里巴巴網(wǎng)站每日運(yùn)營的基本數(shù)據(jù)包括每天網(wǎng)站瀏覽量、每天瀏覽的人次、每天新增供求產(chǎn)品數(shù)、新增公司數(shù)和產(chǎn)品數(shù)這5項(xiàng)指標(biāo)統(tǒng)計(jì)計(jì)算得出。  
綜合數(shù)據(jù)服務(wù)商
1、云聽。云聽基于八爪魚6年的大數(shù)據(jù)資源積累以及企業(yè)服務(wù)經(jīng)驗(yàn),運(yùn)用人工智能自然語言分析技術(shù),為企業(yè)提供一提供全網(wǎng)數(shù)據(jù)收集能力、數(shù)據(jù)整合分析能力和場景化解決方案,尤其在客戶體驗(yàn)管理CEM領(lǐng)域,擁有OPPO、VIVO、科沃斯等知名零售品牌大客戶,在電商數(shù)據(jù)及輿情方面擁有豐富的經(jīng)驗(yàn)。
2、國泰安。國泰安是國內(nèi)從事金融、經(jīng)濟(jì)信息精準(zhǔn)數(shù)據(jù)庫設(shè)計(jì)開發(fā)的專業(yè)高科技公司,為1000多個(gè)高校和金融機(jī)構(gòu)服務(wù)。
3、優(yōu)易數(shù)據(jù)。優(yōu)易數(shù)據(jù)匯集了以“國家自然資源和地理空間基礎(chǔ)信息庫”為基礎(chǔ), 9個(gè)國家部委的20余萬項(xiàng)核心政務(wù)數(shù)據(jù)。
4、瑞思數(shù)據(jù)。銳思數(shù)據(jù)從事金融數(shù)據(jù)庫和相關(guān)投資研究軟件研發(fā)為高校、政府及金融機(jī)構(gòu)提供精準(zhǔn)的經(jīng)濟(jì)、金融數(shù)據(jù)和完備的增值服務(wù)。
5、CEIC數(shù)據(jù)。全面的經(jīng)濟(jì)數(shù)據(jù)庫,覆蓋超過200+個(gè)國家。提供中國超過33萬條宏觀經(jīng)濟(jì)、行業(yè)及區(qū)域的時(shí)間序列數(shù)據(jù)。
6、Wind金融數(shù)據(jù)。國內(nèi)領(lǐng)先金融數(shù)據(jù)、信息和軟件服務(wù)企業(yè),數(shù)據(jù)內(nèi)容涵蓋股票、基金、債券、外匯、保險(xiǎn)、期貨、金融衍生品、現(xiàn)貨交易、宏觀經(jīng)濟(jì)、財(cái)經(jīng)新聞等領(lǐng)域,新的信息內(nèi)容及時(shí)進(jìn)行更新以滿足機(jī)構(gòu)投資者的需求。
7、搜數(shù)。搜數(shù)網(wǎng)每天監(jiān)測和收集處理公開媒體和各種年鑒書籍中披露的各類統(tǒng)計(jì)和調(diào)查數(shù)據(jù),截止2019年04月10日,已加載到搜數(shù)網(wǎng)站的統(tǒng)計(jì)資料達(dá)到9,741本,涵蓋2,280,300張統(tǒng)計(jì)表格和454,728,104個(gè)統(tǒng)計(jì)數(shù)據(jù)。
類似的還有很多數(shù)據(jù)來源,這里只列舉了一部分,想要獲取更多可以移看:  
八爪魚采集器:數(shù)據(jù)源大盤點(diǎn) | 你們要的數(shù)據(jù)源都在這兒了81個(gè)(收藏)
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

47

帖子

2

積分

Rank: 1

16
發(fā)表于 2021-12-13 12:02:19 | 只看該作者
作為一個(gè)數(shù)據(jù)可視化行業(yè)的從業(yè)者,手上怎么可以沒有幾個(gè)收集行業(yè)數(shù)據(jù)的網(wǎng)站?。?!
我交出我珍藏多年的寶藏?cái)?shù)據(jù)網(wǎng)站 給大家,如果想做抖音那種會(huì)動(dòng)的數(shù)據(jù)可視化視頻,數(shù)據(jù)可視化大屏都可以到這些網(wǎng)站里面去尋找數(shù)據(jù)資源~有點(diǎn)多,大概有27個(gè)網(wǎng)站左右,主要分為以下幾大類

  • 行業(yè)數(shù)據(jù)分析報(bào)告
  • 消費(fèi)行為分析報(bào)告
  • 互聯(lián)網(wǎng)大數(shù)據(jù)分析
  • 社會(huì)調(diào)查分析報(bào)告
  • 城市交通擁堵報(bào)告
  • 金融行業(yè)分析報(bào)告
  • 娛樂行業(yè)數(shù)據(jù)報(bào)告
  • 媒體矩陣分析報(bào)告
  • 收視排名數(shù)據(jù)分析
  • 國家數(shù)據(jù)分析報(bào)告
前方內(nèi)容有點(diǎn)長,但是基本上涵蓋了你所需要的內(nèi)容,你想要的都可以找到~
記得收藏?。。?!
阿里研究院



阿里研究院由電子商務(wù)、互聯(lián)網(wǎng)金融、智能物流、云計(jì)算與大數(shù)據(jù)等構(gòu)成的阿里商業(yè)生態(tài)圈,研究互聯(lián)網(wǎng)、大數(shù)據(jù)給社會(huì)經(jīng)濟(jì)帶來的新現(xiàn)象、新規(guī)則。
騰訊研究院



騰訊研究院是騰訊公司的智庫,旨在依托騰訊公司多元的產(chǎn)品、豐富的案例和海量的數(shù)據(jù),圍繞產(chǎn)業(yè)發(fā)展的焦點(diǎn)問題,通過開放合作的研究平臺(tái),匯集各界智慧,共同推動(dòng)互聯(lián)網(wǎng)產(chǎn)業(yè)健康、有序的發(fā)展。
騰訊研究院圍繞互聯(lián)網(wǎng)法律、公共政策、互聯(lián)網(wǎng)經(jīng)濟(jì)、大數(shù)據(jù)等研究方向,與國內(nèi)外研究機(jī)構(gòu)、智庫開展多元化的合作,不斷推出面向互聯(lián)網(wǎng)產(chǎn)業(yè)的數(shù)據(jù)和報(bào)告,為學(xué)術(shù)研究、產(chǎn)業(yè)發(fā)展和政策制定提供有力的研究支持。我們堅(jiān)守開放、包容、前瞻的研究視野,致力于成為現(xiàn)代科技與社會(huì)人文交叉匯聚的研究平臺(tái)。
艾媒咨詢



艾媒網(wǎng)-全球領(lǐng)先的新經(jīng)濟(jì)行業(yè)數(shù)據(jù)分析報(bào)告發(fā)布平臺(tái)iiMedia Research(艾媒咨詢)是全球知名的新經(jīng)濟(jì)產(chǎn)業(yè)第三方數(shù)據(jù)挖掘和分析機(jī)構(gòu),2007年誕生于廣州,在廣州、香港、北京、上海、硅谷設(shè)有運(yùn)營和分析機(jī)構(gòu)。艾媒咨詢致力于輸出有觀點(diǎn)、有態(tài)度、有結(jié)論的研究報(bào)告,以權(quán)威第三方實(shí)力,通過艾媒大數(shù)據(jù)決策和智能分析系統(tǒng),結(jié)合具有國際化視野的艾媒分析師觀點(diǎn),在產(chǎn)業(yè)數(shù)據(jù)監(jiān)測、調(diào)查分析和趨勢發(fā)展等方向的大數(shù)據(jù)咨詢具有豐富經(jīng)驗(yàn)。艾媒每年公開或定制發(fā)布新經(jīng)濟(jì)前沿報(bào)告超過2000份,覆蓋了新技術(shù)、新零售、教育、生物、醫(yī)療、出行、房產(chǎn)、營銷、文娛、傳媒、金融、制造、區(qū)塊鏈、環(huán)保與公共治理等新興領(lǐng)域,通過深入數(shù)據(jù)挖掘,通過數(shù)學(xué)建模,分析推理與科學(xué)算法結(jié)合,打造有數(shù)據(jù)、有理論支撐的大數(shù)據(jù)分析成果。艾媒咨詢的數(shù)據(jù)報(bào)告、分析師觀點(diǎn)平均每天被超過100家全球主流媒體,1500家(個(gè))自媒體、行業(yè)KOL引用,覆蓋語言類型包括中、英、日、法、意、德、俄、阿等約二十種主流官方版本。
艾瑞網(wǎng)



報(bào)告_艾瑞網(wǎng)依托大數(shù)據(jù),發(fā)布互聯(lián)網(wǎng)行業(yè)研究報(bào)告
艾瑞數(shù)據(jù)致力于成為數(shù)據(jù)應(yīng)用技術(shù)為核心驅(qū)動(dòng)力的科技型企業(yè),本著通過數(shù)據(jù)改變認(rèn)知,提升企業(yè)效能為理念,為客戶提供基于情報(bào)+數(shù)據(jù)+服務(wù)的商業(yè)數(shù)據(jù)智能解決方案,涵蓋消費(fèi)者洞察、市場競爭監(jiān)控、企業(yè)精細(xì)化運(yùn)營、共享數(shù)據(jù)服務(wù)。
艾瑞智云產(chǎn)品服務(wù)體系,透過9億網(wǎng)民線上線下行為洞察商業(yè)本質(zhì),為多個(gè)場景提供數(shù)據(jù)服務(wù)。
艾瑞睿見產(chǎn)品服務(wù)體系,通過多源跨屏數(shù)據(jù)洞察等自建大數(shù)據(jù)積累,匯集多家大型互聯(lián)網(wǎng)企業(yè)數(shù)據(jù),共同打造的互聯(lián)網(wǎng)行業(yè)信息情報(bào)分析系統(tǒng)。
McKinsey&Company



Insights - McKinsey Greater China行業(yè)洞察報(bào)告面向總裁、高級(jí)主管、部長、大公司的管理委員會(huì),非盈利性機(jī)構(gòu)及政府高層領(lǐng)導(dǎo)就他們所關(guān)注的管理問題提供咨詢。
為客戶特別是為企業(yè)設(shè)計(jì)、制定相配套的一體化解決方案,戰(zhàn)略開發(fā),經(jīng)營運(yùn)作,組織結(jié)構(gòu)。
集中于客戶可以量化的業(yè)績改進(jìn),比如說改進(jìn)銷售收入、利潤成本、供貨時(shí)間、質(zhì)量等。麥肯錫的咨詢重點(diǎn)放在高級(jí)管理層所關(guān)心的議題上。工作內(nèi)容屬于戰(zhàn)略、總體組織和相關(guān)政策領(lǐng)域各占1/3。但在中國,戰(zhàn)略和組織機(jī)構(gòu)設(shè)計(jì)偏重大些。
Deloitte德勒



德勤中國 | 審計(jì), 企業(yè)管理咨詢, 財(cái)務(wù)咨詢, 風(fēng)險(xiǎn)咨詢, 稅務(wù)服務(wù)及行業(yè)洞察關(guān)于德勤中國:各個(gè)行業(yè)的研究報(bào)告。事務(wù)所網(wǎng)絡(luò)為中國本地和在華的跨國及高增長企業(yè)客戶提供全面的審計(jì)及鑒證、管理咨詢、財(cái)務(wù)咨詢、風(fēng)險(xiǎn)咨詢和稅務(wù)服務(wù)。
普華永道



普華永道中國各個(gè)行業(yè)的研究報(bào)告。在普華永道,我們的使命是解決重要問題以及建立社會(huì)信任。這是我們?cè)谔峁I(yè)服務(wù)及作出商業(yè)決定時(shí)的重中之重。
畢馬威



畢馬威中國行業(yè)洞察報(bào)告/畢馬威是一個(gè)由專業(yè)服務(wù)成員所組成的全球網(wǎng)絡(luò)。成員所遍布全球147個(gè)國家和地區(qū),擁有專業(yè)人員超過219,000名,提供審計(jì)、稅務(wù)和咨詢等專業(yè)服務(wù)。
IBM 商業(yè)價(jià)值研究院



IBM - 中國埃森哲



埃森哲| 中國| 應(yīng)新于時(shí)智勝無常,化危為機(jī):應(yīng)對(duì)新冠病毒全球流行及疫后重建,都需要各行各業(yè)的企業(yè)領(lǐng)導(dǎo)者做出迅速且充分有效的決策,捍衛(wèi)員工、顧客與合作伙伴的共同利益。歡迎深入了解我們關(guān)于現(xiàn)狀和未來的觀點(diǎn)和行動(dòng)建議。
藝恩中國


  • 影視大數(shù)據(jù)平臺(tái),可查看到電影、電視、動(dòng)漫、新媒體、娛樂營銷相關(guān)的研究報(bào)告


藝恩-文娛大數(shù)據(jù)服務(wù)商_首頁藝恩是國內(nèi)領(lǐng)先的文娛大數(shù)據(jù)服務(wù)商,以數(shù)據(jù)技術(shù)為引擎監(jiān)測跨屏內(nèi)容消費(fèi)行為和用戶畫像數(shù)據(jù); 依托行業(yè)解決方案,累計(jì)為近千家合作伙伴提供相關(guān)產(chǎn)品服務(wù)。
藝恩一直致力于深度鏈接文娛業(yè)務(wù)場景,獲得了業(yè)界及社會(huì)的廣泛認(rèn)可。榮獲“國家高新技術(shù)企業(yè)”“中關(guān)村高新技術(shù)企業(yè)”“中國大數(shù)據(jù)創(chuàng)新企業(yè)”及“中國大數(shù)據(jù)最佳行業(yè)實(shí)踐案例”等稱號(hào)。共持有獨(dú)立研發(fā)的產(chǎn)品軟件著作權(quán)和發(fā)明專利超過30項(xiàng)。
易觀分析:聯(lián)網(wǎng)市場分析報(bào)告瀏覽網(wǎng)址



易觀分析-數(shù)據(jù)驅(qū)動(dòng)精益成長北京易觀智庫網(wǎng)絡(luò)科技有限公司始終追求客戶成功的經(jīng)營宗旨。 自成立以來,北京易觀智庫網(wǎng)絡(luò)科技有限公司打造了以海量數(shù)字用戶資產(chǎn)及算法模型為核心的大數(shù)據(jù)產(chǎn)品、平臺(tái)及解決方案 可以幫助企業(yè)高效管理數(shù)字用戶資產(chǎn)和對(duì)產(chǎn)品進(jìn)行精細(xì)化運(yùn)營,通過數(shù)據(jù)驅(qū)動(dòng)營銷閉環(huán), 從而實(shí)現(xiàn)收入增長、成本降低和效率提升,并顯著規(guī)避經(jīng)營風(fēng)險(xiǎn),實(shí)現(xiàn)精益成長。
CBNData(第一財(cái)經(jīng)商業(yè)數(shù)據(jù)中心)

產(chǎn)業(yè)經(jīng)濟(jì)全景分析和行業(yè)企業(yè)洞察


http://www.cbndata.com/home

36kr

匯集各個(gè)行業(yè)的研究報(bào)告


36氪_讓一部分人先看到未來TalkingData

移動(dòng)觀象臺(tái)




TalkingData移動(dòng)觀象臺(tái)-全球領(lǐng)先免費(fèi)公開數(shù)據(jù)實(shí)時(shí)查詢平臺(tái)360互聯(lián)網(wǎng)安全中心





360研究報(bào)告_360安全中心新浪研究報(bào)告

可獲取不同機(jī)構(gòu)發(fā)布的最新行業(yè)研究報(bào)告咨詢(無法查看到報(bào)告的全文)


行業(yè)研究研究報(bào)告|研究評(píng)級(jí)|機(jī)構(gòu)研報(bào)_新浪財(cái)經(jīng)_新浪網(wǎng)微博媒體排行榜



媒體矩陣勢力榜CBO中國票房



藝恩-數(shù)據(jù)智能服務(wù)商_數(shù)據(jù)榜單農(nóng)業(yè)大數(shù)據(jù)



中國農(nóng)業(yè)大數(shù)據(jù)公共服務(wù)中心國家數(shù)據(jù)

統(tǒng)計(jì)局的官方數(shù)據(jù),涉及各個(gè)方面


國家數(shù)據(jù)高德城市擁堵排名



https://report.amap.com/diagnosis/index.do中國綜合社會(huì)調(diào)查CGSS



中國綜合社會(huì)調(diào)查中國綜合社會(huì)調(diào)查(Chinese General Social Survey,CGSS)始于2003年,是我國最早的全國性、綜合性、連續(xù)性學(xué)術(shù)調(diào)查項(xiàng)目。CGSS系統(tǒng)、全面地收集社會(huì)、社區(qū)、家庭、個(gè)人多個(gè)層次的數(shù)據(jù),總結(jié)社會(huì)變遷的趨勢,探討具有重大科學(xué)和現(xiàn)實(shí)意義的議題,推動(dòng)國內(nèi)科學(xué)研究的開放與共享,為國際比較研究提供數(shù)據(jù)資料,充當(dāng)多學(xué)科的經(jīng)濟(jì)與社會(huì)數(shù)據(jù)采集平臺(tái)。目前,CGSS數(shù)據(jù)已成為研究中國社會(huì)最主要的數(shù)據(jù)來源,廣泛地應(yīng)用于科研、教學(xué)、政府決策之中。
中國P2P網(wǎng)貸指數(shù)



千順-財(cái)經(jīng)門戶, 金融研究咨詢,金融發(fā)展規(guī)劃,金融風(fēng)險(xiǎn)防范化解,金融大數(shù)據(jù),產(chǎn)業(yè)金融,金融GDP,金融科技,監(jiān)管科技,區(qū)塊鏈, 新興金融_千順百度數(shù)智平臺(tái)



百度數(shù)智平臺(tái)--百度大數(shù)據(jù)智能力量友盟+



友盟+,國內(nèi)領(lǐng)先的第三方全域數(shù)據(jù)智能服務(wù)商友盟+,以“數(shù)據(jù)智能,驅(qū)動(dòng)業(yè)務(wù)增長”為使命,基于卓越的技術(shù)與算法能力,結(jié)合實(shí)時(shí)更新的全域數(shù)據(jù)資源,覆蓋191個(gè)行業(yè)分類、輸出300+應(yīng)用或行業(yè)的分析指標(biāo),通過AI賦能的一站式互聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)品與服務(wù)體系,幫助企業(yè)實(shí)現(xiàn)深度用戶洞察、實(shí)時(shí)業(yè)務(wù)決策和持續(xù)業(yè)務(wù)增長。
收視率排行



收視率排行 | 收視率查詢,收視率怎么算,收視率怎么賺錢,csm50城以上就是我整理的數(shù)據(jù)分析報(bào)告的網(wǎng)站啦~當(dāng)然有了數(shù)據(jù)還需要可視化展現(xiàn)對(duì)不對(duì),以下是我整理的另一篇,國內(nèi)十大數(shù)據(jù)可視化平臺(tái)供你使用挑選~

this is:2020年最好用的十大數(shù)據(jù)可視化平臺(tái),你值得擁有以上~

精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

40

帖子

3

積分

Rank: 1

17
發(fā)表于 2021-12-13 14:43:18 | 只看該作者
和鯨社區(qū)(kesci.com)擁有海量各個(gè)行業(yè)的真實(shí)數(shù)據(jù)集
以下練習(xí)題與教程均來自和鯨社區(qū),除了能下載以外,也可以直接在線掛載使用哦~
生物醫(yī)療行業(yè)相關(guān)數(shù)據(jù)集:


  • 丁香園新型冠狀病毒(COVID-19)疫情時(shí)間序列數(shù)據(jù)集
2019新型冠狀病毒(COVID-19/2019-nCoV)疫情狀況的時(shí)間序列數(shù)據(jù)倉庫,數(shù)據(jù)來源為丁香園


  • 全球新冠肺炎COVID-19數(shù)據(jù)
包含每日時(shí)間序列匯總表,包括確診、死亡和治愈。所有數(shù)據(jù)來自每日病例報(bào)告。數(shù)據(jù)覆蓋日期20/01/22-20/07/08


  • 心臟病診斷數(shù)據(jù)集
來自克利夫蘭醫(yī)學(xué)研究中心的心臟病患者數(shù)據(jù),可用于建立心臟病診斷模型。


  • 美國各州各城市2019新型冠狀病毒COVID19數(shù)據(jù)
美國各州各城市COVID 19數(shù)據(jù),包括確診人數(shù)和 死亡人數(shù)等,數(shù)據(jù)覆蓋日期2020-01-21到2020-07-05


  • COVID-19 論文數(shù)據(jù) (每日更新)
多個(gè)權(quán)威期刊上關(guān)于COVID-19的研究論文的標(biāo)題、摘要等信息,并人為為部分文章打上類標(biāo)簽(包括流行病學(xué)、臨床醫(yī)學(xué)、病理學(xué)等六種)


  • MIMIC-III 數(shù)據(jù)集官方樣例
MIMIC-III 數(shù)據(jù)集官方樣例,數(shù)據(jù)結(jié)構(gòu)與MIMIC-III 一致,包含100位病人的數(shù)據(jù)


  • 英國2019新型冠狀病毒COVID-19數(shù)據(jù)
英國2019新型冠狀病毒COVID-19數(shù)據(jù),整個(gè)英國以及英國各個(gè)國家(英格蘭,蘇格蘭,威爾士,北愛爾蘭),覆蓋日期2020-01-24到2020-06-23
文化娛樂相關(guān)數(shù)據(jù)集:


  • 500條「 隱秘的角落 」豆瓣短評(píng)
500條「 隱秘的角落 」豆瓣短評(píng),數(shù)據(jù)包含用戶昵稱,用戶個(gè)人主頁,評(píng)論內(nèi)容,評(píng)論時(shí)間,有用數(shù)


  • 《隱秘的角落》愛奇藝彈幕數(shù)據(jù)
  • 《乘風(fēng)破浪的姐姐》選手信息數(shù)據(jù)集
數(shù)據(jù)來源于百度百科和維基百科,包括了選手們的姓名,年齡,出生年月,出生地以及圖片的下載地址,職業(yè)以及初始舞臺(tái)分?jǐn)?shù)等信息。


  • 豆瓣電影數(shù)據(jù)集
豆瓣電影影評(píng)、影人信息等文本數(shù)據(jù)。更具本土特色!


  • 口袋妖怪?jǐn)?shù)據(jù)集
這個(gè)數(shù)據(jù)集共有721個(gè)口袋妖怪,包括編號(hào),名字,第一和第二屬性,以及基本屬性:HP,攻擊,防御,特殊攻擊,特殊防御和速度。


  • 中華古詩數(shù)據(jù)集
唐宋兩朝14000名古詩人,55000首唐詩,260000首宋詞,用數(shù)據(jù)分析抽絲剝繭文化內(nèi)涵。


  • TED 演講數(shù)據(jù)集
數(shù)據(jù)集包含到 2017.9.21 日,所有上傳到TED網(wǎng)站上的演講視頻信息。喜歡看TED的朋友不能錯(cuò)過!


  • DOTA 2 數(shù)據(jù)集
數(shù)據(jù)集包含7.07血命之戰(zhàn)版本后的103591場比賽數(shù)據(jù)
地理相關(guān)數(shù)據(jù)集:


  • 星巴克門店信息
該數(shù)據(jù)集囊括了截至2017/2月份全球星巴克門店的基礎(chǔ)信息


  • 世界主要城市平均氣溫?cái)?shù)據(jù)集
一個(gè)關(guān)于世界主要城市溫度的數(shù)據(jù)集將有助于分析全球變暖的情況。此外,天氣信息對(duì)許多數(shù)據(jù)科學(xué)任務(wù)也有幫助,如銷售預(yù)測,物流等。


  • 900W條微博簽到數(shù)據(jù)
近900W條微博簽到數(shù)據(jù),包含位置經(jīng)緯度,城市等信息!


  • 全球每個(gè)國家和美國每個(gè)州的緯度和經(jīng)度地理數(shù)據(jù)
全球每個(gè)國家和美國每個(gè)州的緯度和經(jīng)度GPS坐標(biāo)


  • 中國坐標(biāo)數(shù)據(jù)集
中國省、市、區(qū)、縣的坐標(biāo)數(shù)據(jù)集


  • 太陽黑子數(shù)據(jù)
包含1944年5月-2019年12月的太陽黑子數(shù)據(jù)


  • 七類礦物鑒定圖片數(shù)據(jù)集
包含七類礦物的標(biāo)本圖像
自然語言處理相關(guān)數(shù)據(jù)集:


  • 電影對(duì)白數(shù)據(jù)集(聊天機(jī)器人)
該數(shù)據(jù)集包含從原始電影腳本中提取的大量虛構(gòu)對(duì)話集合,可用于訓(xùn)練LSTM網(wǎng)絡(luò)模型。


  • 文本情感數(shù)據(jù)集
NLP是機(jī)器學(xué)習(xí)領(lǐng)域中的重要話題。用戶可以通過本數(shù)據(jù)建立模型,訓(xùn)練電腦分辨文本表達(dá)的兩種截然相反的情感:Positive 和 Negative。


  • 復(fù)旦大學(xué)中文文本分類語料庫
中國新聞數(shù)據(jù)集有20個(gè)不同的類別,用于NLP學(xué)習(xí)


  • 今日頭條新聞文本
382688條今日頭條新聞文本


  • 人民日?qǐng)?bào)文章數(shù)據(jù)集(1979-2010)
包含人民日?qǐng)?bào)從1979年至2010年的文章文本數(shù)據(jù)


  • 川普推特?cái)?shù)據(jù)集
匯集了川總的推特?cái)?shù)據(jù) ( 從當(dāng)選到2018年12月30號(hào) )


  • 2014人民日?qǐng)?bào)標(biāo)注語料庫(PFR)
PFR有1998年1-6月以及2014年版本,本語料庫是2014年的標(biāo)注語料版本


  • 網(wǎng)易云精彩評(píng)論數(shù)據(jù)集
網(wǎng)易云精彩評(píng)論數(shù)據(jù)集是一個(gè)CSV文件,包括了用戶Id、昵稱、評(píng)論內(nèi)容、點(diǎn)贊數(shù)。
氣候相關(guān)數(shù)據(jù)集:


  • 二戰(zhàn)天氣狀況數(shù)據(jù)集
1940-1945年每日天氣摘要


  • 多類天氣圖片數(shù)據(jù)集
數(shù)據(jù)集包含60000張常見天氣的圖像,包括晴天,多云,下雨,下雪,薄霧和雷雨,總共6種天氣圖像,用于天氣分類及識(shí)別研究。


  • 澳大利亞山火數(shù)據(jù)集
NASA衛(wèi)星數(shù)據(jù),來自 MODIS C6 和 VIIRS 375m


  • 1750年至今全球地表氣溫變化數(shù)據(jù)
全球氣候變化曾被美國總統(tǒng)特朗普指為“中國人制造的騙局”,然而這到底是偽科學(xué),還是客觀存在?


  • 從衛(wèi)星圖像理解云層數(shù)據(jù)集
kaggle競賽中數(shù)據(jù)集,cv相關(guān),用于確定衛(wèi)星圖像中包含的某些云層的區(qū)域


  • 臺(tái)風(fēng)數(shù)據(jù)分析-高德地圖/Geopanda
臺(tái)風(fēng)數(shù)據(jù)分析-高德地圖/Geopandas


  • El Nino厄爾尼諾數(shù)據(jù)集
該數(shù)據(jù)集包含從整個(gè)赤道太平洋的一系列浮標(biāo)中獲取的海洋學(xué)和地面氣象讀數(shù)
以上例舉的只是和鯨社區(qū)數(shù)據(jù)集的“冰山一角”哦,想獲得更多數(shù)據(jù)集請(qǐng)前往和鯨社區(qū)哦:
和鯨社區(qū) - Kesci.com
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

48

帖子

3

積分

Rank: 1

18
發(fā)表于 2021-12-13 15:58:18 | 只看該作者
我獲取數(shù)據(jù)的一些來源 yulang:普工的豬肉臺(tái)-如何獲取數(shù)據(jù)
數(shù)據(jù)比賽

Datasets | Kaggle
數(shù)據(jù)集-阿里系唯一對(duì)外開放數(shù)據(jù)分享平臺(tái)
政府類

中國2000年人口普查資料
中國2010年人口普查資料
中國經(jīng)濟(jì)普查年鑒―2013
知乎問答

路人甲:有哪些可以獲取數(shù)據(jù)的網(wǎng)站?[大數(shù)據(jù)]
大家都是在哪些網(wǎng)站找數(shù)據(jù)?
猴子:10大行業(yè)公開數(shù)據(jù)集免費(fèi)下載:電商零售行業(yè)
企研數(shù)據(jù):數(shù)據(jù)資源丨原始數(shù)據(jù)哪里找?這些網(wǎng)站要用好?。ńㄗh收藏)
易觀,艾瑞等第三方公司的原始數(shù)據(jù)從什么地方,或者以什么形式獲取的?
去哪找數(shù)據(jù)?怎么挖掘?
數(shù)據(jù)分析和挖掘有哪些公開的數(shù)據(jù)來源?
大家都是在哪些網(wǎng)站找數(shù)據(jù)?
有哪些「神奇」的數(shù)據(jù)獲取方式
有哪些「神奇」的數(shù)據(jù)獲取方式?
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

49

帖子

3

積分

Rank: 1

19
發(fā)表于 2021-12-13 18:26:13 | 只看該作者
作為程序員,玩大數(shù)據(jù)肯定要懂爬蟲的,而我也比較喜歡爬一點(diǎn)有的沒的。


爬蟲,是一個(gè)自動(dòng)提取網(wǎng)頁的程序。是搜索引擎的重要組成部分,因此搜索引擎優(yōu)化很大程度上就是針對(duì)爬蟲而做出的優(yōu)化。
已經(jīng)成型的爬蟲有幾百種,今天就來強(qiáng)答一波,推薦一些不同開發(fā)語言的開源爬蟲軟件。
Python爬蟲



1、PyRailgun
這是一個(gè)非常簡單易用的抓取工具。支持抓取javascript渲染的頁面的簡單實(shí)用高效的python網(wǎng)頁爬蟲抓取模塊

  • 授權(quán)協(xié)議: MIT
  • 開發(fā)語言: Python
  • 操作系統(tǒng): 跨平臺(tái) Windows Linux OS X
  • 特點(diǎn):簡潔、輕量、高效的網(wǎng)頁抓取框架
github:https://github.com/princehaku/pyrailgun#readme
2、Scrapy
Scrapy 是一套基于基于Twisted的異步處理框架,純python實(shí)現(xiàn)的爬蟲框架,用戶只需要定制開發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲,用來抓取網(wǎng)頁內(nèi)容以及各種圖片,非常之方便~

  • 授權(quán)協(xié)議: BSD
  • 開發(fā)語言: Python
  • 操作系統(tǒng): 跨平臺(tái)
  • 特點(diǎn):基于Twisted的異步處理框架,文檔齊全
github:https://github.com/scrapy/scrapy
3、QuickRecon
QuickRecon是一個(gè)簡單的信息收集工具,它可以幫助你查找子域名名稱、perform zone transfe、收集電子郵件地址和使用microformats尋找人際關(guān)系等。QuickRecon使用python編寫,支持linux和 windows操作系統(tǒng)。

  • 授權(quán)協(xié)議: GPLv3
  • 開發(fā)語言: Python
  • 操作系統(tǒng): Windows Linux
  • 特點(diǎn):具有查找子域名名稱、收集電子郵件地址并尋找人際關(guān)系等功能
Java爬蟲



4、crawlzilla
crawlzilla 是一個(gè)幫你輕松建立搜索引擎的自由軟件,有了它,你就不用依靠商業(yè)公司的搜索引擎,也不用再煩惱公司內(nèi)部網(wǎng)站資料索引的問題。
由 nutch 專案為核心,并整合更多相關(guān)套件,并卡發(fā)設(shè)計(jì)安裝與管理UI,讓使用者更方便上手。
crawlzilla 除了爬取基本的 html 外,還能分析網(wǎng)頁上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁搜索引擎,而是網(wǎng)站的完整資料索引庫。

  • 授權(quán)協(xié)議: Apache License 2
  • 開發(fā)語言: Java JavaScript SHELL
  • 操作系統(tǒng): Linux
  • 特點(diǎn):安裝簡易,擁有中文分詞功能
項(xiàng)目主頁: https://github.com/shunfa/crawlzilla
下載地址 http://sourceforge.net/projects/crawlzilla/
5、Heritrix
Heritrix 是一個(gè)由 java 開發(fā)的、開源的網(wǎng)絡(luò)爬蟲,用戶可以使用它來從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴(kuò)展性,方便用戶實(shí)現(xiàn)自己的抓取邏輯。
Heritrix采用的是模塊化的設(shè)計(jì),各個(gè)模塊由一個(gè)控制器類(CrawlController類)來協(xié)調(diào),控制器是整體的核心。

  • 授權(quán)協(xié)議: Apache
  • 開發(fā)語言: Java
  • 操作系統(tǒng): 跨平臺(tái)
  • 特點(diǎn):嚴(yán)格遵照robots文件的排除指示和META robots標(biāo)簽
代碼托管:https://github.com/internetarchive/heritrix3
6、heyDr
heyDr是一款基于java的輕量級(jí)開源多線程垂直檢索爬蟲框架,遵循GNU GPL V3協(xié)議。
用戶可以通過heyDr構(gòu)建自己的垂直資源爬蟲,用于搭建垂直搜索引擎前期的數(shù)據(jù)準(zhǔn)備。

  • 授權(quán)協(xié)議: GPLv3
  • 開發(fā)語言: Java
  • 操作系統(tǒng): 跨平臺(tái)
  • 特點(diǎn):輕量級(jí)開源多線程垂直檢索爬蟲框架
7、JSpider
JSpider是一個(gè)用Java實(shí)現(xiàn)的WebSpider,JSpider的執(zhí)行格式如下:
jspider [URL] [ConfigName]
URL一定要加上協(xié)議名稱,如:http://,否則會(huì)報(bào)錯(cuò)。如果省掉ConfigName,則采用默認(rèn)配置。
JSpider 的行為是由配置文件具體配置的,比如采用什么插件,結(jié)果存儲(chǔ)方式等等都在conf\[ConfigName]\目錄下設(shè)置。JSpider默認(rèn)的配置種類 很少,用途也不大。但是JSpider非常容易擴(kuò)展,可以利用它開發(fā)強(qiáng)大的網(wǎng)頁抓取與數(shù)據(jù)分析工具。要做到這些,需要對(duì)JSpider的原理有深入的了 解,然后根據(jù)自己的需求開發(fā)插件,撰寫配置文件。

  • 授權(quán)協(xié)議: LGPL
  • 開發(fā)語言: Java
  • 操作系統(tǒng): 跨平臺(tái)
  • 特點(diǎn):功能強(qiáng)大,容易擴(kuò)展
8、MetaSeeker
這是一套完整的網(wǎng)頁內(nèi)容抓取、格式化、數(shù)據(jù)集成、存儲(chǔ)管理和搜索解決方案。網(wǎng)絡(luò)爬蟲有多種實(shí)現(xiàn)方法,如果按照部署在哪里分,可以分成:

  • 服務(wù)器側(cè):
一般是一個(gè)多線程程序,同時(shí)下載多個(gè)目標(biāo)HTML,可以用PHP, Java, Python(當(dāng)前很流行)等做,可以速度做得很快,一般綜合搜索引擎的爬蟲這樣做。但是,如果對(duì)方討厭爬蟲,很可能封掉你的IP,服務(wù)器IP又不容易 改,另外耗用的帶寬也是挺貴的。建議看一下Beautiful soap。

  • 客戶端:
一般實(shí)現(xiàn)定題爬蟲,或者是聚焦爬蟲,做綜合搜索引擎不容易成功,而垂直搜訴或者比價(jià)服務(wù)或者推薦引擎,相對(duì)容易很多,這類爬蟲不是什么頁面都 取的,而是只取你關(guān)系的頁面,而且只取頁面上關(guān)心的內(nèi)容,例如提取黃頁信息,商品價(jià)格信息,還有提取競爭對(duì)手廣告信息的,搜一下Spyfu,很有趣。這類 爬蟲可以部署很多,而且可以很有侵略性,對(duì)方很難封鎖。
MetaSeeker中的網(wǎng)絡(luò)爬蟲就屬于后者。
它的免費(fèi)工具包利用Mozilla平臺(tái)的能力,只要是Firefox看到的東西,它都能提取。

  • 特點(diǎn):網(wǎng)頁抓取、信息提取、數(shù)據(jù)抽取工具包,操作簡單
下載地址:www.gooseeker.com/cn/node/download/front
9、PyRailgun
這是一個(gè)非常簡單易用的抓取工具。支持抓取javascript渲染的頁面的簡單實(shí)用高效的python網(wǎng)頁爬蟲抓取模塊。此軟件也是由國人開放。

  • 授權(quán)協(xié)議: MIT
  • 開發(fā)語言: Python
  • 操作系統(tǒng): 跨平臺(tái) Windows Linux OS X
  • 特點(diǎn):簡潔、輕量、高效的網(wǎng)頁抓取框架
github下載:https://github.com/princehaku/pyrailgun#readme
10、Scrapy
Scrapy 是一套基于基于Twisted的異步處理框架,純python實(shí)現(xiàn)的爬蟲框架,用戶只需要定制開發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲,用來抓取網(wǎng)頁內(nèi)容以及各種圖片,非常之方便~

  • 授權(quán)協(xié)議: BSD
  • 開發(fā)語言: Python
  • 操作系統(tǒng): 跨平臺(tái)
  • 特點(diǎn):基于Twisted的異步處理框架,文檔齊全
github源代碼:https://github.com/scrapy/scrapy
11、Spiderman
Spiderman 是一個(gè)基于微內(nèi)核+插件式架構(gòu)的網(wǎng)絡(luò)蜘蛛,它的目標(biāo)是通過簡單的方法就能將復(fù)雜的目標(biāo)網(wǎng)頁信息抓取并解析為自己所需要的業(yè)務(wù)數(shù)據(jù)。

  • 確定好你的目標(biāo)網(wǎng)站以及目標(biāo)網(wǎng)頁
  • 打開目標(biāo)頁面,分析頁面的HTML結(jié)構(gòu),得到你想要數(shù)據(jù)的XPath
  • 在一個(gè)xml配置文件里填寫好參數(shù),運(yùn)行Spiderman


  • 授權(quán)協(xié)議: Apache
  • 開發(fā)語言: Java
  • 操作系統(tǒng): 跨平臺(tái)
  • 特點(diǎn):靈活、擴(kuò)展性強(qiáng),微內(nèi)核+插件式架構(gòu),通過簡單的配置就可以完成數(shù)據(jù)抓取,無需編寫一句代碼
12、WebSPHINX
WebSPHINX是一個(gè)Java類包和Web爬蟲的交互式開發(fā)環(huán)境。Web爬蟲(也叫作機(jī)器人或蜘蛛)是可以自動(dòng)瀏覽與處理Web頁面的程序。WebSPHINX由兩部分組成:爬蟲工作平臺(tái)和WebSPHINX類包。

  • 授權(quán)協(xié)議:Apache
  • 開發(fā)語言:Java
  • 特點(diǎn):由爬蟲工作平臺(tái)和WebSPHINX類包兩部分組成
C++爬蟲



13、Methabot
Methabot 是一個(gè)經(jīng)過速度優(yōu)化的高可配置的 WEB、FTP、本地文件系統(tǒng)的爬蟲軟件。

  • 授權(quán)協(xié)議: 未知
  • 開發(fā)語言: C/C++
  • 操作系統(tǒng): Windows Linux
  • 特點(diǎn):過速度優(yōu)化、可抓取WEB、FTP及本地文件系統(tǒng)
源代碼:http://www.oschina.net/code/tag/methabot
14、larbin
larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛,由法國的年輕人 Sébastien Ailleret獨(dú)立開發(fā)。larbin目的是能夠跟蹤頁面的url進(jìn)行擴(kuò)展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。Larbin只是一個(gè)爬蟲,也就 是說larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲(chǔ)到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。一個(gè)簡單的larbin的爬蟲可以每天獲?。担埃叭f的網(wǎng)頁。
利用larbin,我們可以輕易的獲取/確定單個(gè)網(wǎng)站的所有鏈接,甚至可以鏡像一個(gè)網(wǎng)站;也可以用它建立url 列表群,例如針對(duì)所有的網(wǎng)頁進(jìn)行 url retrive后,進(jìn)行xml的聯(lián)結(jié)的獲取?;蛘呤?mp3,或者定制larbin,可以作為搜索引擎的信息的來源。

  • 授權(quán)協(xié)議: GPL
  • 開發(fā)語言: C/C++
  • 操作系統(tǒng): Linux
  • 特點(diǎn):高性能的爬蟲軟件,只負(fù)責(zé)抓取不負(fù)責(zé)解析
C# 爬蟲



15、spidernet
spidernet是一個(gè)以遞歸樹為模型的多線程web爬蟲程序, 支持text/html資源的獲取. 可以設(shè)定爬行深度, 最大下載字節(jié)數(shù)限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲(chǔ)于sqlite數(shù)據(jù)文件.
源碼中TODO:標(biāo)記描述了未完成功能, 希望提交你的代碼.

  • 授權(quán)協(xié)議: MIT
  • 開發(fā)語言: C#
  • 操作系統(tǒng): Windows
  • 特點(diǎn):以遞歸樹為模型的多線程web爬蟲程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存儲(chǔ)數(shù)據(jù)
github源代碼:https://github.com/nsnail/spidernet
16、Sinawler
國內(nèi)第一個(gè)針對(duì)微博數(shù)據(jù)的爬蟲程序!原名“新浪微博爬蟲”。
登錄后,可以指定用戶為起點(diǎn),以該用戶的關(guān)注人、粉絲為線索,延人脈關(guān)系搜集用戶基本信息、微博數(shù)據(jù)、評(píng)論數(shù)據(jù)。
該應(yīng)用獲取的數(shù)據(jù)可作為科研、與新浪微博相關(guān)的研發(fā)等的數(shù)據(jù)支持,但請(qǐng)勿用于商業(yè)用途。該應(yīng)用基于.NET2.0框架,需SQL SERVER作為后臺(tái)數(shù)據(jù)庫,并提供了針對(duì)SQL Server的數(shù)據(jù)庫腳本文件。
另外,由于新浪微博API的限制,爬取的數(shù)據(jù)可能不夠完整(如獲取粉絲數(shù)量的限制、獲取微博數(shù)量的限制等)
5.x版本已經(jīng)發(fā)布! 該版本共有6個(gè)后臺(tái)工作線程:爬取用戶基本信息的機(jī)器人、爬取用戶關(guān)系的機(jī)器人、爬取用戶標(biāo)簽的機(jī)器人、爬取微博內(nèi)容的機(jī)器人、爬取微博評(píng)論的機(jī)器人,以及調(diào)節(jié)請(qǐng)求頻率的機(jī)器人。更高的性能!最大限度挖掘爬蟲潛力! 以現(xiàn)在測試的結(jié)果看,已經(jīng)能夠滿足自用。
程序特點(diǎn):

  • 6個(gè)后臺(tái)工作線程,最大限度挖掘爬蟲性能潛力!
  • 界面上提供參數(shù)設(shè)置,靈活方便
  • 拋棄app.config配置文件,自己實(shí)現(xiàn)配置信息的加密存儲(chǔ),保護(hù)數(shù)據(jù)庫帳號(hào)信息
  • 自動(dòng)調(diào)整請(qǐng)求頻率,防止超限,也避免過慢,降低效率
  • 任意對(duì)爬蟲控制,可隨時(shí)暫停、繼續(xù)、停止爬蟲
  • 良好的用戶體驗(yàn)


  • 授權(quán)協(xié)議: GPLv3
  • 開發(fā)語言: C# .NET
  • 操作系統(tǒng): Windows
17、Web Crawler
mart and Simple Web Crawler是一個(gè)Web爬蟲框架。集成Lucene支持。該爬蟲可以從單個(gè)鏈接或一個(gè)鏈接數(shù)組開始,提供兩種遍歷模式:最大迭代和最大深度。可以設(shè)置 過濾器限制爬回來的鏈接,默認(rèn)提供三個(gè)過濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個(gè)過濾器可用AND、OR和NOT聯(lián)合。在解析過程或頁面加載前后都可以加監(jiān)聽器。介紹內(nèi)容來自O(shè)pen-Open

  • 開發(fā)語言: Java
  • 操作系統(tǒng): 跨平臺(tái)
  • 授權(quán)協(xié)議: LGPL
  • 特點(diǎn):多線程,支持抓取PDF/DOC/EXCEL等文檔來源
18、網(wǎng)絡(luò)礦工
Soukey采摘網(wǎng)站數(shù)據(jù)采集軟件是一款基于.Net平臺(tái)的開源軟件,也是網(wǎng)站數(shù)據(jù)采集軟件類型中唯一一款開源軟件。盡管Soukey采摘開源,但并不會(huì)影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。

  • 授權(quán)協(xié)議: BSD
  • 開發(fā)語言: C# .NET
  • 操作系統(tǒng): Windows
  • 特點(diǎn):功能豐富,毫不遜色于商業(yè)軟件
以上就是今天的分享,推薦閱讀我曾經(jīng)寫過的一篇
GitHub 上有哪些優(yōu)秀的 Java 爬蟲項(xiàng)目?九章算法,國內(nèi)&硅谷一線工程師在線直播授課,已經(jīng)幫助30000+人成功拿到心儀offer。
tips: 點(diǎn)贊、喜歡、轉(zhuǎn)發(fā)三連是我更新的動(dòng)力~ ↙?↙???
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

49

帖子

9

積分

Rank: 1

20
發(fā)表于 2021-12-13 19:30:19 | 只看該作者
原始數(shù)據(jù)哪里找?200個(gè)國內(nèi)外經(jīng)濟(jì)/金融/行研/咨詢數(shù)據(jù)網(wǎng)站大全(附鏈接)
資料搜集是個(gè)相當(dāng)繁瑣與累的工作,也是數(shù)據(jù)分析入門的基本,良好的信息資料搜集能力有利于我們快速了解數(shù)據(jù)的基本情況,為后續(xù)的調(diào)研及一手資料的獲得打下較好的基礎(chǔ)。

一、搜索引擎(重點(diǎn)掌握)
搜索引擎是我們信息資料搜集的最重要的渠道之一,用搜索引擎查找信息資料需要使用恰當(dāng)?shù)年P(guān)鍵詞和一些搜索技巧。目前國內(nèi)主要的搜集引擎有如下10個(gè),近期還有較多行業(yè)型搜索冒出來,需找專業(yè)型行業(yè)資料可以使用行業(yè)型搜索引擎。
由于每個(gè)搜索引擎都有一定的局限性,可以把要搜索的關(guān)鍵詞在多個(gè)搜索引擎試一下,可能會(huì)搜出你意想不到的結(jié)果。
大家對(duì)國內(nèi)的引擎基本都很熟悉,尤其是百度和google,需要搜索同一主題的資料,不同的人所搜出來的結(jié)果可能就天差地別了,主要原因在于如下兩點(diǎn):

1.搜索關(guān)鍵字的選擇
舉例說明,假如我們要搜索大數(shù)據(jù)行業(yè)發(fā)展相關(guān)資料,如果我們就在百度上搜索“大數(shù)據(jù)”,結(jié)果非常多,無法進(jìn)行篩選,可以對(duì)關(guān)鍵詞進(jìn)一步界定,如“大數(shù)據(jù)行業(yè)”、“大數(shù)據(jù)市場規(guī)?!?、“中國大數(shù)據(jù)產(chǎn)業(yè)”、“大數(shù)據(jù)技術(shù)”、“大數(shù)據(jù)企業(yè)”等等,需要不停地變換搜索關(guān)鍵詞,直到查到滿意的搜索結(jié)果,在查找的過程中可以根據(jù)查找結(jié)果內(nèi)容再進(jìn)行對(duì)關(guān)鍵詞進(jìn)行修正,修正有些名稱專業(yè)表達(dá)方式,因?yàn)樽铋_始搜索我們表達(dá)的不一定準(zhǔn)確。

2.搜索技巧
主要是針對(duì)百度、google等搜索引擎一些高級(jí)搜索技巧。常用技巧主要有如下幾個(gè)方面:
(1)文件類型搜索:使用filetype,如在百度或google中鍵入“filetype:pdf 大數(shù)據(jù)”搜索出有關(guān)大數(shù)據(jù)內(nèi)容pdf內(nèi)容,而且這些文檔基本都是可直接下載。還可以變換為其他的如“filetype:doc”、“filetype:ppt”
、“filetype:xls”等等,注意其中的冒號(hào)為英文的冒號(hào),一定要變換為英文冒號(hào)。
(2)定位于哪個(gè)網(wǎng)站上搜索:使用site,如在百度或google中鍵入“大數(shù)據(jù)空格site:sina.com”,則在http://sina.com搜索有關(guān)大數(shù)據(jù)的一些資料信息,這個(gè)特別適用針對(duì)某些信息可能在哪些網(wǎng)站上出現(xiàn)的一個(gè)快速搜索方法,注意冒號(hào)也是英文的,網(wǎng)站名稱也不用加www。
(3)精確匹配搜索:使用“”,如在百度中鍵入“大數(shù)據(jù)行業(yè)”,表示搜索“大數(shù)據(jù)行業(yè)”五個(gè)必須聯(lián)在一起的,如果不加“”,搜到的為大數(shù)據(jù)及行業(yè)兩個(gè)詞并列顯示結(jié)果,沒有這么精確匹配。
(4)限制性的網(wǎng)頁搜索:使用intitle,如在百度鍵入“intitie:大數(shù)據(jù)”,限定于搜索標(biāo)題中含有“大數(shù)據(jù)”網(wǎng)頁,如果輸入“intitie:大數(shù)據(jù)市場規(guī)模”限定于搜索標(biāo)題中含有“大數(shù)據(jù)”和“市場規(guī)?!钡木W(wǎng)頁。

附:搜索引擎推薦
1)http://scholar.google.com/
雖然還是Beta版,但個(gè)人已覺得現(xiàn)在已經(jīng)是很好很強(qiáng)大了,Google學(xué)術(shù)搜索濾掉了普通搜索結(jié)果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次數(shù)。略顯不足的是,它搜索出來的結(jié)果沒有按照權(quán)威度(譬如影響因子、引用次數(shù))依次排列,在中國搜索出來的,前幾頁可能大部分為中文的一些期刊的文章。
2)http://www.scirus.com
Scirus 是目前互聯(lián)網(wǎng)上最全面、綜合性最強(qiáng)的科技文獻(xiàn)搜索引擎之一,由Elsevier科學(xué)出版社開發(fā),用于搜索期刊和專利,效果很不錯(cuò)!Scirus覆蓋的學(xué)科 范圍包括:農(nóng)業(yè)與生物學(xué),天文學(xué),生物科學(xué),化學(xué)與化工,計(jì)算機(jī)科學(xué),地球與行星科學(xué),經(jīng)濟(jì)、金融與管理科學(xué),工程、能源與技術(shù),環(huán)境科學(xué),語言學(xué),法 學(xué),生命科學(xué),材料科學(xué),數(shù)學(xué),醫(yī)學(xué),神經(jīng)系統(tǒng)科學(xué),藥理學(xué),物理學(xué),心理學(xué),社會(huì)與行為科學(xué),社會(huì)學(xué)等。
3)http://www.base-search.net/
BASE是德國比勒費(fèi)爾德(Bielefeld)大學(xué)圖書館開發(fā)的一個(gè)多學(xué)科的學(xué)術(shù)搜索引擎,提供對(duì)全球異構(gòu)學(xué)術(shù)資源的集成檢索服務(wù)。它整合了德國比勒費(fèi)爾德大學(xué)圖書館的圖書館目錄和大約160個(gè)開放資源(超過200 萬個(gè)文檔)的數(shù)據(jù)。
4)http://www.vascoda.de/
Vascoda是一個(gè)交叉學(xué)科門戶網(wǎng)站的原型,它注重特定主題的聚合,集成了圖書館的收藏、文獻(xiàn)數(shù)據(jù)庫和附加的學(xué)術(shù)內(nèi)容。
5)http://www.goole.com/
與google比較了一下發(fā)現(xiàn),能搜索到一些google搜索不到的好東東 。它界面簡潔,功能強(qiáng)大,速度快,YAHOO、網(wǎng)易都采用了它的搜索技術(shù)。各位可以一試。
6)http://www.a9.com
Google在同一水平的搜索引擎。是http://Amazon.com推出的,Webresult部分是基于Google的,所以保證和Google在同一水平,另外增加了Amazon的在書本內(nèi)搜索的功能和個(gè)性化功能:主要是可以記錄你的搜索歷史。現(xiàn)在還是Beta,不過試用后感覺很好,向大家推薦一試 ,不過缺憾是現(xiàn)在書本內(nèi)搜索沒有中文內(nèi)容。
7)http://www.ixquick.com
嚴(yán)格意義上講不是搜索引擎,是連接搜索引擎和網(wǎng)絡(luò)用戶的信息立交橋。新一代的搜索引擎應(yīng)運(yùn)而生,Ixquick meta-search正是目前最具光芒的新星。但是對(duì)于大多數(shù)國內(nèi)用戶來說,Ixquick還很陌生。Ixquick眾多獨(dú)特的功能我不一一介紹了,只介紹我們最關(guān)心的,搜索數(shù)據(jù)庫密碼。
使用方法:先進(jìn)入Ixquick,以“Proquest”數(shù)據(jù)庫為例。填入Proquest Username Password History Online后點(diǎn)擊search,看看出來的結(jié)果,第一頁中第6個(gè),proquest的username和password赫然在目,別急,再看第4個(gè)結(jié) 果“HB Thompson Subscription Online Databases”,即http://homework.syosset.k12.ny.us/onlinedbs/HBTDatabases/,進(jìn)入 后發(fā)現(xiàn)這是一個(gè)密碼頁,選擇Magazines& Journals欄,就有 EBSCO、Electric Library Elementary、Electric LibraryElementary、ProQuest Platinum (in school)、ProQuest Platinum(remote)等眾多數(shù)據(jù)庫的密碼,都有uesrname和password,隨便試一下EBSCO,OK,成功登陸。
8)http://vivisimo.com/
cmu的作品,對(duì)搜索的內(nèi)容進(jìn)行分類,這樣可以有效地做出選擇,比較有特色。可實(shí)現(xiàn)分類檢索,檢索速度也很好,如EBSCO 密碼幾分鐘就可找一大堆 .
http://search.epnet.com/,User ID:mountain,Password: ridge,這個(gè)密碼可以試試。
9)http://www.findarticles.com/
一個(gè)檢索免費(fèi)paper的好工具。進(jìn)入網(wǎng)頁以后,可以看到他有三個(gè)功能,driectory web article,其中article對(duì)我們很有幫助,你可以嘗試輸入你要找的文章,會(huì)有很多發(fā)現(xiàn)的!
10)http://www.chmoogle.com
現(xiàn)點(diǎn)擊后或跳轉(zhuǎn)到http://www.emolecules.com,在此搜索引擎里可以搜索到超過千萬種化學(xué)品信息或相應(yīng)的供應(yīng)商,與Chemblink有點(diǎn)相似,但提供的化學(xué)品理化信息沒有Chemblink詳細(xì),與其不同的是該搜索引擎可提供化學(xué)品結(jié)構(gòu)式搜索(主頁上有在線繪制化學(xué)結(jié)構(gòu)式的搜索框)。
11)http://www.ojose.com/
OJOSE (Online JournalSearch Engine,在線期刊搜索引擎)是一個(gè)強(qiáng)大的免費(fèi)科學(xué)搜索引擎,通過OJOSE,你能查找、下載或購買到近60個(gè)數(shù)據(jù)庫的資源。但是感覺操作比較復(fù)雜。
12)http://citeseer.ist.psu.edu/
一個(gè)關(guān)于計(jì)算機(jī)和信息科學(xué)的搜索引擎。
13)http://hpsearch.uni-trier.de/
專家個(gè)人主頁搜索引擎。
14)http://www.aol.com
里面的搜索引擎功能由google提供,搜索結(jié)果與google一樣,如果google無法登陸,可以用這個(gè)網(wǎng)站代替。

二、數(shù)據(jù)庫
數(shù)據(jù)庫是研究人員重要的數(shù)據(jù)來源之一,目前券商、基金研究研究機(jī)構(gòu)都購買有商業(yè)數(shù)據(jù)庫,目前研究用的數(shù)據(jù)庫主要分為兩大類,一是商業(yè)數(shù)據(jù)庫,二是學(xué)術(shù)數(shù)據(jù)庫。
1.商業(yè)數(shù)據(jù)庫
商業(yè)數(shù)據(jù)庫大多為金融投資所用,主要分為國內(nèi)與國外數(shù)據(jù)庫兩大類。
(1)國內(nèi)商業(yè)數(shù)據(jù)庫
國內(nèi)數(shù)據(jù)庫主要有如萬德、恒生聚源、銳思數(shù)據(jù)庫、CSMAR數(shù)據(jù)庫、巨潮數(shù)據(jù)庫等。目前萬德數(shù)據(jù)庫主要定位于國內(nèi)高端客戶,市場占有率較高,80%左右,當(dāng)然其售價(jià)較高。恒生聚源也定位為機(jī)構(gòu)客戶,性價(jià)比較高,售價(jià)要比萬德便宜的多。CSMAR數(shù)據(jù)庫定位于學(xué)術(shù)與高校,其中金融數(shù)據(jù)比較全,強(qiáng)大。銳思數(shù)據(jù)庫定位于學(xué)術(shù),質(zhì)量一般。巨潮數(shù)據(jù)庫為深交所旗下數(shù)據(jù)庫,有一定的特殊優(yōu)勢。
(2)國外商業(yè)數(shù)據(jù)庫
國外數(shù)據(jù)庫主要有彭博、路透社、CEIC、OECD、Haver Database、Thomson Financial One Banker等,國外數(shù)據(jù)庫中彭博是比較全也大的,在國內(nèi)銷售也較好,但是售價(jià)奇貴。一般不做國際市場研究,大多用不到國外數(shù)據(jù)庫,畢竟國外數(shù)據(jù)庫公司對(duì)國內(nèi)的行業(yè)數(shù)據(jù)及公司數(shù)據(jù)不如本土數(shù)據(jù)庫公司的做得好。

2.學(xué)術(shù)數(shù)據(jù)庫
學(xué)術(shù)數(shù)據(jù)庫基本為高校、研究機(jī)構(gòu)所用,也分為國內(nèi)與國外兩大類,學(xué)術(shù)數(shù)據(jù)庫中一些學(xué)術(shù)論文、行業(yè)數(shù)據(jù)、統(tǒng)計(jì)年鑒還是有用的,缺點(diǎn)就是其中有些數(shù)據(jù)的相對(duì)較舊,無法做到實(shí)時(shí)更新。
(1)國內(nèi)學(xué)術(shù)數(shù)據(jù)庫
中國知網(wǎng):國內(nèi)最大學(xué)術(shù)數(shù)據(jù)庫,包括期刊、學(xué)位論文、統(tǒng)計(jì)年鑒等。
萬方數(shù)據(jù):僅次于中國知網(wǎng),包括期刊、學(xué)位論文等。
人大復(fù)印資料:期刊、論文等。
維普:期刊、論文等。
中經(jīng)網(wǎng):有較多行業(yè)研究報(bào)告,宏觀數(shù)據(jù)較全。
國研網(wǎng):數(shù)據(jù)較為權(quán)威,有些報(bào)告可以一看。
上海公共研發(fā)平臺(tái):可以注冊(cè),人工審核,內(nèi)包含較多數(shù)據(jù)庫。
(2)國外學(xué)術(shù)數(shù)據(jù)庫
EBSCO:較全的一個(gè)數(shù)據(jù)庫,內(nèi)包含較多的商業(yè)數(shù)據(jù),好用
Elsevier:學(xué)術(shù)文章全,更新速度快。
以上大致介紹了國內(nèi)的商業(yè)及學(xué)術(shù)數(shù)據(jù)庫,但這些數(shù)據(jù)庫都是通過收費(fèi)或?qū)W校賬號(hào)才能使用,對(duì)于平時(shí)臨時(shí)研究用的一些人,沒有必要去購買,下面介紹一些免費(fèi)可用的數(shù)據(jù)庫。
數(shù)據(jù)匯
http://www.shujuhui.com/database/;
國內(nèi)的宏觀數(shù)據(jù),國外的也有一部分,可以導(dǎo)出來,免費(fèi)好用。
數(shù)據(jù)圈:
http://www.shujuquan.com.cn/;
免費(fèi)共享平臺(tái),行業(yè)研究報(bào)告,統(tǒng)計(jì)年鑒等;
FRED:
http://research.stlouisfed.org/fred2/;
OECD:
http://www.oecd-ilibrary.org/economics;
聯(lián)合國圖書館。
臺(tái)灣學(xué)術(shù)數(shù)據(jù)庫:
http://fedetd.mis.nsysu.edu.tw/;
部分文章提供免費(fèi)全文下載。
臺(tái)灣大學(xué)電子書:
http://ebooks.lib.ntu.edu.tw/Home/ListBooks
三、共享文庫
首先也非常感謝共享文庫的出現(xiàn),使得大家搜集信息方便了許多,隨最早的豆丁、百度、愛問等共享文庫的出現(xiàn),隨后到如今出現(xiàn)許多共享文庫,不過很多文庫規(guī)模較小,文檔數(shù)量較少。
(1)國內(nèi)主要文庫
百度文庫:http://wenku.baidu.com/;
國內(nèi)文檔數(shù)據(jù)量最大的共享文庫,綜合型的,好用。。
豆丁文庫:http://www.docin.com/;
其收費(fèi)的盈利模式導(dǎo)致用戶數(shù)量逐年減少,文檔質(zhì)量也不如百度文庫。
愛問共享:
http://ishare.iask.sina.com.cn/;
綜合型文庫,里面也時(shí)常發(fā)現(xiàn)好的行業(yè)研究報(bào)告,電子書籍等。
道客巴巴:http://www.doc88.com/;
綜合型文庫,后起之秀,文檔數(shù)量和質(zhì)量較好。
智庫文檔:http://doc.mbalib.com/;
以管理、行業(yè)文檔為主。
質(zhì)量較好文庫大全:http://www.wenkudaquan.com/;
無需注冊(cè),通過點(diǎn)擊廣告模式盈利,文檔內(nèi)容多。
IT168文庫:http://wenku.it168.com/;
專業(yè)型文庫,以計(jì)算機(jī)及IT技術(shù)相關(guān)的文檔為主。
CSDN文庫:http://www.csdn.net/;
全球最大的中文IT社區(qū)。
呱仕網(wǎng):http://www.guasee.com/;
以創(chuàng)業(yè)投資、證券市場等文檔為主的專業(yè)型文庫,剛起步狀態(tài)。
新浪地產(chǎn):http://dichan.sina.com.cn/;
國內(nèi)最大房地產(chǎn)類文庫,房地產(chǎn)相關(guān)策劃、數(shù)據(jù)較全。

(2)國外文庫
Scribd:http://www.scribd.com;
全球最大的文檔分享平臺(tái)。
Docstoc:http://www.docstoc.com;
在線文檔與圖片分享平臺(tái)。
針對(duì)以上國內(nèi)的共享文庫,都可以通過注冊(cè)賬號(hào),上傳分享資料賺取積分,通過積分可以下載文庫資料。如果有些文檔看過后不錯(cuò)想保存下來積分不夠,可以通過文庫下載器來免費(fèi)下載保存,文庫下載器有如“冰點(diǎn)文庫下載、易讀下載、老張文庫下載”等等,如果只看重其中一部分內(nèi)容,可以通過QQ拷屏方式保留下來(登陸QQ,ctrl+alt+a拷屏)。
四、專業(yè)網(wǎng)站
在共享文庫未出現(xiàn)以前,專業(yè)論壇一直擔(dān)任著查找資料的好去處,的確國內(nèi)的一些論壇經(jīng)過這么多年的運(yùn)營,已經(jīng)積累大量有用文檔。下面主要介紹我們常用的專業(yè)論壇。
1.人大經(jīng)濟(jì)論壇:http://bbs.pinggu.org/
經(jīng)濟(jì)、學(xué)術(shù)型論壇,其中行業(yè)研究、統(tǒng)計(jì)年鑒數(shù)量多,更新速度快,我的最愛,常用。(如哪位仁兄想下載其中其他地方找不到的文檔,積分不夠,請(qǐng)用微信私信給我,我來幫你解決)。
2.經(jīng)濟(jì)學(xué)家:http://bbs.jjxj.org/
經(jīng)濟(jì)學(xué)專業(yè)論壇,其中統(tǒng)計(jì)年鑒、行業(yè)報(bào)告、國內(nèi)外數(shù)據(jù)等有特色。
3.隨意網(wǎng)-經(jīng)濟(jì)論壇:
http://economic.5d6d.net/
新建網(wǎng)站,有些內(nèi)容尚可。
4.理想在線:http://www.55188.com
股票券商研究報(bào)告。
5.邁博匯金:http://www.hibor.com.cn/
股票券商研究報(bào)告,目前已經(jīng)收費(fèi)了,只能查詢有哪些最新報(bào)告了,無法下載。
6.博瑞金融:
http://www.brjr.com.cn/forum.php
金融行業(yè)專業(yè)型論壇。
7.華爾街社區(qū):
http://forum.cnwallstreet.com/index.php
國內(nèi)專業(yè)的金融論壇。
8.投行先鋒論壇:http://www.thxflt.com/
專業(yè)型為投行人士探討而設(shè)立的論壇。
9.春暉投行在線:
http://www.shenchunhui.com/
證券相關(guān)政策的匯編整合論壇。
10.中華股權(quán)投資論壇:
http://www.tzluntan.com/
pe投資專業(yè)型論壇。
其他專業(yè)網(wǎng)站:
投行網(wǎng)站
http://macabacus.com/。
http://www.wallstreetoasis.com/。
http://www.ibankingfaq.com/。
IPOhttp://stocks.etnet.com.cn/www/sc/stocks/ci_ipo.php。
IPOhttp://www.aastocks.com/sc/ipo/sponsor.aspx。
julinghttp://terminal.chinaef.com/index.action。
MA http://www.mergermarket.com/info/。
各大咨詢公司報(bào)告
http://www.deloitte.com/view/zh_CN/cn/services/。
http://www.deloitte.com/view/en_GX/global/insights/index.htm。
http://www.kpmg.com/CN/en/IssuesAndInsights/Pages/default.aspx。
http://www.mckinsey.com/locations/chinasimplified/。
http://www-31.ibm.com/cn/services/bcs/。
http://www.bcg.com.cn/cn/newsandpublications/newsandpublictions_publications.html。
http://www.ebusinessreview.cn/。
http://www.ey.com/CN/ZH/home/library。
http://www.bain.cn/news.php。
https://china.mckinseyquarterly.com/home.aspx。
http://www.pwccn.com/home/eng/libraryindex.html。
http://www2.hewittassociates.com/Intl/AP/zh-CHT/Default.aspx。
http://www.booz.com/global/home/what_we_think/cds_home/m_and_a/cds_our-leading-research-on-ma。

五、政府部門
政府部門是國內(nèi)公開數(shù)據(jù)的來源,查詢權(quán)威的數(shù)據(jù)可以到政府相關(guān)部門網(wǎng)站,以下介紹國內(nèi)的主要發(fā)布相關(guān)數(shù)據(jù)的政府部門。
1.國家統(tǒng)計(jì)局:http://www.stats.gov.cn/
這個(gè)不用多說,大家很多人瀏覽過。
2.工業(yè)和信息化部:
http://www.miit.gov.cn
較多數(shù)據(jù)在此發(fā)布,尤其是有關(guān)工業(yè)運(yùn)行及信息化相關(guān)數(shù)據(jù)。
3.中國人民銀行:http://www.pbc.gov.cn/
中國金融市場政策及運(yùn)行相關(guān)數(shù)據(jù)。
4.銀監(jiān)會(huì):http://www.cbrc.gov.cn
銀行金融相關(guān)數(shù)據(jù)。
5.中國海關(guān):http://www.customs.gov.cn
中國進(jìn)出口相關(guān)數(shù)據(jù)。
6.國家知識(shí)產(chǎn)權(quán)局:
http://www.sipo.gov.cn
專利相關(guān)查詢
7.中國證監(jiān)會(huì):http://www.csrc.gov.cn
相關(guān)政策及招股書披露平臺(tái),以及擬上市公司排隊(duì)每周披露。
8.巨潮信息網(wǎng):
http://www.cninfo.com.cn/
中國資本市場指定披露平臺(tái),上市公司相關(guān)年報(bào)、季報(bào)及公告披露信息。

六、專業(yè)網(wǎng)站
1.上海證券交易所:
http://www.sse.com.cn/
其中研究出版欄目中有些研究報(bào)告
2.深圳證券交易所:http://www.szse.cn/
其中研究/刊物中有研究報(bào)告
3.全國中小企業(yè)股份轉(zhuǎn)讓系統(tǒng)(新三板):http://www.neeq.com.cn/
新三板掛牌公司的轉(zhuǎn)讓及信息披露。
4.香港證券交易所:
http://www.hkexnews.hk/index_c.htm;
5.臺(tái)灣證券交易所:
http://www.tse.com.tw/ch/index.php。
6.新加坡證券交易所:
http://www.sgx.com/
7.紐約證券交易所:http://www.nyse.com
8.納斯達(dá)克證券交易所:
http://www.nasdaq.com

七、如何尋找國外資源
1.搜集美國相關(guān)數(shù)據(jù)
由位于華盛頓的美國政府印刷辦公室出版、經(jīng)濟(jì)顧問委員會(huì)撰寫的《總統(tǒng)經(jīng)濟(jì)報(bào)告》(Economic Report of President),提供了有關(guān)美國當(dāng)前經(jīng)濟(jì)形勢的描述和主要宏觀經(jīng)濟(jì)變量數(shù)據(jù)。相當(dāng)多的數(shù)據(jù)都可以追溯到1959年,甚至個(gè)別的可追溯到1929年??赡苣阋呀?jīng)留意到了,好多有關(guān)美國的圖形,都是采用《總統(tǒng)經(jīng)濟(jì)報(bào)告》(2005)所附數(shù)據(jù)生成的。這些數(shù)據(jù)可以免費(fèi)下載,網(wǎng)址是http://www.access.gpo.gov/eop/。
如果需要一應(yīng)俱全的數(shù)據(jù),一個(gè)寶貴的權(quán)威來源是,美國商務(wù)部統(tǒng)計(jì)局出版的《美國統(tǒng)計(jì)概要》(Statistical Abstract of the United States),相當(dāng)一部分?jǐn)?shù)據(jù)可以免費(fèi)下載,網(wǎng)址是http://www.census.gov/statab/www/。
如果想獲得最近數(shù)據(jù)的詳細(xì)資料,一個(gè)不錯(cuò)的選擇是,美國商務(wù)經(jīng)濟(jì)分析局每月出版的《當(dāng)代商業(yè)縱覽》(Survey of Current Business)。網(wǎng)址是,http://www.bea.doc.gov。

2.如何搜集國外其他經(jīng)濟(jì)體數(shù)據(jù)
對(duì)富裕國家來說,最有用的資料來源于經(jīng)濟(jì)合作與發(fā)展組織(Organization of Economic Cooperation and Development,簡稱OECD)。經(jīng)濟(jì)合作與發(fā)展組織的成員包括:奧地利、澳大利亞、比利時(shí)、加拿大、捷克共和國、丹麥、芬蘭、法國、德國、希臘、匈牙利、冰島、意大利、日本、盧森堡、墨西哥、荷蘭、新西蘭、挪威、波蘭、葡萄牙、韓國、西班牙、瑞典、瑞士、土耳其、英國和美國。看來,世界上的富裕國家大都屬于該組織,其產(chǎn)出占世界產(chǎn)出的70%左右。OECD的網(wǎng)址是http://www.oecd.org,提供三種極為有用的數(shù)據(jù)。
《OECD經(jīng)濟(jì)展望》(OECD Economic Outlook),每年出版兩次,提供許多跨國宏觀經(jīng)濟(jì)數(shù)據(jù)。這些數(shù)據(jù)一般都上溯到20世紀(jì)70年代,而且具有很好的一致性。
《OECD就業(yè)展望》(OECD Employment Outlook),每年出版一次,專門提供勞動(dòng)力市場的數(shù)據(jù)?!禣ECD歷史統(tǒng)計(jì)》(OECD Historical Statistics),不定期出版,將當(dāng)期數(shù)據(jù)和過去數(shù)據(jù)放在一起。
對(duì)于不是OECD成員的國家和地區(qū),可以從其它國際組織那里獲得相關(guān)數(shù)據(jù),比如國際貨幣基金組織(International Monetary Fund,簡稱IMF),其網(wǎng)址是http://www.imf.org。IMF提供《國際金融統(tǒng)計(jì)年鑒》(InternationalFinancial Statistics Yearbook),它主要提供成員國的金融數(shù)據(jù),但也包括一些總體數(shù)據(jù),比如GDP、失業(yè)和通貨膨脹等。
至于若干國家長期的統(tǒng)計(jì)數(shù)據(jù),兩個(gè)不可多得的數(shù)據(jù)來源是,Heston-Summers數(shù)據(jù)庫和Madison數(shù)據(jù)庫。Heston-Summers數(shù)據(jù)庫提供168經(jīng)濟(jì)體在1950-2000年間的跨國可比數(shù)據(jù),在賓夕法尼亞大學(xué)國際比較中心(Center for International Comparisons at the University ofPennsylvania)網(wǎng)站上可以下載,http://pwt.econ.upenn.edu/。Madison數(shù)據(jù)庫提供了自1820年以來56個(gè)經(jīng)濟(jì)體的數(shù)據(jù)。
最后,如果還沒有找到你要的數(shù)據(jù),不妨登陸下面的兩個(gè)網(wǎng)站,也許是根稻草。哈佛商學(xué)院的宏觀經(jīng)濟(jì)學(xué)資源網(wǎng)站www.hbs.edu./units/bgie/internet/,提供了大量連接。由密西西比大學(xué)BillGoffe維護(hù)的一個(gè)網(wǎng)站http://rfe.wustl.edu,不僅列出了數(shù)據(jù)來源,而且還列出了有關(guān)經(jīng)濟(jì)的其他信息來源。
八、分行業(yè)網(wǎng)站
1.互聯(lián)網(wǎng)及傳媒
(1)資訊類
新浪科技 http://tech.sina.com.cn/。
騰訊科技 http://tech.qq.com/。
艾瑞網(wǎng) http://www.iresearch.cn/。
藝恩網(wǎng) http://www.entgroup.cn/。
虎嗅網(wǎng) http://wwww.huxiu.com/。
36kr http://36kr.com/。
鈦媒體 http://www.tmtpost.com/。
游戲大觀 http://www.gamelook.com.cn/。
億歐網(wǎng) http://www.iyiou.com/。
媒介360
http://www.chinamedia360.com/main。
(2)數(shù)據(jù)類
中國票房 http://www.cbooo.cn/。
中國互聯(lián)網(wǎng)絡(luò)信息中心
http://www.cnnic.net.cn/。
艾瑞網(wǎng):
http://www.iresearch.com.cn/report/viewlist.aspx。
易觀智庫 http://www.analysys.cn/。
游戲產(chǎn)業(yè)網(wǎng):
http://www.cgigc.com.cn/list/79644663134.html。
百度指數(shù) http://index.baidu.com/。
大數(shù)據(jù)導(dǎo)航
http://hao.199it.com/。
CSM(電視收視率) http://www.csm.com.cn/。
微排片 http://www.weipaipian.com。

2.醫(yī)藥行業(yè)
(1)樣本醫(yī)院數(shù)據(jù)
化藥、生物藥和中藥注射劑 http://pdb.pharmadl.com/。
中成藥、化藥 http://www.menet.com.cn/。
國外樣本醫(yī)院數(shù)據(jù)彭博上有類似PDB的數(shù)據(jù)庫。
(2)藥品中標(biāo)價(jià)格
百度蟲,藥智網(wǎng),健康網(wǎng) (付費(fèi)),米內(nèi)網(wǎng)(付費(fèi))。
(3)藥品招標(biāo)政策
各省藥品招標(biāo)平臺(tái)。
(4)醫(yī)療器械數(shù)據(jù)
基本沒有,米內(nèi)網(wǎng)有付費(fèi)數(shù)據(jù)庫(沒見過)、海關(guān)信息網(wǎng)。
(5)中藥材數(shù)據(jù)
中藥材天地網(wǎng)、萬得的EDB、中藥材東方網(wǎng)。
(6)藥品審批
藥智網(wǎng)、藥監(jiān)局、CDE網(wǎng)站。
(7)醫(yī)藥行業(yè)政策
國家藥監(jiān)局、發(fā)改委、中國政府網(wǎng)、衛(wèi)計(jì)委等等。
(8)國內(nèi)外行業(yè)協(xié)會(huì)和咨詢機(jī)構(gòu)
例IMS Health、XX醫(yī)藥協(xié)會(huì)。
(9)新聞網(wǎng)站/微信
賽柏藍(lán)、米內(nèi)網(wǎng)、生物谷、新康界、醫(yī)谷、藥友匯、丁香園、動(dòng)脈網(wǎng)、貝殼社。

3.銀行業(yè)
(1)新聞資訊
中證網(wǎng) http://www.cs.com.cn/xwzx/hg/
一財(cái)網(wǎng) http://www.yicai.com/economy/
財(cái)新網(wǎng) http://finance.caixin.com/bank/
華爾街見聞 http://wallstreetcn.com/news?cid=19
新浪財(cái)經(jīng) http://finance.sina.com.cn/
證券時(shí)報(bào)網(wǎng) http://www.stcn.com/
中國金融新聞網(wǎng) http://www.financialnews.com.cn/yh/xw/
(2)公告、數(shù)據(jù)查找
中國貨幣網(wǎng)
http://www.chinamoney.com.cn/index.html
巨潮網(wǎng) http://www.cninfo.com.cn/
統(tǒng)計(jì)局 http://www.stats.gov.cn/
中國人民銀行 http://www.pbc.gov.cn/
銀監(jiān)會(huì) http://www.cbrc.gov.cn/index.html
上海證券交易所 http://www.sse.com.cn/
深圳證券交易所 http://www.szse.cn/
最常用wind股票數(shù)據(jù)庫

4.有色金屬
(1)日?qǐng)?bào)網(wǎng)站
宏觀新聞:
央行快訊
http://t.news.fx168.com/bank/
行業(yè)新聞:
中國金屬網(wǎng)
http://www.metalchina.com
上海有色網(wǎng)
http://www.smm.cn/index_2015.html
百川咨詢 http://www.baiinfo.com
公司公告:巨潮 http://www.cninfo.com.cn
(2)其他常用站
高工鋰電
http://www.gg-lb.com/default_index_new.php
真鋰研究 http://www.realli.net
深交所互動(dòng)易(查看投資者互動(dòng)資料)
http://irm.cninfo.com.cn/szse/
中金網(wǎng)(有色金屬)
http://www.metalsinfo.com/news/
銀 https://www.silverinstitute.org/site/publications/
銀 http://financial.thomsonreuters.
... /articles/gfms.html。
新三板資訊 http://www.sanban18.com
格隆匯港股
http://www.gelonghui.com/portal.php
九、其他
除以上介紹的幾種資料搜集渠道外,我們也結(jié)合近年it科技的發(fā)展,在博客、微博、空間等去搜索。
1.行業(yè)協(xié)會(huì)網(wǎng)站:每個(gè)行業(yè)協(xié)會(huì)基本都會(huì)有網(wǎng)站,在該網(wǎng)站上能夠查找一些對(duì)本行業(yè)的描述、相關(guān)數(shù)據(jù)等。
2.博客:國內(nèi)有網(wǎng)易、新浪、搜狐、百度空間、和訊等博客網(wǎng)站,有些數(shù)據(jù)也可以從搜索博客中找到。
3.微博:新浪微博及騰訊微博,用數(shù)量極大,其中有些數(shù)據(jù)可以通過搜索查詢到。
4.微信:微信用戶已經(jīng)超過4億,每個(gè)人都是新聞的發(fā)布者,其中數(shù)據(jù)資源豐富,但目前還未提供全文搜索功能,只能通過關(guān)注相關(guān)公共賬號(hào)或關(guān)注朋友圈獲取。
5.QQ空間:有些企業(yè)或機(jī)構(gòu)QQ空間會(huì)有些報(bào)告及數(shù)據(jù)發(fā)布。
6.全景網(wǎng):財(cái)經(jīng)資訊 http://www.p5w.net/。
喜歡記得點(diǎn)贊收藏喲!
*本文轉(zhuǎn)載自公眾號(hào):社科方法網(wǎng)
精選高品質(zhì)二手iPhone,上愛鋒貝APP
您需要登錄后才可以回帖 登錄 | 立即注冊(cè)   

本版積分規(guī)則

QQ|Archiver|手機(jī)版|小黑屋|愛鋒貝 ( 粵ICP備16041312號(hào)-5 )

GMT+8, 2025-2-24 06:55

Powered by Discuz! X3.4

© 2001-2013 Discuz Team. 技術(shù)支持 by 巔峰設(shè)計(jì).

快速回復(fù) 返回頂部 返回列表