愛鋒貝

 找回密碼
 立即注冊

只需一步,快速開始

扫一扫,极速登录

樓主: 小強實驗室
打印 上一主題 下一主題
收起左側(cè)

大家都是在哪些網(wǎng)站找數(shù)據(jù)?

[復(fù)制鏈接]

0

主題

50

帖子

-2

積分

11
發(fā)表于 2021-12-13 04:54:09 | 只看該作者
對于做數(shù)據(jù)分析師或者從事數(shù)據(jù)職業(yè)的人員來說,工作需要的技能應(yīng)用和數(shù)據(jù)網(wǎng)站都是不可缺少的,這次課的內(nèi)容就是關(guān)于他們的介紹啦。這次課學(xué)完,你再也不用擔(dān)心不能處理工作中無法協(xié)同工作的工具以及需要的數(shù)據(jù)資源等相關(guān)材料啦。
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

50

帖子

2

積分

Rank: 1

12
發(fā)表于 2021-12-13 05:52:22 | 只看該作者
想要分析的時候,沒有數(shù)據(jù),就是巧婦難為無米之炊。以前想找一個數(shù)據(jù)需要費盡心思在網(wǎng)上去搜,最終還找不到自己想要的數(shù)據(jù)。通過編程爬蟲數(shù)據(jù),學(xué)習(xí)成本又太高,畢竟你的目標(biāo)不是想要成為爬蟲工程師,只是想要拿到數(shù)據(jù)來分析。那有沒有傻瓜式的獲取數(shù)據(jù)方法呢?
下面介紹4種獲取數(shù)據(jù)的方法,選擇一種適合你自己的方法就可以。


  • 方法一:直接獲取10大行業(yè)免費數(shù)據(jù)


1)如何選擇行業(yè)?
不知道如何選擇行業(yè)的,可以在下面網(wǎng)站里看到各個行業(yè)的分析報告:
如何選擇入職行業(yè) :https://www.zhihu.com/question/24995484/answer/516813008
艾瑞研究-艾瑞網(wǎng)(行業(yè)報告):http://report.iresearch.cn
Talkingdata報告(行業(yè)報告):http://mi.talkingdata.com
199IT互聯(lián)網(wǎng)數(shù)據(jù)中心(行業(yè)報告,內(nèi)容多,支持搜索):http://www.199it.com

2)10大行業(yè)免費數(shù)據(jù)匯總
【優(yōu)點】直接拿來使用
【缺點】數(shù)據(jù)有限
根據(jù)你確定的行業(yè),選擇一個自己感興趣的數(shù)據(jù)。比如你確定了電商行業(yè),然后就找一個電商行業(yè)的數(shù)據(jù)。
在《數(shù)據(jù)分析思維》中匯聚了10多個行業(yè)的數(shù)據(jù)以及分析案例





《數(shù)據(jù)分析思維》12大行業(yè)案例數(shù)據(jù)

更多行業(yè)數(shù)據(jù):
<a href="http://zhuanlan.zhihu.com/p/48413088" class="internal">10大行業(yè)公開數(shù)據(jù)集免費下載:電商零售行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:金融行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:游戲行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:教育行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:旅游行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:文化娛樂行業(yè)(電影,音樂等)
10大行業(yè)公開數(shù)據(jù)集免費下載:醫(yī)療行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:汽車及出行
10大行業(yè)公開數(shù)據(jù)集免費下載:房產(chǎn)行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:自媒體等行業(yè)


  • 方法二:從數(shù)據(jù)平臺獲取
1.國內(nèi)中文平臺:
1)阿里云天池,官網(wǎng)網(wǎng)址:https://tianchi.aliyun.com/dataset/
數(shù)據(jù)下載辦法:






2)DataFountain,官網(wǎng)地址:https://www.datafountain.cn/dataSets
有的文件下載后會顯示后綴是.zip, .zip是個壓縮包,下載后需要減壓后才能看到壓縮包里的excel文件


2.國外英文平臺
Kaggle,官網(wǎng)地址和如何下載數(shù)據(jù):如何在Kaggle上查找數(shù)據(jù)


  • 方法三:傻瓜式爬蟲工具(不需要編程)
【優(yōu)點】在網(wǎng)站上爬取你感興趣領(lǐng)域網(wǎng)站的數(shù)據(jù),可以獲取到自己想要的領(lǐng)域數(shù)據(jù)
【缺點】需要看官網(wǎng)教程來學(xué)習(xí),有一定門檻

1)工具: 后羿,同時有mac,windows版本
網(wǎng)址:http://www.houyicaiji.com/
打開官網(wǎng)后點擊下圖“教程”的地方有入門教程。


2)工具:集搜客,只有windows版本
操作指南只需要看下面紅框中的內(nèi)容就可以,操作指南地址:
https://www.gooseeker.com/tuto/tutorial.html


爬取多少數(shù)據(jù)?
數(shù)據(jù)量少一般說明不了什么問題,起碼的超過幾萬條數(shù)據(jù)。
多嘗試、思維邏輯要清晰,一定要知道自己做什么,爬取什么樣的數(shù)據(jù),提前規(guī)劃好了,整個過程就不會走太多的彎路。


案例:https://zhuanlan.zhihu.com/p/39733403

歡迎留言補充更多行業(yè)數(shù)據(jù)。

上面提到3種獲取數(shù)據(jù)的方法,選擇一種適合你自己方法。獲取數(shù)據(jù)后分析,可以使用這個里面的方法來分析:
如何分析數(shù)據(jù)?
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

57

帖子

6

積分

Rank: 1

13
發(fā)表于 2021-12-13 06:43:14 | 只看該作者
我是IT行業(yè),所以找數(shù)據(jù)通過以下幾個網(wǎng)站
名稱                                      范圍
ICTresearch  產(chǎn)業(yè)
艾瑞咨詢  產(chǎn)業(yè)
工業(yè)和信息化部  產(chǎn)業(yè)
中國電子商務(wù)研究中心  產(chǎn)業(yè)
易觀智庫  產(chǎn)業(yè)
上市公司  公司
中國互聯(lián)網(wǎng)信息中心  互聯(lián)網(wǎng)
互聯(lián)網(wǎng)消費調(diào)研中心  互聯(lián)網(wǎng)
艾瑞咨詢產(chǎn)品  互聯(lián)網(wǎng)
WIND  金融
Gartner  全球
OECD  全球
IDC  全球
賽迪顧問  中國
國家統(tǒng)計局-國家數(shù)據(jù)
國家統(tǒng)計局  中國
國家知識產(chǎn)權(quán)局  中國
百度文庫  綜合
維基百科  綜合
天極網(wǎng)  綜合
網(wǎng)易財經(jīng)
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

43

帖子

6

積分

Rank: 1

14
發(fā)表于 2021-12-13 08:23:03 | 只看該作者
本文轉(zhuǎn)自簡道云的知乎回答有哪些「神奇」的數(shù)據(jù)獲取方式?
已經(jīng)將網(wǎng)站匯總成表格,大家可以下載查看:【簡道云匯總】110+數(shù)據(jù)網(wǎng)站
如果你不是會爬蟲的技術(shù)流,那下面這110+網(wǎng)站可以解決你90%的數(shù)據(jù)需求。
首先,常見的公開數(shù)據(jù)網(wǎng)站在https://hao.199it.com/都可以搜索到。


除此之外,補充上面沒有的一些網(wǎng)站,一共110+,按需選擇:
金融財經(jīng)數(shù)據(jù)


  • 同花順數(shù)據(jù)中心:提供股票債券等金融數(shù)據(jù)
  • 和訊數(shù)據(jù):提供各種股票、基金、外匯、債券等實時數(shù)據(jù),有付費,有免費
  • 零壹財經(jīng):大大小小的網(wǎng)貸數(shù)據(jù)、排行榜等
  • 金融數(shù)據(jù)網(wǎng):提供每日的黃金、匯率、農(nóng)產(chǎn)品、汽油價格的相關(guān)數(shù)據(jù)
  • 蘿卜投研:提供股市、證券等數(shù)據(jù),多以數(shù)據(jù)研究報告形式展示
  • 金融界:提供股市、融資等各種資金流向數(shù)據(jù),以及豐富的財報和研報
  • 東方財富網(wǎng):提供多國的股票、財稅、行業(yè)、消費等大量豐富的經(jīng)濟數(shù)據(jù)
  • 吉林金融網(wǎng):提供吉林的融資、市場數(shù)據(jù)
  • 搜狐證券:提供貨幣、外匯、行業(yè)、市場等宏觀數(shù)據(jù)
  • CCER經(jīng)濟金融數(shù)據(jù)庫:提供企業(yè)財務(wù)年度數(shù)據(jù)、股票收益數(shù)據(jù)等數(shù)據(jù)庫下載
  • 香港金融管理局:提供香港的各種經(jīng)濟及金融數(shù)據(jù),以宏觀數(shù)據(jù)為主
  • 世紀(jì)未來:數(shù)據(jù)服務(wù)平臺,提供銀行業(yè)務(wù)研究、金融大數(shù)據(jù)等各種付費數(shù)據(jù)
  • 新浪財經(jīng):提供國內(nèi)國民經(jīng)濟、行業(yè)信息、對外經(jīng)貿(mào)、居民收入等各種宏觀的經(jīng)濟數(shù)據(jù)
  • 司爾亞司數(shù)據(jù)信息有限公司:覆蓋超過195+個國家的經(jīng)濟數(shù)據(jù)庫,數(shù)據(jù)全面但收費
  • INSEE數(shù)據(jù):法國統(tǒng)計與經(jīng)濟研究院公開數(shù)據(jù)
  • 投中研究院:提供投資領(lǐng)域的分析報告,網(wǎng)站更新頻率較高
互聯(lián)網(wǎng)數(shù)據(jù)

營銷查詢:

  • 5118 / chinaz:支持查詢網(wǎng)站排名及發(fā)展趨勢、百度收錄情況等信息
  • 百度指數(shù):百度旗下/以百度網(wǎng)民行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分享平臺,支持查詢需求圖譜
  • 微信指數(shù):微信旗下/基于微信大數(shù)據(jù)分析的移動端指數(shù),打開微信→搜索“微信指數(shù)”可用
  • 移動觀象臺:基于移動設(shè)備用戶的操作行為,提供應(yīng)用、公眾號排行等,以及大量數(shù)據(jù)報告
  • 新榜/微小寶/易贊:幾款工具比較類似,支持查看公眾號排行、看公眾號人群畫像等功能
  • 阿里指數(shù):阿里旗下/反映淘寶平臺市場動向的數(shù)據(jù)分析平臺
報告分析:

  • 易觀智庫:199IT導(dǎo)航的母網(wǎng)站,權(quán)威的互聯(lián)網(wǎng)數(shù)據(jù)平臺,涵蓋戰(zhàn)略新興產(chǎn)業(yè)、電商互聯(lián)網(wǎng)、共享經(jīng)濟、社交營銷、移動互聯(lián)網(wǎng)以及其他互聯(lián)網(wǎng)服務(wù)的數(shù)據(jù)及分析報告
  • 艾瑞網(wǎng):高頻率更新互聯(lián)網(wǎng)前沿的新聞資訊、分析報告,旗下包括艾瑞指數(shù)、艾瑞咨詢等
  • 艾媒網(wǎng):艾媒與艾瑞無關(guān),艾媒網(wǎng)發(fā)布的研究報告多偏向移動互聯(lián)網(wǎng)方向
  • CBNDdata:以阿里巴巴的商業(yè)數(shù)據(jù)庫為基礎(chǔ),輸出產(chǎn)業(yè)經(jīng)濟分析報告
  • QuestMobile:周期性地發(fā)布一些關(guān)于APP的研究報告
  • 阿里研究院:阿里旗下/發(fā)布研究電商等方向趨勢的數(shù)據(jù)報告,內(nèi)容多與阿里相關(guān)
  • 360研究報告:360旗下/移動、PC、網(wǎng)站、企業(yè)、詐騙等安全領(lǐng)域的研究,以及大數(shù)據(jù)等非安全領(lǐng)域的研究
  • 中國互聯(lián)網(wǎng)信息研究中心:經(jīng)國家主管部門批準(zhǔn)組建的管理和服務(wù)機構(gòu),經(jīng)常發(fā)布一些有價值的互聯(lián)網(wǎng)信息報告
  • 中國信通院:針對互聯(lián)網(wǎng)多個行業(yè)的發(fā)展趨勢,發(fā)布白皮書,角度較為宏觀
  • 中國互聯(lián)網(wǎng)數(shù)據(jù)平臺:提供全國各地區(qū)互聯(lián)網(wǎng)發(fā)展報告、基礎(chǔ)數(shù)據(jù)及研究分析報告,數(shù)據(jù)及報告偏向?qū)W術(shù)性研究
  • 清博大數(shù)據(jù):提供微信、微博、頭條榜單數(shù)據(jù),各種研究報告、數(shù)據(jù)報告、輿情報告及行業(yè)熱點
  • 數(shù)據(jù)觀:豐富的前沿行業(yè)資訊,及部分研究報告下載
  • 騰訊大數(shù)據(jù):數(shù)據(jù)服務(wù)平臺,提供調(diào)查研究、移動互聯(lián)網(wǎng)及特色數(shù)據(jù)報告,質(zhì)量較高
  • 大數(shù)據(jù)世界:提供大數(shù)據(jù)相關(guān)資訊、應(yīng)用案例、技術(shù)方案及資料下載
地理數(shù)據(jù)

水土氣候數(shù)據(jù):

  • 水土保持生態(tài)建設(shè)網(wǎng)http://www.swcc.org.cn/
  • 黃河風(fēng)情http://www.yellowriver.org/
  • 黃河流域數(shù)據(jù)中心http://henu.geodata.cn/index.jsp
  • 黃土高原水土保護數(shù)據(jù)庫http://www.loess.csdb.cn/
  • 數(shù)字黑河http://heihe.westgis.ac.cn/Default.aspx?tabid=106
  • 大氣科學(xué)數(shù)據(jù)庫http://data.iap.ac.cn/
  • 中國氣象科學(xué)數(shù)據(jù)http://cdc.cma.gov.cn/
  • 中國氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)http://cdc.cma.gov.cn/
  • 全球森林土地覆蓋動態(tài)http://www.fao.org/gtos/gofc-gold/
  • FRA 2000http://edcsns17.cr.usgs.gov/glcc/fao/index.html全球森林資源
  • NOAAhttp://www.noaa.gov/美國國家海洋和大氣管理局
  • NCDC http://lwf.ncdc.noaa.gov/oa/ncdc.html美國國家氣候數(shù)據(jù)中心
  • 國際水管理研究所http://www.iwmidsp.org/iwmi/info/main.asp
  • 氣候研究所http://www.cru.uea.ac.uk/
  • 植被覆蓋數(shù)據(jù)http://www.vgt.vito.be/
環(huán)境數(shù)據(jù):

  • 黃土區(qū)農(nóng)業(yè)與生態(tài)環(huán)境數(shù)據(jù)分中心http://loess.geodata.cn/
  • 東北黑土農(nóng)業(yè)生態(tài)數(shù)據(jù)庫http://www.blackland.csdb.cn/default.asp
  • 中國西部環(huán)境與生態(tài)科學(xué)數(shù)據(jù)中心http://westdc.westgis.ac.cn/
  • 西部數(shù)據(jù)中心http://westdc.westgis.ac.cn/data
  • 黃土高原區(qū)域數(shù)據(jù)共享運行服務(wù)中心http://loess.geodata.cn/Portal/?isCookieChecked=true
遙感數(shù)據(jù):

  • 地面站RS地圖查詢http://cs.rsgs.ac.cn/cs_cn/query/query_map.asp
  • 甘肅省基礎(chǔ)地理信息中心http://www.cehuiju.gansu.gov.cn/5chcg/giscenter.asp
  • 遙感數(shù)據(jù)網(wǎng)絡(luò)資源http://ecology.bnu.edu.cn/gejp/student/zhj/webresource.htm
  • 中國遙感數(shù)據(jù)網(wǎng)http://ids.ceode.ac.cn/
  • GLCF http://glcf.geodata.cn/etm/Welcome.do
  • GIS FORUM http://www.gisforum.net/全球最大的GIS中文門戶網(wǎng)站
  • 遙感數(shù)據(jù)共享http://ids.ceode.ac.cn/
其他自然人文數(shù)據(jù):

  • 地理國情監(jiān)測云平臺 http://www.dsac.cn/
  • 中國資源衛(wèi)星應(yīng)用中心 http://www.cresda.com/cn/profile.htm
  • 中國自然資源數(shù)據(jù)庫 http://www.data.ac.cn/index.asp
  • 中國科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心 http://www.resdc.cn/resdc/first.asp
  • 中國地球系統(tǒng)科學(xué)數(shù)據(jù)共享網(wǎng) http://www.geodata.cn:8086/Metadata/index.jsp
  • 國家地球系統(tǒng)科學(xué)數(shù)據(jù)共享服務(wù)平臺 http://www.geodata.cn/
  • PM25.in | PM2.5(細(xì)顆粒物)及空氣質(zhì)量指數(shù)(AQI)實時查詢?。褐袊諝赓|(zhì)量監(jiān)測實時數(shù)據(jù)http://pm25.in/
  • 國際科學(xué)數(shù)據(jù)服務(wù)平臺 http://datamirror.csdb.cn/index.jsp
  • 原始數(shù)據(jù)搜索 https://wist.echo.nasa.gov/api
  • 中國科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心 http://www.resdc.cn/resdc/first.asp
  • 世界聚集人口數(shù)據(jù) http://beta.sedac.ciesin.columbia.edu/gpw/index.jsp
  • 光譜數(shù)據(jù)分析網(wǎng)站 http://modis.gsfc.nasa.gov/
  • 美國航空航天局NASA http://daac.gsfc.nasa.gov/
  • 城市軌道交通http://www.ntsg.umt.edu/
  • 人地系統(tǒng)主題數(shù)據(jù)庫http://webpanda.iis.u-tokyo.ac.jp/
影像數(shù)據(jù):

  • USGS Earth Explorer:提供Landsat、MODIS等數(shù)據(jù)
  • ESA’s Sentinel Mission:提供Sentinel系列衛(wèi)星數(shù)據(jù),可以下載歐洲航天局所屬的影像數(shù)據(jù)
  • NOAA CLASS:提供高品質(zhì)大氣數(shù)據(jù)集,包括美國國防部(DoD)、極地作戰(zhàn)環(huán)境衛(wèi)星(POES)、NOAA的地球靜止環(huán)境衛(wèi)星(GOES)以及其他派生數(shù)據(jù)
  • NASA Reverb:提供多種類數(shù)據(jù),包括:Aqua, Terra, Aura, TRMM, Calipso, NASA DC, JASON, ENVISAT等
  • EOLi:歐洲航天局的地球觀測目錄和訂購服務(wù)的客戶,通過Java 程序下載數(shù)據(jù),支持的數(shù)據(jù)包括:Envisat, ERS, IKONOS, DMC, ALOS, SPOT, Kompsat, Proba, IRS, SCISAT.
  • INPE:提供中巴資源衛(wèi)星數(shù)據(jù)
  • Bhuvan Indian Geo-Platform of ISRO:提供印度境內(nèi)的MS-1, Cartosat,,OceanSat and ResourceSat數(shù)據(jù)以及全球的NVDI數(shù)據(jù)、南亞國家的CartoDem Version -3R1數(shù)據(jù)和北印度洋的氣候數(shù)據(jù)
政府?dāng)?shù)據(jù)


  • 新加坡政府公開數(shù)據(jù):提供新加坡各類數(shù)據(jù)
  • 美國政府公開數(shù)據(jù):提供美國全國各類數(shù)據(jù)
  • 法國政府公開數(shù)據(jù):法國政府開放數(shù)據(jù)平臺
  • 英國政府公開數(shù)據(jù):提供英國各類數(shù)據(jù)
  • 國家數(shù)據(jù):中國國家統(tǒng)計局權(quán)威數(shù)據(jù)
  • 中國統(tǒng)計年鑒:1999年至今中國統(tǒng)計年鑒,國家統(tǒng)計局官網(wǎng),提供單頁Excel文件下載
  • 中國統(tǒng)計信息網(wǎng):全國及各級政府各年度統(tǒng)計公報、年鑒等,為收費數(shù)據(jù)
  • 年鑒汪:全國城市統(tǒng)計數(shù)據(jù)搜索引擎,瀏覽免費,下載收費
  • 倫敦市公開數(shù)據(jù):提供倫敦人口、就業(yè)、環(huán)境等各類數(shù)據(jù)
  • 國土資源部:國土資源部對外公開的信息報告
其他細(xì)分行業(yè)數(shù)據(jù)


  • 中研網(wǎng)數(shù)據(jù):提供醫(yī)療、房產(chǎn)、制造業(yè)、服務(wù)業(yè)、零售消費、車輛等全行業(yè)數(shù)據(jù)
  • 中國報告大廳:提供各行各業(yè)的基礎(chǔ)數(shù)據(jù)、調(diào)查報告、分析報告、預(yù)測報告,種類豐富
  • CADMAPPER:世界各大城市的DXF文件,原始數(shù)據(jù)源為OSM,NASA,USGS
  • 亞馬遜網(wǎng)絡(luò)服務(wù)公共數(shù)據(jù)集:跨科學(xué)云數(shù)據(jù)平臺,包含化學(xué)、生物、經(jīng)濟等多個領(lǐng)域的數(shù)據(jù)集
  • Awesome Public Datasets:Github公共數(shù)據(jù)搜集項目,自然科學(xué)、社會科學(xué)覆蓋較面,包含各個細(xì)分領(lǐng)域的數(shù)據(jù)庫資源。
  • figshare:數(shù)據(jù)分析與研究成果共享平臺。
  • 英國公開數(shù)據(jù)瀏覽工具:James Trimble制作的英國數(shù)據(jù)可視化瀏覽工具集;
  • 數(shù)據(jù)法國:法國各類數(shù)據(jù)的可視化呈現(xiàn);
  • DataEye:基于國內(nèi)游戲、汽車行業(yè)數(shù)據(jù),進行多角度的行業(yè)調(diào)查報告撰寫發(fā)布
  • CBO中國票房:基于國內(nèi)票房數(shù)據(jù),統(tǒng)計票房排行、上座率等信息。
  • 易車指數(shù):反映國內(nèi)汽車銷售市場,為購車者或汽車從業(yè)者提供參考的數(shù)據(jù)指數(shù)
  • 高德地圖:支持實時查看國內(nèi)交通情況,此外高德周期性提供一系列數(shù)據(jù)報告
  • 房天下:提供中國指數(shù)研究院和CREIS中指數(shù)據(jù),展示國內(nèi)房地產(chǎn)數(shù)據(jù)情況
  • 藝恩:CBO中國票房數(shù)據(jù)的提供方,提供一些行業(yè)數(shù)據(jù)報告,如動漫IP價值研究報告
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

48

帖子

3

積分

Rank: 1

15
發(fā)表于 2021-12-13 10:06:54 | 只看該作者
一般來說數(shù)據(jù)有以下幾種獲取方式:
1、使用爬蟲或者爬蟲軟件采集數(shù)據(jù) (適用于一些網(wǎng)站不提供數(shù)據(jù)下載,只存在網(wǎng)頁上,這個時候可以利用爬蟲進行數(shù)據(jù)采集)
2、從數(shù)據(jù)平臺上直接下載數(shù)據(jù)
下面分別從這幾個維度,給大家具體介紹數(shù)據(jù)如何尋找。
一、使用爬蟲或者爬蟲軟件采集數(shù)據(jù)

獲取數(shù)據(jù)首推的還是利用爬蟲,所謂爬蟲是什么呢,這里給大家解釋一下,爬蟲其實就是一套自動讀取網(wǎng)頁和解析網(wǎng)頁的程序或工具而已。
爬蟲有很多種,懂代碼的技術(shù)流可以使用Fiddler抓包,然后python采集,一頓猛如虎的操作后獲取到想要的微博數(shù)據(jù)。
針對小白,或者懂代碼的朋友不想麻煩,只是想快速獲取到自己想要的數(shù)據(jù)
利益相關(guān),推薦使用八爪魚進行采集
只需輸入網(wǎng)址,一鍵智能識別采集數(shù)據(jù),幾分鐘搞定網(wǎng)頁數(shù)據(jù)采集。
沒圖沒真相,以今日頭條采集為例,給答主演示采集過程:

今日頭條新聞一鍵智能采集
https://www.zhihu.com/video/1247172927281795072
具體詳細(xì)使用教程:自定義配置采集數(shù)據(jù)(含智能識別)
如果您對用八爪魚采集網(wǎng)頁數(shù)據(jù)有興趣,可以用電腦下載客戶端試試。
下載地址:
免費下載 - 八爪魚采集器
二、一些常用數(shù)據(jù)獲取平臺推薦

城市交通
1、高德交通。提供全國100個城市的交通實時數(shù)據(jù),提供非??犰拧⒅庇^的數(shù)據(jù)可視化呈現(xiàn),并定期提供專題分析報告與研究。
2、北京城市實驗室。由龍瀛博士首創(chuàng)致力于定量城市研究的學(xué)術(shù)網(wǎng)絡(luò),提供微觀視角下的中國城市空間量化研究。
3、北京大學(xué)軌跡可視化。由北京大學(xué)可視化與可視分析研究組創(chuàng)建,通過位置采樣記錄物體的移動,進行城市交通密度繪制、擁堵分析以及不同交通模式的關(guān)聯(lián)分析、移動行為以及語意分析等工作,在城市交通GPS軌跡數(shù)據(jù),減少交通事故和擁堵等領(lǐng)域發(fā)揮作用。
4、城市CAD地圖數(shù)據(jù)。提供全球200+城市精美的繪圖文件,幫助城市規(guī)劃設(shè)計人員節(jié)省大量制圖繪圖的時間。要求有AutoCAD、SketchUp 8+、Illustrator、Rhinoceros 5+軟件。
5、深圳市道路交通運行指數(shù)。深圳交通運輸局旗下網(wǎng)站,是對深圳路網(wǎng)交通總體運行狀況進行定量化評估的綜合性指標(biāo),與傳統(tǒng)的車速、流量等參數(shù)相比,具有直觀、簡單的特點,讓人們更能清楚地了解堵到何種程度。
社會經(jīng)濟
1、國家統(tǒng)計局。國家權(quán)威數(shù)據(jù)發(fā)布平臺。提供所有國民經(jīng)濟、社會、民生數(shù)據(jù),同時發(fā)布最新的統(tǒng)計政策、會議、統(tǒng)計標(biāo)準(zhǔn)等信息。
2、國家數(shù)據(jù)。國家統(tǒng)計局子網(wǎng)站。你想了解的中國所有權(quán)威數(shù)據(jù)幾乎都能在上面找到,涵蓋工業(yè)、能源、價格、投資、地產(chǎn)、消費、交通運輸、采購、財政、金融等等數(shù)據(jù),提供月度、季度、年鑒等多各維度數(shù)據(jù),并包含數(shù)據(jù)可視化的圖表走勢對比分析。
3、世界銀行公開數(shù)據(jù)。世界銀行公開數(shù)據(jù)上羅列7000多個指標(biāo),包括貧困與不平等、人口、環(huán)境、經(jīng)濟、國家與市場等數(shù)據(jù)。用戶可以免費使用和分享數(shù)據(jù),還可以按照國家、指標(biāo)、專題和數(shù)據(jù)目錄瀏覽并下載數(shù)據(jù),并供支持EXCEL、CSV、API、ACCESS等不同導(dǎo)出形式。
4、前瞻數(shù)據(jù)庫。前瞻數(shù)據(jù)庫擁有16年的細(xì)分產(chǎn)業(yè)大數(shù)據(jù)積累,提供中國宏觀、區(qū)域宏觀、全球宏觀、行業(yè)經(jīng)濟、進出口、上市公司等數(shù)據(jù)。
5、中經(jīng)網(wǎng)統(tǒng)計數(shù)據(jù)庫?!吨薪?jīng)網(wǎng)統(tǒng)計數(shù)據(jù)庫》是由國家信息中心中經(jīng)網(wǎng)憑借與國家發(fā)改委、國家統(tǒng)計局、海關(guān)總署、各行業(yè)主管部門以及其他政府部門經(jīng)過長期數(shù)據(jù)積累的經(jīng)濟統(tǒng)計數(shù)據(jù)庫群。內(nèi)容涵蓋宏觀經(jīng)濟、行業(yè)經(jīng)濟、區(qū)域經(jīng)濟以及世界經(jīng)濟等各個領(lǐng)域。
6、中經(jīng)網(wǎng)產(chǎn)業(yè)數(shù)據(jù)庫。中經(jīng)網(wǎng)數(shù)據(jù)中心是國家信息中心中經(jīng)網(wǎng)組建的專業(yè)從事經(jīng)濟數(shù)據(jù)資源開發(fā)和服務(wù)的機構(gòu),網(wǎng)站提供24個產(chǎn)業(yè)數(shù)據(jù)以及經(jīng)濟綜合數(shù)據(jù)。
7、一帶一路統(tǒng)計數(shù)據(jù)庫。一代一路統(tǒng)計數(shù)據(jù)庫設(shè)置了沿線各國和地區(qū)的特色經(jīng)濟統(tǒng)計數(shù)據(jù),涵蓋經(jīng)濟、農(nóng)業(yè)、工業(yè)、環(huán)境、資源、貿(mào)易、投資等十幾個領(lǐng)域。

股票金融
1、新浪財經(jīng)。新浪財經(jīng)是一家創(chuàng)建于1999年8月的財經(jīng)平臺,提供全球財經(jīng)實時數(shù)據(jù),內(nèi)容專業(yè)且豐富。
2、東方財富。東方財富網(wǎng)2004年3月上線,網(wǎng)站內(nèi)容涉及財經(jīng)、股票、基金、期貨、債券、外匯、銀行、保險等諸多金融資訊與財經(jīng)信息,全面覆蓋財經(jīng)領(lǐng)域,每日更新上萬條最新數(shù)據(jù)及資訊,為用戶提供便利的查詢。
3、中財網(wǎng)數(shù)據(jù)引擎。非常強大齊全的金融數(shù)據(jù)引擎,免費提供股票、基金、債券、外匯、理財?shù)刃星閿?shù)據(jù)以及其他資料。
投融資
1、IT桔子。IT桔子是關(guān)注IT互聯(lián)網(wǎng)行業(yè)的結(jié)構(gòu)化的公司數(shù)據(jù)庫和商業(yè)信息服務(wù)提供商,提供風(fēng)險投資、收購、競爭情報、細(xì)分行業(yè)信息、國外公司產(chǎn)品信息數(shù)據(jù)服務(wù)等。
2、投資界。投資界是清科集團旗下提供行業(yè)豐富數(shù)據(jù)及深入分析的專業(yè)化網(wǎng)站,提供投融資方面比較詳細(xì)的數(shù)據(jù)。
互聯(lián)網(wǎng)金融
1、網(wǎng)貸之家。網(wǎng)貸之家是第三方網(wǎng)貸資訊平臺,于2011年10月上線。上面披露各P2P平臺最新交易數(shù)據(jù)、轉(zhuǎn)型及停業(yè)、問題平臺、網(wǎng)貸行業(yè)等數(shù)據(jù)。
2、網(wǎng)貸天眼。國內(nèi)網(wǎng)貸行業(yè)較為權(quán)威的第三方機構(gòu),同樣披露各P2P平臺最新數(shù)據(jù)、行業(yè)數(shù)據(jù)、停業(yè)及問題平臺、研究報告、行業(yè)政策等信息數(shù)據(jù)。  
生態(tài)環(huán)境
1、國家生態(tài)環(huán)境部數(shù)據(jù)中心。國家生態(tài)環(huán)境部旗下提供的數(shù)據(jù)服務(wù),包括環(huán)境質(zhì)量、生態(tài)環(huán)境、污染源、環(huán)境管理業(yè)務(wù)等10大類數(shù)據(jù)信息。同時,還提供專題數(shù)據(jù)、數(shù)據(jù)分析、以及API接口等服務(wù)。
2、PM2.5in。PM25.in是為大家提供空氣質(zhì)量監(jiān)測數(shù)據(jù)的網(wǎng)站,數(shù)據(jù)采自于國家環(huán)境保護部,上面有全國各大城市的空氣質(zhì)量數(shù)據(jù)。
3、環(huán)境云。環(huán)境云是一個綜合環(huán)境數(shù)據(jù)服務(wù)的平臺,收錄專業(yè)數(shù)據(jù)源(國家環(huán)保部數(shù)據(jù)中心、美國全球地震信息中心等)所發(fā)布的各類環(huán)境數(shù)據(jù),接收其自主布建的各類環(huán)境監(jiān)控傳感器網(wǎng)絡(luò)(包括空氣質(zhì)量指標(biāo),土壤環(huán)境質(zhì)量指標(biāo)檢測網(wǎng)絡(luò))所采集的數(shù)據(jù),結(jié)合相關(guān)數(shù)據(jù)預(yù)測模型生成的預(yù)報數(shù)據(jù)。  
體育
1、體育大數(shù)據(jù)SportsDT。SportsDT 以體育大數(shù)據(jù)為入口,提供比分?jǐn)?shù)據(jù)、指數(shù)數(shù)據(jù)、比賽數(shù)據(jù)、分析數(shù)據(jù)等數(shù)據(jù)。
2、stat-nba。號稱全專業(yè)最全的NBA中文數(shù)據(jù)庫。   
文化娛樂
1、中國票房網(wǎng)。中國票房網(wǎng)收錄了國內(nèi)所有上映電影的票房實時數(shù)據(jù),提供單日、單周、周末、單月、年度、中美對比、城市排片、電影資源庫等豐富數(shù)據(jù)。
2、貓眼電影數(shù)據(jù)。貓眼專業(yè)版提供全國各大電影的票房實時數(shù)據(jù),包括票房占比、排片場次、排片占比、場均人次、上座率等動態(tài)實時數(shù)據(jù)。  
自媒體
1、清博大數(shù)據(jù)。清博指數(shù)(前稱新媒體指數(shù))、提供各類新媒體數(shù)據(jù)、榜單、分析報告、輿情監(jiān)測、品牌推廣、精準(zhǔn)營銷等服務(wù)。
2、新浪輿情通。輿情通以中文互聯(lián)網(wǎng)大數(shù)據(jù)及新浪微博的獨家官方數(shù)據(jù)為基礎(chǔ),7*24小時不間斷采集新聞、報刊、政務(wù)、外媒、微博、微信、博客、論壇、視頻、網(wǎng)站、客戶端等全網(wǎng)11大信息來源,每天采集超過9000萬條數(shù)據(jù)。   
論文期刊
1、知網(wǎng)。知網(wǎng)始建于1999年6月,提供中國知識資源總、數(shù)字出版物、文獻評價數(shù)據(jù)、知識檢索。據(jù)了解,中國知網(wǎng)文獻總量達2.8億篇,中外學(xué)術(shù)期刊品種達58000余種。
2、國家哲學(xué)社會科學(xué)學(xué)術(shù)期刊數(shù)據(jù)庫。國家期刊庫收錄精品學(xué)術(shù)期刊1000多種,論文超過485萬篇以及超過101萬位學(xué)者、2.1萬家研究機構(gòu)相關(guān)信息。  
指數(shù)
1、百度指數(shù)。百度指數(shù)是以百度海量網(wǎng)民行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分析平臺,主要功能模塊有:基于單個詞的趨勢研究(包含整體趨勢、PC趨勢還有移動趨勢)、需求圖譜、輿情管家、人群畫像;基于行業(yè)的整體趨勢、地域分布、人群屬性、搜索時間特征。
2、愛奇藝指數(shù)。愛奇藝指數(shù)是由愛奇藝基于平臺上收錄的視頻提供的視頻數(shù)據(jù)分析工具。用戶可以選擇你想了解的視頻或節(jié)目名字,平臺輸出包括熱度趨勢、視頻看點、輿情分析、受眾畫像等維度的數(shù)據(jù)分析。用戶還可以添加多個節(jié)目進行對比,哪個節(jié)目熱度高、哪個明星帶的流量多、用戶都在討論什么等數(shù)據(jù)一目了然。
3、阿里指數(shù)。阿里指數(shù)是了解電子商務(wù)平臺市場動向的數(shù)據(jù)分析平臺,2012年11月26日上線。根據(jù)阿里巴巴網(wǎng)站每日運營的基本數(shù)據(jù)包括每天網(wǎng)站瀏覽量、每天瀏覽的人次、每天新增供求產(chǎn)品數(shù)、新增公司數(shù)和產(chǎn)品數(shù)這5項指標(biāo)統(tǒng)計計算得出。  
綜合數(shù)據(jù)服務(wù)商
1、云聽。云聽基于八爪魚6年的大數(shù)據(jù)資源積累以及企業(yè)服務(wù)經(jīng)驗,運用人工智能自然語言分析技術(shù),為企業(yè)提供一提供全網(wǎng)數(shù)據(jù)收集能力、數(shù)據(jù)整合分析能力和場景化解決方案,尤其在客戶體驗管理CEM領(lǐng)域,擁有OPPO、VIVO、科沃斯等知名零售品牌大客戶,在電商數(shù)據(jù)及輿情方面擁有豐富的經(jīng)驗。
2、國泰安。國泰安是國內(nèi)從事金融、經(jīng)濟信息精準(zhǔn)數(shù)據(jù)庫設(shè)計開發(fā)的專業(yè)高科技公司,為1000多個高校和金融機構(gòu)服務(wù)。
3、優(yōu)易數(shù)據(jù)。優(yōu)易數(shù)據(jù)匯集了以“國家自然資源和地理空間基礎(chǔ)信息庫”為基礎(chǔ), 9個國家部委的20余萬項核心政務(wù)數(shù)據(jù)。
4、瑞思數(shù)據(jù)。銳思數(shù)據(jù)從事金融數(shù)據(jù)庫和相關(guān)投資研究軟件研發(fā)為高校、政府及金融機構(gòu)提供精準(zhǔn)的經(jīng)濟、金融數(shù)據(jù)和完備的增值服務(wù)。
5、CEIC數(shù)據(jù)。全面的經(jīng)濟數(shù)據(jù)庫,覆蓋超過200+個國家。提供中國超過33萬條宏觀經(jīng)濟、行業(yè)及區(qū)域的時間序列數(shù)據(jù)。
6、Wind金融數(shù)據(jù)。國內(nèi)領(lǐng)先金融數(shù)據(jù)、信息和軟件服務(wù)企業(yè),數(shù)據(jù)內(nèi)容涵蓋股票、基金、債券、外匯、保險、期貨、金融衍生品、現(xiàn)貨交易、宏觀經(jīng)濟、財經(jīng)新聞等領(lǐng)域,新的信息內(nèi)容及時進行更新以滿足機構(gòu)投資者的需求。
7、搜數(shù)。搜數(shù)網(wǎng)每天監(jiān)測和收集處理公開媒體和各種年鑒書籍中披露的各類統(tǒng)計和調(diào)查數(shù)據(jù),截止2019年04月10日,已加載到搜數(shù)網(wǎng)站的統(tǒng)計資料達到9,741本,涵蓋2,280,300張統(tǒng)計表格和454,728,104個統(tǒng)計數(shù)據(jù)。
類似的還有很多數(shù)據(jù)來源,這里只列舉了一部分,想要獲取更多可以移看:  
八爪魚采集器:數(shù)據(jù)源大盤點 | 你們要的數(shù)據(jù)源都在這兒了81個(收藏)
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

47

帖子

2

積分

Rank: 1

16
發(fā)表于 2021-12-13 12:02:19 | 只看該作者
作為一個數(shù)據(jù)可視化行業(yè)的從業(yè)者,手上怎么可以沒有幾個收集行業(yè)數(shù)據(jù)的網(wǎng)站?。?!
我交出我珍藏多年的寶藏數(shù)據(jù)網(wǎng)站 給大家,如果想做抖音那種會動的數(shù)據(jù)可視化視頻,數(shù)據(jù)可視化大屏都可以到這些網(wǎng)站里面去尋找數(shù)據(jù)資源~有點多,大概有27個網(wǎng)站左右,主要分為以下幾大類

  • 行業(yè)數(shù)據(jù)分析報告
  • 消費行為分析報告
  • 互聯(lián)網(wǎng)大數(shù)據(jù)分析
  • 社會調(diào)查分析報告
  • 城市交通擁堵報告
  • 金融行業(yè)分析報告
  • 娛樂行業(yè)數(shù)據(jù)報告
  • 媒體矩陣分析報告
  • 收視排名數(shù)據(jù)分析
  • 國家數(shù)據(jù)分析報告
前方內(nèi)容有點長,但是基本上涵蓋了你所需要的內(nèi)容,你想要的都可以找到~
記得收藏!?。?!
阿里研究院



阿里研究院由電子商務(wù)、互聯(lián)網(wǎng)金融、智能物流、云計算與大數(shù)據(jù)等構(gòu)成的阿里商業(yè)生態(tài)圈,研究互聯(lián)網(wǎng)、大數(shù)據(jù)給社會經(jīng)濟帶來的新現(xiàn)象、新規(guī)則。
騰訊研究院



騰訊研究院是騰訊公司的智庫,旨在依托騰訊公司多元的產(chǎn)品、豐富的案例和海量的數(shù)據(jù),圍繞產(chǎn)業(yè)發(fā)展的焦點問題,通過開放合作的研究平臺,匯集各界智慧,共同推動互聯(lián)網(wǎng)產(chǎn)業(yè)健康、有序的發(fā)展。
騰訊研究院圍繞互聯(lián)網(wǎng)法律、公共政策、互聯(lián)網(wǎng)經(jīng)濟、大數(shù)據(jù)等研究方向,與國內(nèi)外研究機構(gòu)、智庫開展多元化的合作,不斷推出面向互聯(lián)網(wǎng)產(chǎn)業(yè)的數(shù)據(jù)和報告,為學(xué)術(shù)研究、產(chǎn)業(yè)發(fā)展和政策制定提供有力的研究支持。我們堅守開放、包容、前瞻的研究視野,致力于成為現(xiàn)代科技與社會人文交叉匯聚的研究平臺。
艾媒咨詢



艾媒網(wǎng)-全球領(lǐng)先的新經(jīng)濟行業(yè)數(shù)據(jù)分析報告發(fā)布平臺iiMedia Research(艾媒咨詢)是全球知名的新經(jīng)濟產(chǎn)業(yè)第三方數(shù)據(jù)挖掘和分析機構(gòu),2007年誕生于廣州,在廣州、香港、北京、上海、硅谷設(shè)有運營和分析機構(gòu)。艾媒咨詢致力于輸出有觀點、有態(tài)度、有結(jié)論的研究報告,以權(quán)威第三方實力,通過艾媒大數(shù)據(jù)決策和智能分析系統(tǒng),結(jié)合具有國際化視野的艾媒分析師觀點,在產(chǎn)業(yè)數(shù)據(jù)監(jiān)測、調(diào)查分析和趨勢發(fā)展等方向的大數(shù)據(jù)咨詢具有豐富經(jīng)驗。艾媒每年公開或定制發(fā)布新經(jīng)濟前沿報告超過2000份,覆蓋了新技術(shù)、新零售、教育、生物、醫(yī)療、出行、房產(chǎn)、營銷、文娛、傳媒、金融、制造、區(qū)塊鏈、環(huán)保與公共治理等新興領(lǐng)域,通過深入數(shù)據(jù)挖掘,通過數(shù)學(xué)建模,分析推理與科學(xué)算法結(jié)合,打造有數(shù)據(jù)、有理論支撐的大數(shù)據(jù)分析成果。艾媒咨詢的數(shù)據(jù)報告、分析師觀點平均每天被超過100家全球主流媒體,1500家(個)自媒體、行業(yè)KOL引用,覆蓋語言類型包括中、英、日、法、意、德、俄、阿等約二十種主流官方版本。
艾瑞網(wǎng)



報告_艾瑞網(wǎng)依托大數(shù)據(jù),發(fā)布互聯(lián)網(wǎng)行業(yè)研究報告
艾瑞數(shù)據(jù)致力于成為數(shù)據(jù)應(yīng)用技術(shù)為核心驅(qū)動力的科技型企業(yè),本著通過數(shù)據(jù)改變認(rèn)知,提升企業(yè)效能為理念,為客戶提供基于情報+數(shù)據(jù)+服務(wù)的商業(yè)數(shù)據(jù)智能解決方案,涵蓋消費者洞察、市場競爭監(jiān)控、企業(yè)精細(xì)化運營、共享數(shù)據(jù)服務(wù)。
艾瑞智云產(chǎn)品服務(wù)體系,透過9億網(wǎng)民線上線下行為洞察商業(yè)本質(zhì),為多個場景提供數(shù)據(jù)服務(wù)。
艾瑞睿見產(chǎn)品服務(wù)體系,通過多源跨屏數(shù)據(jù)洞察等自建大數(shù)據(jù)積累,匯集多家大型互聯(lián)網(wǎng)企業(yè)數(shù)據(jù),共同打造的互聯(lián)網(wǎng)行業(yè)信息情報分析系統(tǒng)。
McKinsey&Company



Insights - McKinsey Greater China行業(yè)洞察報告面向總裁、高級主管、部長、大公司的管理委員會,非盈利性機構(gòu)及政府高層領(lǐng)導(dǎo)就他們所關(guān)注的管理問題提供咨詢。
為客戶特別是為企業(yè)設(shè)計、制定相配套的一體化解決方案,戰(zhàn)略開發(fā),經(jīng)營運作,組織結(jié)構(gòu)。
集中于客戶可以量化的業(yè)績改進,比如說改進銷售收入、利潤成本、供貨時間、質(zhì)量等。麥肯錫的咨詢重點放在高級管理層所關(guān)心的議題上。工作內(nèi)容屬于戰(zhàn)略、總體組織和相關(guān)政策領(lǐng)域各占1/3。但在中國,戰(zhàn)略和組織機構(gòu)設(shè)計偏重大些。
Deloitte德勒



德勤中國 | 審計, 企業(yè)管理咨詢, 財務(wù)咨詢, 風(fēng)險咨詢, 稅務(wù)服務(wù)及行業(yè)洞察關(guān)于德勤中國:各個行業(yè)的研究報告。事務(wù)所網(wǎng)絡(luò)為中國本地和在華的跨國及高增長企業(yè)客戶提供全面的審計及鑒證、管理咨詢、財務(wù)咨詢、風(fēng)險咨詢和稅務(wù)服務(wù)。
普華永道



普華永道中國各個行業(yè)的研究報告。在普華永道,我們的使命是解決重要問題以及建立社會信任。這是我們在提供專業(yè)服務(wù)及作出商業(yè)決定時的重中之重。
畢馬威



畢馬威中國行業(yè)洞察報告/畢馬威是一個由專業(yè)服務(wù)成員所組成的全球網(wǎng)絡(luò)。成員所遍布全球147個國家和地區(qū),擁有專業(yè)人員超過219,000名,提供審計、稅務(wù)和咨詢等專業(yè)服務(wù)。
IBM 商業(yè)價值研究院



IBM - 中國埃森哲



埃森哲| 中國| 應(yīng)新于時智勝無常,化危為機:應(yīng)對新冠病毒全球流行及疫后重建,都需要各行各業(yè)的企業(yè)領(lǐng)導(dǎo)者做出迅速且充分有效的決策,捍衛(wèi)員工、顧客與合作伙伴的共同利益。歡迎深入了解我們關(guān)于現(xiàn)狀和未來的觀點和行動建議。
藝恩中國


  • 影視大數(shù)據(jù)平臺,可查看到電影、電視、動漫、新媒體、娛樂營銷相關(guān)的研究報告


藝恩-文娛大數(shù)據(jù)服務(wù)商_首頁藝恩是國內(nèi)領(lǐng)先的文娛大數(shù)據(jù)服務(wù)商,以數(shù)據(jù)技術(shù)為引擎監(jiān)測跨屏內(nèi)容消費行為和用戶畫像數(shù)據(jù); 依托行業(yè)解決方案,累計為近千家合作伙伴提供相關(guān)產(chǎn)品服務(wù)。
藝恩一直致力于深度鏈接文娛業(yè)務(wù)場景,獲得了業(yè)界及社會的廣泛認(rèn)可。榮獲“國家高新技術(shù)企業(yè)”“中關(guān)村高新技術(shù)企業(yè)”“中國大數(shù)據(jù)創(chuàng)新企業(yè)”及“中國大數(shù)據(jù)最佳行業(yè)實踐案例”等稱號。共持有獨立研發(fā)的產(chǎn)品軟件著作權(quán)和發(fā)明專利超過30項。
易觀分析:聯(lián)網(wǎng)市場分析報告瀏覽網(wǎng)址



易觀分析-數(shù)據(jù)驅(qū)動精益成長北京易觀智庫網(wǎng)絡(luò)科技有限公司始終追求客戶成功的經(jīng)營宗旨。 自成立以來,北京易觀智庫網(wǎng)絡(luò)科技有限公司打造了以海量數(shù)字用戶資產(chǎn)及算法模型為核心的大數(shù)據(jù)產(chǎn)品、平臺及解決方案 可以幫助企業(yè)高效管理數(shù)字用戶資產(chǎn)和對產(chǎn)品進行精細(xì)化運營,通過數(shù)據(jù)驅(qū)動營銷閉環(huán), 從而實現(xiàn)收入增長、成本降低和效率提升,并顯著規(guī)避經(jīng)營風(fēng)險,實現(xiàn)精益成長。
CBNData(第一財經(jīng)商業(yè)數(shù)據(jù)中心)

產(chǎn)業(yè)經(jīng)濟全景分析和行業(yè)企業(yè)洞察


http://www.cbndata.com/home

36kr

匯集各個行業(yè)的研究報告


36氪_讓一部分人先看到未來TalkingData

移動觀象臺




TalkingData移動觀象臺-全球領(lǐng)先免費公開數(shù)據(jù)實時查詢平臺360互聯(lián)網(wǎng)安全中心





360研究報告_360安全中心新浪研究報告

可獲取不同機構(gòu)發(fā)布的最新行業(yè)研究報告咨詢(無法查看到報告的全文)


行業(yè)研究研究報告|研究評級|機構(gòu)研報_新浪財經(jīng)_新浪網(wǎng)微博媒體排行榜



媒體矩陣勢力榜CBO中國票房



藝恩-數(shù)據(jù)智能服務(wù)商_數(shù)據(jù)榜單農(nóng)業(yè)大數(shù)據(jù)



中國農(nóng)業(yè)大數(shù)據(jù)公共服務(wù)中心國家數(shù)據(jù)

統(tǒng)計局的官方數(shù)據(jù),涉及各個方面


國家數(shù)據(jù)高德城市擁堵排名



https://report.amap.com/diagnosis/index.do中國綜合社會調(diào)查CGSS



中國綜合社會調(diào)查中國綜合社會調(diào)查(Chinese General Social Survey,CGSS)始于2003年,是我國最早的全國性、綜合性、連續(xù)性學(xué)術(shù)調(diào)查項目。CGSS系統(tǒng)、全面地收集社會、社區(qū)、家庭、個人多個層次的數(shù)據(jù),總結(jié)社會變遷的趨勢,探討具有重大科學(xué)和現(xiàn)實意義的議題,推動國內(nèi)科學(xué)研究的開放與共享,為國際比較研究提供數(shù)據(jù)資料,充當(dāng)多學(xué)科的經(jīng)濟與社會數(shù)據(jù)采集平臺。目前,CGSS數(shù)據(jù)已成為研究中國社會最主要的數(shù)據(jù)來源,廣泛地應(yīng)用于科研、教學(xué)、政府決策之中。
中國P2P網(wǎng)貸指數(shù)



千順-財經(jīng)門戶, 金融研究咨詢,金融發(fā)展規(guī)劃,金融風(fēng)險防范化解,金融大數(shù)據(jù),產(chǎn)業(yè)金融,金融GDP,金融科技,監(jiān)管科技,區(qū)塊鏈, 新興金融_千順百度數(shù)智平臺



百度數(shù)智平臺--百度大數(shù)據(jù)智能力量友盟+



友盟+,國內(nèi)領(lǐng)先的第三方全域數(shù)據(jù)智能服務(wù)商友盟+,以“數(shù)據(jù)智能,驅(qū)動業(yè)務(wù)增長”為使命,基于卓越的技術(shù)與算法能力,結(jié)合實時更新的全域數(shù)據(jù)資源,覆蓋191個行業(yè)分類、輸出300+應(yīng)用或行業(yè)的分析指標(biāo),通過AI賦能的一站式互聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)品與服務(wù)體系,幫助企業(yè)實現(xiàn)深度用戶洞察、實時業(yè)務(wù)決策和持續(xù)業(yè)務(wù)增長。
收視率排行



收視率排行 | 收視率查詢,收視率怎么算,收視率怎么賺錢,csm50城以上就是我整理的數(shù)據(jù)分析報告的網(wǎng)站啦~當(dāng)然有了數(shù)據(jù)還需要可視化展現(xiàn)對不對,以下是我整理的另一篇,國內(nèi)十大數(shù)據(jù)可視化平臺供你使用挑選~

this is:2020年最好用的十大數(shù)據(jù)可視化平臺,你值得擁有以上~

精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

40

帖子

3

積分

Rank: 1

17
發(fā)表于 2021-12-13 14:43:18 | 只看該作者
和鯨社區(qū)(kesci.com)擁有海量各個行業(yè)的真實數(shù)據(jù)集
以下練習(xí)題與教程均來自和鯨社區(qū),除了能下載以外,也可以直接在線掛載使用哦~
生物醫(yī)療行業(yè)相關(guān)數(shù)據(jù)集:


  • 丁香園新型冠狀病毒(COVID-19)疫情時間序列數(shù)據(jù)集
2019新型冠狀病毒(COVID-19/2019-nCoV)疫情狀況的時間序列數(shù)據(jù)倉庫,數(shù)據(jù)來源為丁香園


  • 全球新冠肺炎COVID-19數(shù)據(jù)
包含每日時間序列匯總表,包括確診、死亡和治愈。所有數(shù)據(jù)來自每日病例報告。數(shù)據(jù)覆蓋日期20/01/22-20/07/08


  • 心臟病診斷數(shù)據(jù)集
來自克利夫蘭醫(yī)學(xué)研究中心的心臟病患者數(shù)據(jù),可用于建立心臟病診斷模型。


  • 美國各州各城市2019新型冠狀病毒COVID19數(shù)據(jù)
美國各州各城市COVID 19數(shù)據(jù),包括確診人數(shù)和 死亡人數(shù)等,數(shù)據(jù)覆蓋日期2020-01-21到2020-07-05


  • COVID-19 論文數(shù)據(jù) (每日更新)
多個權(quán)威期刊上關(guān)于COVID-19的研究論文的標(biāo)題、摘要等信息,并人為為部分文章打上類標(biāo)簽(包括流行病學(xué)、臨床醫(yī)學(xué)、病理學(xué)等六種)


  • MIMIC-III 數(shù)據(jù)集官方樣例
MIMIC-III 數(shù)據(jù)集官方樣例,數(shù)據(jù)結(jié)構(gòu)與MIMIC-III 一致,包含100位病人的數(shù)據(jù)


  • 英國2019新型冠狀病毒COVID-19數(shù)據(jù)
英國2019新型冠狀病毒COVID-19數(shù)據(jù),整個英國以及英國各個國家(英格蘭,蘇格蘭,威爾士,北愛爾蘭),覆蓋日期2020-01-24到2020-06-23
文化娛樂相關(guān)數(shù)據(jù)集:


  • 500條「 隱秘的角落 」豆瓣短評
500條「 隱秘的角落 」豆瓣短評,數(shù)據(jù)包含用戶昵稱,用戶個人主頁,評論內(nèi)容,評論時間,有用數(shù)


  • 《隱秘的角落》愛奇藝彈幕數(shù)據(jù)
  • 《乘風(fēng)破浪的姐姐》選手信息數(shù)據(jù)集
數(shù)據(jù)來源于百度百科和維基百科,包括了選手們的姓名,年齡,出生年月,出生地以及圖片的下載地址,職業(yè)以及初始舞臺分?jǐn)?shù)等信息。


  • 豆瓣電影數(shù)據(jù)集
豆瓣電影影評、影人信息等文本數(shù)據(jù)。更具本土特色!


  • 口袋妖怪?jǐn)?shù)據(jù)集
這個數(shù)據(jù)集共有721個口袋妖怪,包括編號,名字,第一和第二屬性,以及基本屬性:HP,攻擊,防御,特殊攻擊,特殊防御和速度。


  • 中華古詩數(shù)據(jù)集
唐宋兩朝14000名古詩人,55000首唐詩,260000首宋詞,用數(shù)據(jù)分析抽絲剝繭文化內(nèi)涵。


  • TED 演講數(shù)據(jù)集
數(shù)據(jù)集包含到 2017.9.21 日,所有上傳到TED網(wǎng)站上的演講視頻信息。喜歡看TED的朋友不能錯過!


  • DOTA 2 數(shù)據(jù)集
數(shù)據(jù)集包含7.07血命之戰(zhàn)版本后的103591場比賽數(shù)據(jù)
地理相關(guān)數(shù)據(jù)集:


  • 星巴克門店信息
該數(shù)據(jù)集囊括了截至2017/2月份全球星巴克門店的基礎(chǔ)信息


  • 世界主要城市平均氣溫數(shù)據(jù)集
一個關(guān)于世界主要城市溫度的數(shù)據(jù)集將有助于分析全球變暖的情況。此外,天氣信息對許多數(shù)據(jù)科學(xué)任務(wù)也有幫助,如銷售預(yù)測,物流等。


  • 900W條微博簽到數(shù)據(jù)
近900W條微博簽到數(shù)據(jù),包含位置經(jīng)緯度,城市等信息!


  • 全球每個國家和美國每個州的緯度和經(jīng)度地理數(shù)據(jù)
全球每個國家和美國每個州的緯度和經(jīng)度GPS坐標(biāo)


  • 中國坐標(biāo)數(shù)據(jù)集
中國省、市、區(qū)、縣的坐標(biāo)數(shù)據(jù)集


  • 太陽黑子數(shù)據(jù)
包含1944年5月-2019年12月的太陽黑子數(shù)據(jù)


  • 七類礦物鑒定圖片數(shù)據(jù)集
包含七類礦物的標(biāo)本圖像
自然語言處理相關(guān)數(shù)據(jù)集:


  • 電影對白數(shù)據(jù)集(聊天機器人)
該數(shù)據(jù)集包含從原始電影腳本中提取的大量虛構(gòu)對話集合,可用于訓(xùn)練LSTM網(wǎng)絡(luò)模型。


  • 文本情感數(shù)據(jù)集
NLP是機器學(xué)習(xí)領(lǐng)域中的重要話題。用戶可以通過本數(shù)據(jù)建立模型,訓(xùn)練電腦分辨文本表達的兩種截然相反的情感:Positive 和 Negative。


  • 復(fù)旦大學(xué)中文文本分類語料庫
中國新聞數(shù)據(jù)集有20個不同的類別,用于NLP學(xué)習(xí)


  • 今日頭條新聞文本
382688條今日頭條新聞文本


  • 人民日報文章數(shù)據(jù)集(1979-2010)
包含人民日報從1979年至2010年的文章文本數(shù)據(jù)


  • 川普推特數(shù)據(jù)集
匯集了川總的推特數(shù)據(jù) ( 從當(dāng)選到2018年12月30號 )


  • 2014人民日報標(biāo)注語料庫(PFR)
PFR有1998年1-6月以及2014年版本,本語料庫是2014年的標(biāo)注語料版本


  • 網(wǎng)易云精彩評論數(shù)據(jù)集
網(wǎng)易云精彩評論數(shù)據(jù)集是一個CSV文件,包括了用戶Id、昵稱、評論內(nèi)容、點贊數(shù)。
氣候相關(guān)數(shù)據(jù)集:


  • 二戰(zhàn)天氣狀況數(shù)據(jù)集
1940-1945年每日天氣摘要


  • 多類天氣圖片數(shù)據(jù)集
數(shù)據(jù)集包含60000張常見天氣的圖像,包括晴天,多云,下雨,下雪,薄霧和雷雨,總共6種天氣圖像,用于天氣分類及識別研究。


  • 澳大利亞山火數(shù)據(jù)集
NASA衛(wèi)星數(shù)據(jù),來自 MODIS C6 和 VIIRS 375m


  • 1750年至今全球地表氣溫變化數(shù)據(jù)
全球氣候變化曾被美國總統(tǒng)特朗普指為“中國人制造的騙局”,然而這到底是偽科學(xué),還是客觀存在?


  • 從衛(wèi)星圖像理解云層數(shù)據(jù)集
kaggle競賽中數(shù)據(jù)集,cv相關(guān),用于確定衛(wèi)星圖像中包含的某些云層的區(qū)域


  • 臺風(fēng)數(shù)據(jù)分析-高德地圖/Geopanda
臺風(fēng)數(shù)據(jù)分析-高德地圖/Geopandas


  • El Nino厄爾尼諾數(shù)據(jù)集
該數(shù)據(jù)集包含從整個赤道太平洋的一系列浮標(biāo)中獲取的海洋學(xué)和地面氣象讀數(shù)
以上例舉的只是和鯨社區(qū)數(shù)據(jù)集的“冰山一角”哦,想獲得更多數(shù)據(jù)集請前往和鯨社區(qū)哦:
和鯨社區(qū) - Kesci.com
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

48

帖子

3

積分

Rank: 1

18
發(fā)表于 2021-12-13 15:58:18 | 只看該作者
我獲取數(shù)據(jù)的一些來源 yulang:普工的豬肉臺-如何獲取數(shù)據(jù)
數(shù)據(jù)比賽

Datasets | Kaggle
數(shù)據(jù)集-阿里系唯一對外開放數(shù)據(jù)分享平臺
政府類

中國2000年人口普查資料
中國2010年人口普查資料
中國經(jīng)濟普查年鑒―2013
知乎問答

路人甲:有哪些可以獲取數(shù)據(jù)的網(wǎng)站?[大數(shù)據(jù)]
大家都是在哪些網(wǎng)站找數(shù)據(jù)?
猴子:10大行業(yè)公開數(shù)據(jù)集免費下載:電商零售行業(yè)
企研數(shù)據(jù):數(shù)據(jù)資源丨原始數(shù)據(jù)哪里找?這些網(wǎng)站要用好?。ńㄗh收藏)
易觀,艾瑞等第三方公司的原始數(shù)據(jù)從什么地方,或者以什么形式獲取的?
去哪找數(shù)據(jù)?怎么挖掘?
數(shù)據(jù)分析和挖掘有哪些公開的數(shù)據(jù)來源?
大家都是在哪些網(wǎng)站找數(shù)據(jù)?
有哪些「神奇」的數(shù)據(jù)獲取方式
有哪些「神奇」的數(shù)據(jù)獲取方式?
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

49

帖子

3

積分

Rank: 1

19
發(fā)表于 2021-12-13 18:26:13 | 只看該作者
作為程序員,玩大數(shù)據(jù)肯定要懂爬蟲的,而我也比較喜歡爬一點有的沒的。


爬蟲,是一個自動提取網(wǎng)頁的程序。是搜索引擎的重要組成部分,因此搜索引擎優(yōu)化很大程度上就是針對爬蟲而做出的優(yōu)化。
已經(jīng)成型的爬蟲有幾百種,今天就來強答一波,推薦一些不同開發(fā)語言的開源爬蟲軟件。
Python爬蟲



1、PyRailgun
這是一個非常簡單易用的抓取工具。支持抓取javascript渲染的頁面的簡單實用高效的python網(wǎng)頁爬蟲抓取模塊

  • 授權(quán)協(xié)議: MIT
  • 開發(fā)語言: Python
  • 操作系統(tǒng): 跨平臺 Windows Linux OS X
  • 特點:簡潔、輕量、高效的網(wǎng)頁抓取框架
github:https://github.com/princehaku/pyrailgun#readme
2、Scrapy
Scrapy 是一套基于基于Twisted的異步處理框架,純python實現(xiàn)的爬蟲框架,用戶只需要定制開發(fā)幾個模塊就可以輕松的實現(xiàn)一個爬蟲,用來抓取網(wǎng)頁內(nèi)容以及各種圖片,非常之方便~

  • 授權(quán)協(xié)議: BSD
  • 開發(fā)語言: Python
  • 操作系統(tǒng): 跨平臺
  • 特點:基于Twisted的異步處理框架,文檔齊全
github:https://github.com/scrapy/scrapy
3、QuickRecon
QuickRecon是一個簡單的信息收集工具,它可以幫助你查找子域名名稱、perform zone transfe、收集電子郵件地址和使用microformats尋找人際關(guān)系等。QuickRecon使用python編寫,支持linux和 windows操作系統(tǒng)。

  • 授權(quán)協(xié)議: GPLv3
  • 開發(fā)語言: Python
  • 操作系統(tǒng): Windows Linux
  • 特點:具有查找子域名名稱、收集電子郵件地址并尋找人際關(guān)系等功能
Java爬蟲



4、crawlzilla
crawlzilla 是一個幫你輕松建立搜索引擎的自由軟件,有了它,你就不用依靠商業(yè)公司的搜索引擎,也不用再煩惱公司內(nèi)部網(wǎng)站資料索引的問題。
由 nutch 專案為核心,并整合更多相關(guān)套件,并卡發(fā)設(shè)計安裝與管理UI,讓使用者更方便上手。
crawlzilla 除了爬取基本的 html 外,還能分析網(wǎng)頁上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁搜索引擎,而是網(wǎng)站的完整資料索引庫。

  • 授權(quán)協(xié)議: Apache License 2
  • 開發(fā)語言: Java JavaScript SHELL
  • 操作系統(tǒng): Linux
  • 特點:安裝簡易,擁有中文分詞功能
項目主頁: https://github.com/shunfa/crawlzilla
下載地址 http://sourceforge.net/projects/crawlzilla/
5、Heritrix
Heritrix 是一個由 java 開發(fā)的、開源的網(wǎng)絡(luò)爬蟲,用戶可以使用它來從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性,方便用戶實現(xiàn)自己的抓取邏輯。
Heritrix采用的是模塊化的設(shè)計,各個模塊由一個控制器類(CrawlController類)來協(xié)調(diào),控制器是整體的核心。

  • 授權(quán)協(xié)議: Apache
  • 開發(fā)語言: Java
  • 操作系統(tǒng): 跨平臺
  • 特點:嚴(yán)格遵照robots文件的排除指示和META robots標(biāo)簽
代碼托管:https://github.com/internetarchive/heritrix3
6、heyDr
heyDr是一款基于java的輕量級開源多線程垂直檢索爬蟲框架,遵循GNU GPL V3協(xié)議。
用戶可以通過heyDr構(gòu)建自己的垂直資源爬蟲,用于搭建垂直搜索引擎前期的數(shù)據(jù)準(zhǔn)備。

  • 授權(quán)協(xié)議: GPLv3
  • 開發(fā)語言: Java
  • 操作系統(tǒng): 跨平臺
  • 特點:輕量級開源多線程垂直檢索爬蟲框架
7、JSpider
JSpider是一個用Java實現(xiàn)的WebSpider,JSpider的執(zhí)行格式如下:
jspider [URL] [ConfigName]
URL一定要加上協(xié)議名稱,如:http://,否則會報錯。如果省掉ConfigName,則采用默認(rèn)配置。
JSpider 的行為是由配置文件具體配置的,比如采用什么插件,結(jié)果存儲方式等等都在conf\[ConfigName]\目錄下設(shè)置。JSpider默認(rèn)的配置種類 很少,用途也不大。但是JSpider非常容易擴展,可以利用它開發(fā)強大的網(wǎng)頁抓取與數(shù)據(jù)分析工具。要做到這些,需要對JSpider的原理有深入的了 解,然后根據(jù)自己的需求開發(fā)插件,撰寫配置文件。

  • 授權(quán)協(xié)議: LGPL
  • 開發(fā)語言: Java
  • 操作系統(tǒng): 跨平臺
  • 特點:功能強大,容易擴展
8、MetaSeeker
這是一套完整的網(wǎng)頁內(nèi)容抓取、格式化、數(shù)據(jù)集成、存儲管理和搜索解決方案。網(wǎng)絡(luò)爬蟲有多種實現(xiàn)方法,如果按照部署在哪里分,可以分成:

  • 服務(wù)器側(cè):
一般是一個多線程程序,同時下載多個目標(biāo)HTML,可以用PHP, Java, Python(當(dāng)前很流行)等做,可以速度做得很快,一般綜合搜索引擎的爬蟲這樣做。但是,如果對方討厭爬蟲,很可能封掉你的IP,服務(wù)器IP又不容易 改,另外耗用的帶寬也是挺貴的。建議看一下Beautiful soap。

  • 客戶端:
一般實現(xiàn)定題爬蟲,或者是聚焦爬蟲,做綜合搜索引擎不容易成功,而垂直搜訴或者比價服務(wù)或者推薦引擎,相對容易很多,這類爬蟲不是什么頁面都 取的,而是只取你關(guān)系的頁面,而且只取頁面上關(guān)心的內(nèi)容,例如提取黃頁信息,商品價格信息,還有提取競爭對手廣告信息的,搜一下Spyfu,很有趣。這類 爬蟲可以部署很多,而且可以很有侵略性,對方很難封鎖。
MetaSeeker中的網(wǎng)絡(luò)爬蟲就屬于后者。
它的免費工具包利用Mozilla平臺的能力,只要是Firefox看到的東西,它都能提取。

  • 特點:網(wǎng)頁抓取、信息提取、數(shù)據(jù)抽取工具包,操作簡單
下載地址:www.gooseeker.com/cn/node/download/front
9、PyRailgun
這是一個非常簡單易用的抓取工具。支持抓取javascript渲染的頁面的簡單實用高效的python網(wǎng)頁爬蟲抓取模塊。此軟件也是由國人開放。

  • 授權(quán)協(xié)議: MIT
  • 開發(fā)語言: Python
  • 操作系統(tǒng): 跨平臺 Windows Linux OS X
  • 特點:簡潔、輕量、高效的網(wǎng)頁抓取框架
github下載:https://github.com/princehaku/pyrailgun#readme
10、Scrapy
Scrapy 是一套基于基于Twisted的異步處理框架,純python實現(xiàn)的爬蟲框架,用戶只需要定制開發(fā)幾個模塊就可以輕松的實現(xiàn)一個爬蟲,用來抓取網(wǎng)頁內(nèi)容以及各種圖片,非常之方便~

  • 授權(quán)協(xié)議: BSD
  • 開發(fā)語言: Python
  • 操作系統(tǒng): 跨平臺
  • 特點:基于Twisted的異步處理框架,文檔齊全
github源代碼:https://github.com/scrapy/scrapy
11、Spiderman
Spiderman 是一個基于微內(nèi)核+插件式架構(gòu)的網(wǎng)絡(luò)蜘蛛,它的目標(biāo)是通過簡單的方法就能將復(fù)雜的目標(biāo)網(wǎng)頁信息抓取并解析為自己所需要的業(yè)務(wù)數(shù)據(jù)。

  • 確定好你的目標(biāo)網(wǎng)站以及目標(biāo)網(wǎng)頁
  • 打開目標(biāo)頁面,分析頁面的HTML結(jié)構(gòu),得到你想要數(shù)據(jù)的XPath
  • 在一個xml配置文件里填寫好參數(shù),運行Spiderman


  • 授權(quán)協(xié)議: Apache
  • 開發(fā)語言: Java
  • 操作系統(tǒng): 跨平臺
  • 特點:靈活、擴展性強,微內(nèi)核+插件式架構(gòu),通過簡單的配置就可以完成數(shù)據(jù)抓取,無需編寫一句代碼
12、WebSPHINX
WebSPHINX是一個Java類包和Web爬蟲的交互式開發(fā)環(huán)境。Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程序。WebSPHINX由兩部分組成:爬蟲工作平臺和WebSPHINX類包。

  • 授權(quán)協(xié)議:Apache
  • 開發(fā)語言:Java
  • 特點:由爬蟲工作平臺和WebSPHINX類包兩部分組成
C++爬蟲



13、Methabot
Methabot 是一個經(jīng)過速度優(yōu)化的高可配置的 WEB、FTP、本地文件系統(tǒng)的爬蟲軟件。

  • 授權(quán)協(xié)議: 未知
  • 開發(fā)語言: C/C++
  • 操作系統(tǒng): Windows Linux
  • 特點:過速度優(yōu)化、可抓取WEB、FTP及本地文件系統(tǒng)
源代碼:http://www.oschina.net/code/tag/methabot
14、larbin
larbin是一種開源的網(wǎng)絡(luò)爬蟲/網(wǎng)絡(luò)蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開發(fā)。larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數(shù)據(jù)來源。Larbin只是一個爬蟲,也就 是說larbin只抓取網(wǎng)頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數(shù)據(jù)庫以及建立索引的事情 larbin也不提供。一個簡單的larbin的爬蟲可以每天獲?。担埃叭f的網(wǎng)頁。
利用larbin,我們可以輕易的獲取/確定單個網(wǎng)站的所有鏈接,甚至可以鏡像一個網(wǎng)站;也可以用它建立url 列表群,例如針對所有的網(wǎng)頁進行 url retrive后,進行xml的聯(lián)結(jié)的獲取。或者是 mp3,或者定制larbin,可以作為搜索引擎的信息的來源。

  • 授權(quán)協(xié)議: GPL
  • 開發(fā)語言: C/C++
  • 操作系統(tǒng): Linux
  • 特點:高性能的爬蟲軟件,只負(fù)責(zé)抓取不負(fù)責(zé)解析
C# 爬蟲



15、spidernet
spidernet是一個以遞歸樹為模型的多線程web爬蟲程序, 支持text/html資源的獲取. 可以設(shè)定爬行深度, 最大下載字節(jié)數(shù)限制, 支持gzip解碼, 支持以gbk(gb2312)和utf8編碼的資源; 存儲于sqlite數(shù)據(jù)文件.
源碼中TODO:標(biāo)記描述了未完成功能, 希望提交你的代碼.

  • 授權(quán)協(xié)議: MIT
  • 開發(fā)語言: C#
  • 操作系統(tǒng): Windows
  • 特點:以遞歸樹為模型的多線程web爬蟲程序,支持以GBK (gb2312)和utf8編碼的資源,使用sqlite存儲數(shù)據(jù)
github源代碼:https://github.com/nsnail/spidernet
16、Sinawler
國內(nèi)第一個針對微博數(shù)據(jù)的爬蟲程序!原名“新浪微博爬蟲”。
登錄后,可以指定用戶為起點,以該用戶的關(guān)注人、粉絲為線索,延人脈關(guān)系搜集用戶基本信息、微博數(shù)據(jù)、評論數(shù)據(jù)。
該應(yīng)用獲取的數(shù)據(jù)可作為科研、與新浪微博相關(guān)的研發(fā)等的數(shù)據(jù)支持,但請勿用于商業(yè)用途。該應(yīng)用基于.NET2.0框架,需SQL SERVER作為后臺數(shù)據(jù)庫,并提供了針對SQL Server的數(shù)據(jù)庫腳本文件。
另外,由于新浪微博API的限制,爬取的數(shù)據(jù)可能不夠完整(如獲取粉絲數(shù)量的限制、獲取微博數(shù)量的限制等)
5.x版本已經(jīng)發(fā)布! 該版本共有6個后臺工作線程:爬取用戶基本信息的機器人、爬取用戶關(guān)系的機器人、爬取用戶標(biāo)簽的機器人、爬取微博內(nèi)容的機器人、爬取微博評論的機器人,以及調(diào)節(jié)請求頻率的機器人。更高的性能!最大限度挖掘爬蟲潛力! 以現(xiàn)在測試的結(jié)果看,已經(jīng)能夠滿足自用。
程序特點:

  • 6個后臺工作線程,最大限度挖掘爬蟲性能潛力!
  • 界面上提供參數(shù)設(shè)置,靈活方便
  • 拋棄app.config配置文件,自己實現(xiàn)配置信息的加密存儲,保護數(shù)據(jù)庫帳號信息
  • 自動調(diào)整請求頻率,防止超限,也避免過慢,降低效率
  • 任意對爬蟲控制,可隨時暫停、繼續(xù)、停止爬蟲
  • 良好的用戶體驗


  • 授權(quán)協(xié)議: GPLv3
  • 開發(fā)語言: C# .NET
  • 操作系統(tǒng): Windows
17、Web Crawler
mart and Simple Web Crawler是一個Web爬蟲框架。集成Lucene支持。該爬蟲可以從單個鏈接或一個鏈接數(shù)組開始,提供兩種遍歷模式:最大迭代和最大深度。可以設(shè)置 過濾器限制爬回來的鏈接,默認(rèn)提供三個過濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個過濾器可用AND、OR和NOT聯(lián)合。在解析過程或頁面加載前后都可以加監(jiān)聽器。介紹內(nèi)容來自O(shè)pen-Open

  • 開發(fā)語言: Java
  • 操作系統(tǒng): 跨平臺
  • 授權(quán)協(xié)議: LGPL
  • 特點:多線程,支持抓取PDF/DOC/EXCEL等文檔來源
18、網(wǎng)絡(luò)礦工
Soukey采摘網(wǎng)站數(shù)據(jù)采集軟件是一款基于.Net平臺的開源軟件,也是網(wǎng)站數(shù)據(jù)采集軟件類型中唯一一款開源軟件。盡管Soukey采摘開源,但并不會影響軟件功能的提供,甚至要比一些商用軟件的功能還要豐富。

  • 授權(quán)協(xié)議: BSD
  • 開發(fā)語言: C# .NET
  • 操作系統(tǒng): Windows
  • 特點:功能豐富,毫不遜色于商業(yè)軟件
以上就是今天的分享,推薦閱讀我曾經(jīng)寫過的一篇
GitHub 上有哪些優(yōu)秀的 Java 爬蟲項目?九章算法,國內(nèi)&硅谷一線工程師在線直播授課,已經(jīng)幫助30000+人成功拿到心儀offer。
tips: 點贊、喜歡、轉(zhuǎn)發(fā)三連是我更新的動力~ ↙?↙???
精選高品質(zhì)二手iPhone,上愛鋒貝APP

0

主題

49

帖子

9

積分

Rank: 1

20
發(fā)表于 2021-12-13 19:30:19 | 只看該作者
原始數(shù)據(jù)哪里找?200個國內(nèi)外經(jīng)濟/金融/行研/咨詢數(shù)據(jù)網(wǎng)站大全(附鏈接)
資料搜集是個相當(dāng)繁瑣與累的工作,也是數(shù)據(jù)分析入門的基本,良好的信息資料搜集能力有利于我們快速了解數(shù)據(jù)的基本情況,為后續(xù)的調(diào)研及一手資料的獲得打下較好的基礎(chǔ)。

一、搜索引擎(重點掌握)
搜索引擎是我們信息資料搜集的最重要的渠道之一,用搜索引擎查找信息資料需要使用恰當(dāng)?shù)年P(guān)鍵詞和一些搜索技巧。目前國內(nèi)主要的搜集引擎有如下10個,近期還有較多行業(yè)型搜索冒出來,需找專業(yè)型行業(yè)資料可以使用行業(yè)型搜索引擎。
由于每個搜索引擎都有一定的局限性,可以把要搜索的關(guān)鍵詞在多個搜索引擎試一下,可能會搜出你意想不到的結(jié)果。
大家對國內(nèi)的引擎基本都很熟悉,尤其是百度和google,需要搜索同一主題的資料,不同的人所搜出來的結(jié)果可能就天差地別了,主要原因在于如下兩點:

1.搜索關(guān)鍵字的選擇
舉例說明,假如我們要搜索大數(shù)據(jù)行業(yè)發(fā)展相關(guān)資料,如果我們就在百度上搜索“大數(shù)據(jù)”,結(jié)果非常多,無法進行篩選,可以對關(guān)鍵詞進一步界定,如“大數(shù)據(jù)行業(yè)”、“大數(shù)據(jù)市場規(guī)?!薄ⅰ爸袊髷?shù)據(jù)產(chǎn)業(yè)”、“大數(shù)據(jù)技術(shù)”、“大數(shù)據(jù)企業(yè)”等等,需要不停地變換搜索關(guān)鍵詞,直到查到滿意的搜索結(jié)果,在查找的過程中可以根據(jù)查找結(jié)果內(nèi)容再進行對關(guān)鍵詞進行修正,修正有些名稱專業(yè)表達方式,因為最開始搜索我們表達的不一定準(zhǔn)確。

2.搜索技巧
主要是針對百度、google等搜索引擎一些高級搜索技巧。常用技巧主要有如下幾個方面:
(1)文件類型搜索:使用filetype,如在百度或google中鍵入“filetype:pdf 大數(shù)據(jù)”搜索出有關(guān)大數(shù)據(jù)內(nèi)容pdf內(nèi)容,而且這些文檔基本都是可直接下載。還可以變換為其他的如“filetype:doc”、“filetype:ppt”
、“filetype:xls”等等,注意其中的冒號為英文的冒號,一定要變換為英文冒號。
(2)定位于哪個網(wǎng)站上搜索:使用site,如在百度或google中鍵入“大數(shù)據(jù)空格site:sina.com”,則在http://sina.com搜索有關(guān)大數(shù)據(jù)的一些資料信息,這個特別適用針對某些信息可能在哪些網(wǎng)站上出現(xiàn)的一個快速搜索方法,注意冒號也是英文的,網(wǎng)站名稱也不用加www。
(3)精確匹配搜索:使用“”,如在百度中鍵入“大數(shù)據(jù)行業(yè)”,表示搜索“大數(shù)據(jù)行業(yè)”五個必須聯(lián)在一起的,如果不加“”,搜到的為大數(shù)據(jù)及行業(yè)兩個詞并列顯示結(jié)果,沒有這么精確匹配。
(4)限制性的網(wǎng)頁搜索:使用intitle,如在百度鍵入“intitie:大數(shù)據(jù)”,限定于搜索標(biāo)題中含有“大數(shù)據(jù)”網(wǎng)頁,如果輸入“intitie:大數(shù)據(jù)市場規(guī)?!毕薅ㄓ谒阉鳂?biāo)題中含有“大數(shù)據(jù)”和“市場規(guī)?!钡木W(wǎng)頁。

附:搜索引擎推薦
1)http://scholar.google.com/
雖然還是Beta版,但個人已覺得現(xiàn)在已經(jīng)是很好很強大了,Google學(xué)術(shù)搜索濾掉了普通搜索結(jié)果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次數(shù)。略顯不足的是,它搜索出來的結(jié)果沒有按照權(quán)威度(譬如影響因子、引用次數(shù))依次排列,在中國搜索出來的,前幾頁可能大部分為中文的一些期刊的文章。
2)http://www.scirus.com
Scirus 是目前互聯(lián)網(wǎng)上最全面、綜合性最強的科技文獻搜索引擎之一,由Elsevier科學(xué)出版社開發(fā),用于搜索期刊和專利,效果很不錯!Scirus覆蓋的學(xué)科 范圍包括:農(nóng)業(yè)與生物學(xué),天文學(xué),生物科學(xué),化學(xué)與化工,計算機科學(xué),地球與行星科學(xué),經(jīng)濟、金融與管理科學(xué),工程、能源與技術(shù),環(huán)境科學(xué),語言學(xué),法 學(xué),生命科學(xué),材料科學(xué),數(shù)學(xué),醫(yī)學(xué),神經(jīng)系統(tǒng)科學(xué),藥理學(xué),物理學(xué),心理學(xué),社會與行為科學(xué),社會學(xué)等。
3)http://www.base-search.net/
BASE是德國比勒費爾德(Bielefeld)大學(xué)圖書館開發(fā)的一個多學(xué)科的學(xué)術(shù)搜索引擎,提供對全球異構(gòu)學(xué)術(shù)資源的集成檢索服務(wù)。它整合了德國比勒費爾德大學(xué)圖書館的圖書館目錄和大約160個開放資源(超過200 萬個文檔)的數(shù)據(jù)。
4)http://www.vascoda.de/
Vascoda是一個交叉學(xué)科門戶網(wǎng)站的原型,它注重特定主題的聚合,集成了圖書館的收藏、文獻數(shù)據(jù)庫和附加的學(xué)術(shù)內(nèi)容。
5)http://www.goole.com/
與google比較了一下發(fā)現(xiàn),能搜索到一些google搜索不到的好東東 。它界面簡潔,功能強大,速度快,YAHOO、網(wǎng)易都采用了它的搜索技術(shù)。各位可以一試。
6)http://www.a9.com
Google在同一水平的搜索引擎。是http://Amazon.com推出的,Webresult部分是基于Google的,所以保證和Google在同一水平,另外增加了Amazon的在書本內(nèi)搜索的功能和個性化功能:主要是可以記錄你的搜索歷史?,F(xiàn)在還是Beta,不過試用后感覺很好,向大家推薦一試 ,不過缺憾是現(xiàn)在書本內(nèi)搜索沒有中文內(nèi)容。
7)http://www.ixquick.com
嚴(yán)格意義上講不是搜索引擎,是連接搜索引擎和網(wǎng)絡(luò)用戶的信息立交橋。新一代的搜索引擎應(yīng)運而生,Ixquick meta-search正是目前最具光芒的新星。但是對于大多數(shù)國內(nèi)用戶來說,Ixquick還很陌生。Ixquick眾多獨特的功能我不一一介紹了,只介紹我們最關(guān)心的,搜索數(shù)據(jù)庫密碼。
使用方法:先進入Ixquick,以“Proquest”數(shù)據(jù)庫為例。填入Proquest Username Password History Online后點擊search,看看出來的結(jié)果,第一頁中第6個,proquest的username和password赫然在目,別急,再看第4個結(jié) 果“HB Thompson Subscription Online Databases”,即http://homework.syosset.k12.ny.us/onlinedbs/HBTDatabases/,進入 后發(fā)現(xiàn)這是一個密碼頁,選擇Magazines& Journals欄,就有 EBSCO、Electric Library Elementary、Electric LibraryElementary、ProQuest Platinum (in school)、ProQuest Platinum(remote)等眾多數(shù)據(jù)庫的密碼,都有uesrname和password,隨便試一下EBSCO,OK,成功登陸。
8)http://vivisimo.com/
cmu的作品,對搜索的內(nèi)容進行分類,這樣可以有效地做出選擇,比較有特色??蓪崿F(xiàn)分類檢索,檢索速度也很好,如EBSCO 密碼幾分鐘就可找一大堆 .
http://search.epnet.com/,User ID:mountain,Password: ridge,這個密碼可以試試。
9)http://www.findarticles.com/
一個檢索免費paper的好工具。進入網(wǎng)頁以后,可以看到他有三個功能,driectory web article,其中article對我們很有幫助,你可以嘗試輸入你要找的文章,會有很多發(fā)現(xiàn)的!
10)http://www.chmoogle.com
現(xiàn)點擊后或跳轉(zhuǎn)到http://www.emolecules.com,在此搜索引擎里可以搜索到超過千萬種化學(xué)品信息或相應(yīng)的供應(yīng)商,與Chemblink有點相似,但提供的化學(xué)品理化信息沒有Chemblink詳細(xì),與其不同的是該搜索引擎可提供化學(xué)品結(jié)構(gòu)式搜索(主頁上有在線繪制化學(xué)結(jié)構(gòu)式的搜索框)。
11)http://www.ojose.com/
OJOSE (Online JournalSearch Engine,在線期刊搜索引擎)是一個強大的免費科學(xué)搜索引擎,通過OJOSE,你能查找、下載或購買到近60個數(shù)據(jù)庫的資源。但是感覺操作比較復(fù)雜。
12)http://citeseer.ist.psu.edu/
一個關(guān)于計算機和信息科學(xué)的搜索引擎。
13)http://hpsearch.uni-trier.de/
專家個人主頁搜索引擎。
14)http://www.aol.com
里面的搜索引擎功能由google提供,搜索結(jié)果與google一樣,如果google無法登陸,可以用這個網(wǎng)站代替。

二、數(shù)據(jù)庫
數(shù)據(jù)庫是研究人員重要的數(shù)據(jù)來源之一,目前券商、基金研究研究機構(gòu)都購買有商業(yè)數(shù)據(jù)庫,目前研究用的數(shù)據(jù)庫主要分為兩大類,一是商業(yè)數(shù)據(jù)庫,二是學(xué)術(shù)數(shù)據(jù)庫。
1.商業(yè)數(shù)據(jù)庫
商業(yè)數(shù)據(jù)庫大多為金融投資所用,主要分為國內(nèi)與國外數(shù)據(jù)庫兩大類。
(1)國內(nèi)商業(yè)數(shù)據(jù)庫
國內(nèi)數(shù)據(jù)庫主要有如萬德、恒生聚源、銳思數(shù)據(jù)庫、CSMAR數(shù)據(jù)庫、巨潮數(shù)據(jù)庫等。目前萬德數(shù)據(jù)庫主要定位于國內(nèi)高端客戶,市場占有率較高,80%左右,當(dāng)然其售價較高。恒生聚源也定位為機構(gòu)客戶,性價比較高,售價要比萬德便宜的多。CSMAR數(shù)據(jù)庫定位于學(xué)術(shù)與高校,其中金融數(shù)據(jù)比較全,強大。銳思數(shù)據(jù)庫定位于學(xué)術(shù),質(zhì)量一般。巨潮數(shù)據(jù)庫為深交所旗下數(shù)據(jù)庫,有一定的特殊優(yōu)勢。
(2)國外商業(yè)數(shù)據(jù)庫
國外數(shù)據(jù)庫主要有彭博、路透社、CEIC、OECD、Haver Database、Thomson Financial One Banker等,國外數(shù)據(jù)庫中彭博是比較全也大的,在國內(nèi)銷售也較好,但是售價奇貴。一般不做國際市場研究,大多用不到國外數(shù)據(jù)庫,畢竟國外數(shù)據(jù)庫公司對國內(nèi)的行業(yè)數(shù)據(jù)及公司數(shù)據(jù)不如本土數(shù)據(jù)庫公司的做得好。

2.學(xué)術(shù)數(shù)據(jù)庫
學(xué)術(shù)數(shù)據(jù)庫基本為高校、研究機構(gòu)所用,也分為國內(nèi)與國外兩大類,學(xué)術(shù)數(shù)據(jù)庫中一些學(xué)術(shù)論文、行業(yè)數(shù)據(jù)、統(tǒng)計年鑒還是有用的,缺點就是其中有些數(shù)據(jù)的相對較舊,無法做到實時更新。
(1)國內(nèi)學(xué)術(shù)數(shù)據(jù)庫
中國知網(wǎng):國內(nèi)最大學(xué)術(shù)數(shù)據(jù)庫,包括期刊、學(xué)位論文、統(tǒng)計年鑒等。
萬方數(shù)據(jù):僅次于中國知網(wǎng),包括期刊、學(xué)位論文等。
人大復(fù)印資料:期刊、論文等。
維普:期刊、論文等。
中經(jīng)網(wǎng):有較多行業(yè)研究報告,宏觀數(shù)據(jù)較全。
國研網(wǎng):數(shù)據(jù)較為權(quán)威,有些報告可以一看。
上海公共研發(fā)平臺:可以注冊,人工審核,內(nèi)包含較多數(shù)據(jù)庫。
(2)國外學(xué)術(shù)數(shù)據(jù)庫
EBSCO:較全的一個數(shù)據(jù)庫,內(nèi)包含較多的商業(yè)數(shù)據(jù),好用
Elsevier:學(xué)術(shù)文章全,更新速度快。
以上大致介紹了國內(nèi)的商業(yè)及學(xué)術(shù)數(shù)據(jù)庫,但這些數(shù)據(jù)庫都是通過收費或?qū)W校賬號才能使用,對于平時臨時研究用的一些人,沒有必要去購買,下面介紹一些免費可用的數(shù)據(jù)庫。
數(shù)據(jù)匯
http://www.shujuhui.com/database/;
國內(nèi)的宏觀數(shù)據(jù),國外的也有一部分,可以導(dǎo)出來,免費好用。
數(shù)據(jù)圈:
http://www.shujuquan.com.cn/;
免費共享平臺,行業(yè)研究報告,統(tǒng)計年鑒等;
FRED:
http://research.stlouisfed.org/fred2/;
OECD:
http://www.oecd-ilibrary.org/economics;
聯(lián)合國圖書館。
臺灣學(xué)術(shù)數(shù)據(jù)庫:
http://fedetd.mis.nsysu.edu.tw/;
部分文章提供免費全文下載。
臺灣大學(xué)電子書:
http://ebooks.lib.ntu.edu.tw/Home/ListBooks
三、共享文庫
首先也非常感謝共享文庫的出現(xiàn),使得大家搜集信息方便了許多,隨最早的豆丁、百度、愛問等共享文庫的出現(xiàn),隨后到如今出現(xiàn)許多共享文庫,不過很多文庫規(guī)模較小,文檔數(shù)量較少。
(1)國內(nèi)主要文庫
百度文庫:http://wenku.baidu.com/;
國內(nèi)文檔數(shù)據(jù)量最大的共享文庫,綜合型的,好用。。
豆丁文庫:http://www.docin.com/;
其收費的盈利模式導(dǎo)致用戶數(shù)量逐年減少,文檔質(zhì)量也不如百度文庫。
愛問共享:
http://ishare.iask.sina.com.cn/;
綜合型文庫,里面也時常發(fā)現(xiàn)好的行業(yè)研究報告,電子書籍等。
道客巴巴:http://www.doc88.com/;
綜合型文庫,后起之秀,文檔數(shù)量和質(zhì)量較好。
智庫文檔:http://doc.mbalib.com/;
以管理、行業(yè)文檔為主。
質(zhì)量較好文庫大全:http://www.wenkudaquan.com/;
無需注冊,通過點擊廣告模式盈利,文檔內(nèi)容多。
IT168文庫:http://wenku.it168.com/;
專業(yè)型文庫,以計算機及IT技術(shù)相關(guān)的文檔為主。
CSDN文庫:http://www.csdn.net/;
全球最大的中文IT社區(qū)。
呱仕網(wǎng):http://www.guasee.com/;
以創(chuàng)業(yè)投資、證券市場等文檔為主的專業(yè)型文庫,剛起步狀態(tài)。
新浪地產(chǎn):http://dichan.sina.com.cn/;
國內(nèi)最大房地產(chǎn)類文庫,房地產(chǎn)相關(guān)策劃、數(shù)據(jù)較全。

(2)國外文庫
Scribd:http://www.scribd.com;
全球最大的文檔分享平臺。
Docstoc:http://www.docstoc.com;
在線文檔與圖片分享平臺。
針對以上國內(nèi)的共享文庫,都可以通過注冊賬號,上傳分享資料賺取積分,通過積分可以下載文庫資料。如果有些文檔看過后不錯想保存下來積分不夠,可以通過文庫下載器來免費下載保存,文庫下載器有如“冰點文庫下載、易讀下載、老張文庫下載”等等,如果只看重其中一部分內(nèi)容,可以通過QQ拷屏方式保留下來(登陸QQ,ctrl+alt+a拷屏)。
四、專業(yè)網(wǎng)站
在共享文庫未出現(xiàn)以前,專業(yè)論壇一直擔(dān)任著查找資料的好去處,的確國內(nèi)的一些論壇經(jīng)過這么多年的運營,已經(jīng)積累大量有用文檔。下面主要介紹我們常用的專業(yè)論壇。
1.人大經(jīng)濟論壇:http://bbs.pinggu.org/
經(jīng)濟、學(xué)術(shù)型論壇,其中行業(yè)研究、統(tǒng)計年鑒數(shù)量多,更新速度快,我的最愛,常用。(如哪位仁兄想下載其中其他地方找不到的文檔,積分不夠,請用微信私信給我,我來幫你解決)。
2.經(jīng)濟學(xué)家:http://bbs.jjxj.org/
經(jīng)濟學(xué)專業(yè)論壇,其中統(tǒng)計年鑒、行業(yè)報告、國內(nèi)外數(shù)據(jù)等有特色。
3.隨意網(wǎng)-經(jīng)濟論壇:
http://economic.5d6d.net/
新建網(wǎng)站,有些內(nèi)容尚可。
4.理想在線:http://www.55188.com
股票券商研究報告。
5.邁博匯金:http://www.hibor.com.cn/
股票券商研究報告,目前已經(jīng)收費了,只能查詢有哪些最新報告了,無法下載。
6.博瑞金融:
http://www.brjr.com.cn/forum.php
金融行業(yè)專業(yè)型論壇。
7.華爾街社區(qū):
http://forum.cnwallstreet.com/index.php
國內(nèi)專業(yè)的金融論壇。
8.投行先鋒論壇:http://www.thxflt.com/
專業(yè)型為投行人士探討而設(shè)立的論壇。
9.春暉投行在線:
http://www.shenchunhui.com/
證券相關(guān)政策的匯編整合論壇。
10.中華股權(quán)投資論壇:
http://www.tzluntan.com/
pe投資專業(yè)型論壇。
其他專業(yè)網(wǎng)站:
投行網(wǎng)站
http://macabacus.com/。
http://www.wallstreetoasis.com/。
http://www.ibankingfaq.com/。
IPOhttp://stocks.etnet.com.cn/www/sc/stocks/ci_ipo.php。
IPOhttp://www.aastocks.com/sc/ipo/sponsor.aspx。
julinghttp://terminal.chinaef.com/index.action。
MA http://www.mergermarket.com/info/。
各大咨詢公司報告
http://www.deloitte.com/view/zh_CN/cn/services/。
http://www.deloitte.com/view/en_GX/global/insights/index.htm。
http://www.kpmg.com/CN/en/IssuesAndInsights/Pages/default.aspx。
http://www.mckinsey.com/locations/chinasimplified/。
http://www-31.ibm.com/cn/services/bcs/。
http://www.bcg.com.cn/cn/newsandpublications/newsandpublictions_publications.html。
http://www.ebusinessreview.cn/。
http://www.ey.com/CN/ZH/home/library。
http://www.bain.cn/news.php。
https://china.mckinseyquarterly.com/home.aspx。
http://www.pwccn.com/home/eng/libraryindex.html。
http://www2.hewittassociates.com/Intl/AP/zh-CHT/Default.aspx。
http://www.booz.com/global/home/what_we_think/cds_home/m_and_a/cds_our-leading-research-on-ma。

五、政府部門
政府部門是國內(nèi)公開數(shù)據(jù)的來源,查詢權(quán)威的數(shù)據(jù)可以到政府相關(guān)部門網(wǎng)站,以下介紹國內(nèi)的主要發(fā)布相關(guān)數(shù)據(jù)的政府部門。
1.國家統(tǒng)計局:http://www.stats.gov.cn/
這個不用多說,大家很多人瀏覽過。
2.工業(yè)和信息化部:
http://www.miit.gov.cn
較多數(shù)據(jù)在此發(fā)布,尤其是有關(guān)工業(yè)運行及信息化相關(guān)數(shù)據(jù)。
3.中國人民銀行:http://www.pbc.gov.cn/
中國金融市場政策及運行相關(guān)數(shù)據(jù)。
4.銀監(jiān)會:http://www.cbrc.gov.cn
銀行金融相關(guān)數(shù)據(jù)。
5.中國海關(guān):http://www.customs.gov.cn
中國進出口相關(guān)數(shù)據(jù)。
6.國家知識產(chǎn)權(quán)局:
http://www.sipo.gov.cn
專利相關(guān)查詢
7.中國證監(jiān)會:http://www.csrc.gov.cn
相關(guān)政策及招股書披露平臺,以及擬上市公司排隊每周披露。
8.巨潮信息網(wǎng):
http://www.cninfo.com.cn/
中國資本市場指定披露平臺,上市公司相關(guān)年報、季報及公告披露信息。

六、專業(yè)網(wǎng)站
1.上海證券交易所:
http://www.sse.com.cn/
其中研究出版欄目中有些研究報告
2.深圳證券交易所:http://www.szse.cn/
其中研究/刊物中有研究報告
3.全國中小企業(yè)股份轉(zhuǎn)讓系統(tǒng)(新三板):http://www.neeq.com.cn/
新三板掛牌公司的轉(zhuǎn)讓及信息披露。
4.香港證券交易所:
http://www.hkexnews.hk/index_c.htm;
5.臺灣證券交易所:
http://www.tse.com.tw/ch/index.php。
6.新加坡證券交易所:
http://www.sgx.com/
7.紐約證券交易所:http://www.nyse.com
8.納斯達克證券交易所:
http://www.nasdaq.com

七、如何尋找國外資源
1.搜集美國相關(guān)數(shù)據(jù)
由位于華盛頓的美國政府印刷辦公室出版、經(jīng)濟顧問委員會撰寫的《總統(tǒng)經(jīng)濟報告》(Economic Report of President),提供了有關(guān)美國當(dāng)前經(jīng)濟形勢的描述和主要宏觀經(jīng)濟變量數(shù)據(jù)。相當(dāng)多的數(shù)據(jù)都可以追溯到1959年,甚至個別的可追溯到1929年??赡苣阋呀?jīng)留意到了,好多有關(guān)美國的圖形,都是采用《總統(tǒng)經(jīng)濟報告》(2005)所附數(shù)據(jù)生成的。這些數(shù)據(jù)可以免費下載,網(wǎng)址是http://www.access.gpo.gov/eop/。
如果需要一應(yīng)俱全的數(shù)據(jù),一個寶貴的權(quán)威來源是,美國商務(wù)部統(tǒng)計局出版的《美國統(tǒng)計概要》(Statistical Abstract of the United States),相當(dāng)一部分?jǐn)?shù)據(jù)可以免費下載,網(wǎng)址是http://www.census.gov/statab/www/。
如果想獲得最近數(shù)據(jù)的詳細(xì)資料,一個不錯的選擇是,美國商務(wù)經(jīng)濟分析局每月出版的《當(dāng)代商業(yè)縱覽》(Survey of Current Business)。網(wǎng)址是,http://www.bea.doc.gov。

2.如何搜集國外其他經(jīng)濟體數(shù)據(jù)
對富裕國家來說,最有用的資料來源于經(jīng)濟合作與發(fā)展組織(Organization of Economic Cooperation and Development,簡稱OECD)。經(jīng)濟合作與發(fā)展組織的成員包括:奧地利、澳大利亞、比利時、加拿大、捷克共和國、丹麥、芬蘭、法國、德國、希臘、匈牙利、冰島、意大利、日本、盧森堡、墨西哥、荷蘭、新西蘭、挪威、波蘭、葡萄牙、韓國、西班牙、瑞典、瑞士、土耳其、英國和美國??磥?,世界上的富裕國家大都屬于該組織,其產(chǎn)出占世界產(chǎn)出的70%左右。OECD的網(wǎng)址是http://www.oecd.org,提供三種極為有用的數(shù)據(jù)。
《OECD經(jīng)濟展望》(OECD Economic Outlook),每年出版兩次,提供許多跨國宏觀經(jīng)濟數(shù)據(jù)。這些數(shù)據(jù)一般都上溯到20世紀(jì)70年代,而且具有很好的一致性。
《OECD就業(yè)展望》(OECD Employment Outlook),每年出版一次,專門提供勞動力市場的數(shù)據(jù)?!禣ECD歷史統(tǒng)計》(OECD Historical Statistics),不定期出版,將當(dāng)期數(shù)據(jù)和過去數(shù)據(jù)放在一起。
對于不是OECD成員的國家和地區(qū),可以從其它國際組織那里獲得相關(guān)數(shù)據(jù),比如國際貨幣基金組織(International Monetary Fund,簡稱IMF),其網(wǎng)址是http://www.imf.org。IMF提供《國際金融統(tǒng)計年鑒》(InternationalFinancial Statistics Yearbook),它主要提供成員國的金融數(shù)據(jù),但也包括一些總體數(shù)據(jù),比如GDP、失業(yè)和通貨膨脹等。
至于若干國家長期的統(tǒng)計數(shù)據(jù),兩個不可多得的數(shù)據(jù)來源是,Heston-Summers數(shù)據(jù)庫和Madison數(shù)據(jù)庫。Heston-Summers數(shù)據(jù)庫提供168經(jīng)濟體在1950-2000年間的跨國可比數(shù)據(jù),在賓夕法尼亞大學(xué)國際比較中心(Center for International Comparisons at the University ofPennsylvania)網(wǎng)站上可以下載,http://pwt.econ.upenn.edu/。Madison數(shù)據(jù)庫提供了自1820年以來56個經(jīng)濟體的數(shù)據(jù)。
最后,如果還沒有找到你要的數(shù)據(jù),不妨登陸下面的兩個網(wǎng)站,也許是根稻草。哈佛商學(xué)院的宏觀經(jīng)濟學(xué)資源網(wǎng)站www.hbs.edu./units/bgie/internet/,提供了大量連接。由密西西比大學(xué)BillGoffe維護的一個網(wǎng)站http://rfe.wustl.edu,不僅列出了數(shù)據(jù)來源,而且還列出了有關(guān)經(jīng)濟的其他信息來源。
八、分行業(yè)網(wǎng)站
1.互聯(lián)網(wǎng)及傳媒
(1)資訊類
新浪科技 http://tech.sina.com.cn/。
騰訊科技 http://tech.qq.com/。
艾瑞網(wǎng) http://www.iresearch.cn/。
藝恩網(wǎng) http://www.entgroup.cn/。
虎嗅網(wǎng) http://wwww.huxiu.com/。
36kr http://36kr.com/。
鈦媒體 http://www.tmtpost.com/。
游戲大觀 http://www.gamelook.com.cn/。
億歐網(wǎng) http://www.iyiou.com/。
媒介360
http://www.chinamedia360.com/main。
(2)數(shù)據(jù)類
中國票房 http://www.cbooo.cn/。
中國互聯(lián)網(wǎng)絡(luò)信息中心
http://www.cnnic.net.cn/。
艾瑞網(wǎng):
http://www.iresearch.com.cn/report/viewlist.aspx。
易觀智庫 http://www.analysys.cn/。
游戲產(chǎn)業(yè)網(wǎng):
http://www.cgigc.com.cn/list/79644663134.html。
百度指數(shù) http://index.baidu.com/。
大數(shù)據(jù)導(dǎo)航
http://hao.199it.com/。
CSM(電視收視率) http://www.csm.com.cn/。
微排片 http://www.weipaipian.com。

2.醫(yī)藥行業(yè)
(1)樣本醫(yī)院數(shù)據(jù)
化藥、生物藥和中藥注射劑 http://pdb.pharmadl.com/。
中成藥、化藥 http://www.menet.com.cn/。
國外樣本醫(yī)院數(shù)據(jù)彭博上有類似PDB的數(shù)據(jù)庫。
(2)藥品中標(biāo)價格
百度蟲,藥智網(wǎng),健康網(wǎng) (付費),米內(nèi)網(wǎng)(付費)。
(3)藥品招標(biāo)政策
各省藥品招標(biāo)平臺。
(4)醫(yī)療器械數(shù)據(jù)
基本沒有,米內(nèi)網(wǎng)有付費數(shù)據(jù)庫(沒見過)、海關(guān)信息網(wǎng)。
(5)中藥材數(shù)據(jù)
中藥材天地網(wǎng)、萬得的EDB、中藥材東方網(wǎng)。
(6)藥品審批
藥智網(wǎng)、藥監(jiān)局、CDE網(wǎng)站。
(7)醫(yī)藥行業(yè)政策
國家藥監(jiān)局、發(fā)改委、中國政府網(wǎng)、衛(wèi)計委等等。
(8)國內(nèi)外行業(yè)協(xié)會和咨詢機構(gòu)
例IMS Health、XX醫(yī)藥協(xié)會。
(9)新聞網(wǎng)站/微信
賽柏藍(lán)、米內(nèi)網(wǎng)、生物谷、新康界、醫(yī)谷、藥友匯、丁香園、動脈網(wǎng)、貝殼社。

3.銀行業(yè)
(1)新聞資訊
中證網(wǎng) http://www.cs.com.cn/xwzx/hg/
一財網(wǎng) http://www.yicai.com/economy/
財新網(wǎng) http://finance.caixin.com/bank/
華爾街見聞 http://wallstreetcn.com/news?cid=19
新浪財經(jīng) http://finance.sina.com.cn/
證券時報網(wǎng) http://www.stcn.com/
中國金融新聞網(wǎng) http://www.financialnews.com.cn/yh/xw/
(2)公告、數(shù)據(jù)查找
中國貨幣網(wǎng)
http://www.chinamoney.com.cn/index.html
巨潮網(wǎng) http://www.cninfo.com.cn/
統(tǒng)計局 http://www.stats.gov.cn/
中國人民銀行 http://www.pbc.gov.cn/
銀監(jiān)會 http://www.cbrc.gov.cn/index.html
上海證券交易所 http://www.sse.com.cn/
深圳證券交易所 http://www.szse.cn/
最常用wind股票數(shù)據(jù)庫

4.有色金屬
(1)日報網(wǎng)站
宏觀新聞:
央行快訊
http://t.news.fx168.com/bank/
行業(yè)新聞:
中國金屬網(wǎng)
http://www.metalchina.com
上海有色網(wǎng)
http://www.smm.cn/index_2015.html
百川咨詢 http://www.baiinfo.com
公司公告:巨潮 http://www.cninfo.com.cn
(2)其他常用站
高工鋰電
http://www.gg-lb.com/default_index_new.php
真鋰研究 http://www.realli.net
深交所互動易(查看投資者互動資料)
http://irm.cninfo.com.cn/szse/
中金網(wǎng)(有色金屬)
http://www.metalsinfo.com/news/
銀 https://www.silverinstitute.org/site/publications/
銀 http://financial.thomsonreuters.
... /articles/gfms.html。
新三板資訊 http://www.sanban18.com
格隆匯港股
http://www.gelonghui.com/portal.php
九、其他
除以上介紹的幾種資料搜集渠道外,我們也結(jié)合近年it科技的發(fā)展,在博客、微博、空間等去搜索。
1.行業(yè)協(xié)會網(wǎng)站:每個行業(yè)協(xié)會基本都會有網(wǎng)站,在該網(wǎng)站上能夠查找一些對本行業(yè)的描述、相關(guān)數(shù)據(jù)等。
2.博客:國內(nèi)有網(wǎng)易、新浪、搜狐、百度空間、和訊等博客網(wǎng)站,有些數(shù)據(jù)也可以從搜索博客中找到。
3.微博:新浪微博及騰訊微博,用數(shù)量極大,其中有些數(shù)據(jù)可以通過搜索查詢到。
4.微信:微信用戶已經(jīng)超過4億,每個人都是新聞的發(fā)布者,其中數(shù)據(jù)資源豐富,但目前還未提供全文搜索功能,只能通過關(guān)注相關(guān)公共賬號或關(guān)注朋友圈獲取。
5.QQ空間:有些企業(yè)或機構(gòu)QQ空間會有些報告及數(shù)據(jù)發(fā)布。
6.全景網(wǎng):財經(jīng)資訊 http://www.p5w.net/。
喜歡記得點贊收藏喲!
*本文轉(zhuǎn)載自公眾號:社科方法網(wǎng)
精選高品質(zhì)二手iPhone,上愛鋒貝APP
您需要登錄后才可以回帖 登錄 | 立即注冊   

本版積分規(guī)則

QQ|Archiver|手機版|小黑屋|愛鋒貝 ( 粵ICP備16041312號-5 )

GMT+8, 2025-2-23 23:13

Powered by Discuz! X3.4

© 2001-2013 Discuz Team. 技術(shù)支持 by 巔峰設(shè)計.

快速回復(fù) 返回頂部 返回列表