愛鋒貝

標題: 去哪找數(shù)據(jù)?怎么挖掘? [打印本頁]

作者: 數(shù)碼桃桃    時間: 2021-12-15 04:15
標題: 去哪找數(shù)據(jù)?怎么挖掘?
本文轉自簡道云的知乎回答有哪些「神奇」的數(shù)據(jù)獲取方式?
已經(jīng)將網(wǎng)站匯總成表格,大家可以下載查看:【簡道云匯總】110+數(shù)據(jù)網(wǎng)站
如果你不是會爬蟲的技術流,那下面這110+網(wǎng)站可以解決你90%的數(shù)據(jù)需求。
首先,常見的公開數(shù)據(jù)網(wǎng)站在https://hao.199it.com/都可以搜索到。

(, 下載次數(shù): 28)
除此之外,補充上面沒有的一些網(wǎng)站,一共110+,按需選擇:
金融財經(jīng)數(shù)據(jù)

互聯(lián)網(wǎng)數(shù)據(jù)

營銷查詢:
報告分析:
地理數(shù)據(jù)

水土氣候數(shù)據(jù):
環(huán)境數(shù)據(jù):
遙感數(shù)據(jù):
其他自然人文數(shù)據(jù):
影像數(shù)據(jù):
政府數(shù)據(jù)

其他細分行業(yè)數(shù)據(jù)

除去現(xiàn)成的數(shù)據(jù)源,還有一塊就是用python爬取數(shù)據(jù),這也是大數(shù)據(jù)的熱門模塊。
其實,想要快速學會python,除去一些基礎的理論知識外,最重要的就是項目!項目!項目!
就拿入門課程來舉例子吧,我為什么說它適合0基礎的呢?有3點:

(, 下載次數(shù): 25)
暫時就說這么多吧,想要學習完整的Python入門知識,在【夜曲編程】回復【免費教程】
有了數(shù)據(jù)之后,剩下的事情就是分析和展示數(shù)據(jù)了,這里介紹一下FineBI數(shù)據(jù)分析工具,如果你經(jīng)常用Excel,可以用下這個數(shù)據(jù)分析工具,能很大程度上提高效率。
FineBI工具在這里:

(, 下載次數(shù): 24)
數(shù)據(jù)分析工具,操作非常簡單,設計頁面類excel,直接拖拽數(shù)據(jù)字段就能生成圖表??蛇x擇的圖表類型非常多,有很多創(chuàng)意十足的圖表令人眼前一亮,系統(tǒng)自帶的配色方案也好看。進階一點的話,還可以拿來制作Dashboard。

(, 下載次數(shù): 28)
主要面對的是業(yè)務人員,不懂編程的也可快速上手,根據(jù)自己需求設計出儀表板來進行分析,不再麻煩技術人員去一個個要需求,浪費時間不說,還不能做出自己想要的效果。自己分析得出想要的結果,最終幫助企業(yè)做出正確的經(jīng)營決策。它的可視化效果也是非常不錯的。

(, 下載次數(shù): 27)

(, 下載次數(shù): 26)

-----------------------------
作者: 在水。    時間: 2021-12-15 06:47
本文轉自簡道云的知乎回答有哪些「神奇」的數(shù)據(jù)獲取方式?
已經(jīng)將網(wǎng)站匯總成表格,大家可以下載查看:【簡道云匯總】110+數(shù)據(jù)網(wǎng)站
如果你不是會爬蟲的技術流,那下面這110+網(wǎng)站可以解決你90%的數(shù)據(jù)需求。
首先,常見的公開數(shù)據(jù)網(wǎng)站在https://hao.199it.com/都可以搜索到。

(, 下載次數(shù): 24)
除此之外,補充上面沒有的一些網(wǎng)站,一共110+,按需選擇:
金融財經(jīng)數(shù)據(jù)

互聯(lián)網(wǎng)數(shù)據(jù)

營銷查詢:
報告分析:
地理數(shù)據(jù)

水土氣候數(shù)據(jù):
環(huán)境數(shù)據(jù):
遙感數(shù)據(jù):
其他自然人文數(shù)據(jù):
影像數(shù)據(jù):
政府數(shù)據(jù)

其他細分行業(yè)數(shù)據(jù)

除去現(xiàn)成的數(shù)據(jù)源,還有一塊就是用python爬取數(shù)據(jù),這也是大數(shù)據(jù)的熱門模塊。
其實,想要快速學會python,除去一些基礎的理論知識外,最重要的就是項目!項目!項目!
就拿入門課程來舉例子吧,我為什么說它適合0基礎的呢?有3點:

(, 下載次數(shù): 31)
暫時就說這么多吧,想要學習完整的Python入門知識,在【夜曲編程】回復【免費教程】
有了數(shù)據(jù)之后,剩下的事情就是分析和展示數(shù)據(jù)了,這里介紹一下FineBI數(shù)據(jù)分析工具,如果你經(jīng)常用Excel,可以用下這個數(shù)據(jù)分析工具,能很大程度上提高效率。
FineBI工具在這里:
FineBI商業(yè)智能軟件 - 新一代自助大數(shù)據(jù)分析的BI工具
(, 下載次數(shù): 25)
數(shù)據(jù)分析工具,操作非常簡單,設計頁面類excel,直接拖拽數(shù)據(jù)字段就能生成圖表。可選擇的圖表類型非常多,有很多創(chuàng)意十足的圖表令人眼前一亮,系統(tǒng)自帶的配色方案也好看。進階一點的話,還可以拿來制作Dashboard。

(, 下載次數(shù): 23)
主要面對的是業(yè)務人員,不懂編程的也可快速上手,根據(jù)自己需求設計出儀表板來進行分析,不再麻煩技術人員去一個個要需求,浪費時間不說,還不能做出自己想要的效果。自己分析得出想要的結果,最終幫助企業(yè)做出正確的經(jīng)營決策。它的可視化效果也是非常不錯的。

(, 下載次數(shù): 24)

(, 下載次數(shù): 23)
FineBI商業(yè)智能軟件 - 新一代自助大數(shù)據(jù)分析的BI工具
作者: 小心肝    時間: 2021-12-15 08:42
答主整理了一些主流、免費、省力獲取數(shù)據(jù)的網(wǎng)站,推薦給大家。
一、中華人民共和國國家統(tǒng)計局>>國家數(shù)據(jù)
網(wǎng)址:http://data.stats.gov.cn/
主要包含:國民經(jīng)濟、人口、對外經(jīng)濟貿(mào)易、能源、財政、價格、農(nóng)業(yè)、工業(yè)、運輸、旅游、教育、科技、衛(wèi)生等數(shù)據(jù),可以按年度、季度、月度查詢。
可以免費下載

(, 下載次數(shù): 24)
另外在國際數(shù)據(jù)目錄下,有“各國數(shù)據(jù)”,這里鏈接了各個國家的權威統(tǒng)計網(wǎng)站哦,善于科學上網(wǎng),你就可以擁有這些數(shù)據(jù)!

(, 下載次數(shù): 26)
二、世界銀行——各國發(fā)展數(shù)據(jù)
網(wǎng)址:https://data.worldbank.org.cn/ (cn域名的外國網(wǎng)站哦,不需科學上網(wǎng),就能暢快瀏覽)
主要包含:各國相關的發(fā)展數(shù)據(jù),而且資金等數(shù)據(jù)有多個維度可以查看。
數(shù)據(jù)可以免費下載

(, 下載次數(shù): 31)
點擊數(shù)據(jù)目錄,就可以查看并下載相關數(shù)據(jù)啦。

(, 下載次數(shù): 24)

(, 下載次數(shù): 22)
以上,如果大家有關注B站的可視化作品的話,就會發(fā)現(xiàn),90%UP主所使用的數(shù)據(jù),都來自上面兩個網(wǎng)站。

(, 下載次數(shù): 26)
三、GitHub——高質量公共數(shù)據(jù)集
網(wǎng)址:https://github.com/awesomedata/awesome-public-datasets
主要包含:農(nóng)業(yè)、生物、計算機、天氣、經(jīng)濟學、博物館、機器學習等你能想到的幾乎所有數(shù)據(jù)
大部分免費,部分收費
隨便截個目錄,給大家感受一下。

(, 下載次數(shù): 26)
四、其他
國內(nèi)也有很多企業(yè)數(shù)據(jù)交易的網(wǎng)站,但大多收費,Kaggle平臺上數(shù)據(jù)比較干凈也免費,但是需要會點代碼。
所以答主建議大家,如果僅是個人研究分析用的話,從上面三個網(wǎng)站上獲取主要數(shù)據(jù)就可以了。
作者: 婷婷吖    時間: 2021-12-15 10:13
今天有個事情震驚到我了,某家公司為了找到在外部平臺發(fā)帖的員工,直接爬取另一家公司的數(shù)據(jù)?
拼多多的HR親自告訴大家數(shù)據(jù)獲取的一種方式,這年頭,如果不會爬取數(shù)據(jù)還不能做HR了?
內(nèi)卷就是這么來的吧。

(, 下載次數(shù): 24)
這數(shù)據(jù)可真有意思,比各種報告來的充實多了。
言歸正傳,還是要看一下數(shù)據(jù)的獲取方式的,這也是做數(shù)據(jù)分析的基礎。
一、怎么找數(shù)據(jù)?
二、怎么看待數(shù)據(jù)?
并不是有了數(shù)據(jù)就能直接用的,你得去看看能不能用,準確性怎么樣,不然好不容易分析好一個東西,到頭來告訴你數(shù)據(jù)不對。
一個圖總結一下吧:

(, 下載次數(shù): 23)
三、數(shù)據(jù)不準確怎么辦?
就像上面說的,不是所有的數(shù)據(jù)都是準確的,所以自己對各種數(shù)據(jù)需要有一個鑒別的能力,同時也有外部搜索的能力,看看能不能對上,不要怕麻煩。
好比數(shù)據(jù)分析或者數(shù)據(jù)分析師的價值,其實不是具體的數(shù)字,而是對于某個業(yè)務的總體趨勢判斷和結合外部數(shù)據(jù)進行綜合分析、理解。
四、常用的數(shù)據(jù)源
1、官方統(tǒng)計數(shù)據(jù):
中國信通院-研究成果-權威發(fā)布-白皮書
中國經(jīng)濟信息網(wǎng)
2、咨詢公司報告:
波士頓咨詢
貝恩咨詢
艾瑞咨詢
3、數(shù)據(jù)分析:
頭條指數(shù)
百度統(tǒng)計
4、第三方機構:
阿里研究院
IT桔子
騰訊大數(shù)據(jù)
199IT
易觀數(shù)據(jù)
5、媒體數(shù)據(jù):
36氪研究院
總結:
就說到這里,不用太多,完全夠用了,以上內(nèi)容由李啟方整理創(chuàng)作。
數(shù)據(jù)獲取之后,可以用FineBI進行分析:


                               
登錄/注冊后可看大圖

作者: 平安6。    時間: 2021-12-15 12:27
數(shù)據(jù)來源主要有兩個部分。
爬蟲作為目前用的較多的數(shù)據(jù)爬取方法已經(jīng)有很多教程了,但是對于沒有代碼基礎的朋友來說短期上手python還是很難得。
因此今天就帆軟君分別給大家介紹一下免費的數(shù)據(jù)源網(wǎng)站和一些零基礎小白也可以應用的數(shù)據(jù)爬取工具
一、行業(yè)數(shù)據(jù)

互聯(lián)網(wǎng)數(shù)據(jù)
二、免費的數(shù)據(jù)源網(wǎng)站

1、簡單、公開的數(shù)據(jù)集
先分享一些科研機構、企業(yè)、政府會開放的一些數(shù)據(jù)集和一些專業(yè)的數(shù)據(jù)下載網(wǎng)站。這些數(shù)據(jù)集一般都比較完善、質量相對較高,拿到手數(shù)據(jù)清洗的工作比較少,適合新手做一些簡單基礎的分析
1)中國統(tǒng)計信息網(wǎng):http://www.tjcn.org/
全國各級政府各年度的國民經(jīng)濟和社會發(fā)展統(tǒng)計信息,部分數(shù)據(jù)免費
2)國家統(tǒng)計局:http://www.stats.gov.cn/
各種民生相關的統(tǒng)計數(shù)據(jù),而且所有數(shù)據(jù)都是免費,而且這個網(wǎng)站的友情鏈接里還有很多其他地方的數(shù)據(jù)以及國外數(shù)據(jù)。

(, 下載次數(shù): 24)
3)中國產(chǎn)業(yè)信息網(wǎng):http://www.chyxx.com/data/
包含了各個行業(yè)相關的數(shù)據(jù),所有的數(shù)據(jù)全部免費,做行業(yè)分析經(jīng)常用到的

(, 下載次數(shù): 26)
4)美國政府公開數(shù)據(jù):https://www.data.gov/
美國政府公開數(shù)據(jù)的網(wǎng)站,包含了經(jīng)濟、消費、教育、醫(yī)療、農(nóng)業(yè)等多個領域的數(shù)據(jù)
5)世界銀行:https://data.worldbank.org/
世界銀行的開放數(shù)據(jù)。平臺還提供了一些工具,比如開放數(shù)據(jù)目錄,世界發(fā)展指數(shù),教育指數(shù)等。
6)百度數(shù)據(jù)開放平臺:https://open.baidu.com/open/#/open

(, 下載次數(shù): 23)
7)國云數(shù)據(jù)市場:http://www.moojnn.com/data-market/
主要包含:生活服務、教育、能源、建筑、交通運輸、政府、金融、農(nóng)業(yè)、醫(yī)療、衛(wèi)生等行業(yè)的數(shù)據(jù),大部分免費,有些需要付費

(, 下載次數(shù): 24)
2、數(shù)據(jù)可視化項目數(shù)據(jù)集
最常見的數(shù)據(jù)可視化項目就是制作某某地區(qū)人均收入?yún)^(qū)別的信息圖,找數(shù)據(jù)可視化項目相關的數(shù)據(jù)集的時候,我們希望數(shù)據(jù)集盡量“干凈”,減少數(shù)據(jù)清洗的工作,數(shù)據(jù)要足夠有趣,能夠支撐起豐富的圖表,所以這類的數(shù)據(jù)可以去上面我的說一些公開數(shù)據(jù)網(wǎng)站找,另外我也列一些除了政府網(wǎng)站之外的相關網(wǎng)站:
1)FiveThirtyEight:http://fivethirtyeight.com/
這是互動式新聞與體育賽事的網(wǎng)站,網(wǎng)站中會發(fā)布許多數(shù)據(jù)相關的文章,這些文章中會把使用到的數(shù)據(jù)集發(fā)布在github上,除了獲取數(shù)據(jù)集,你還可以參考別人的項目過程
2)Socrata OpenData:https://opendata.socrata.com/
Socrata OpenData 網(wǎng)站包含多個清洗后的數(shù)據(jù)集,可以直接在瀏覽器中查看,也可以下載到本地進行可視化,大部分數(shù)據(jù)來源于美國政府。
3、數(shù)據(jù)建模、機器學習的數(shù)據(jù)集
1)UCI:https://archive.ics.uci.edu/ml/datasets.html
UCI是加州大學歐文分校開放的經(jīng)典數(shù)據(jù)集,是機器學習領域最有名的數(shù)據(jù)存儲庫。包含各種數(shù)據(jù)集,比如經(jīng)典的泰坦尼克號幸存預測到最新的數(shù)據(jù)(如空氣質量和GPS軌跡)。
2)阿里天池:https://tianchi.aliyun.com/
作為國內(nèi)互聯(lián)網(wǎng)龍頭阿里巴巴旗下的大數(shù)據(jù)競賽網(wǎng)站,提供了很多比賽數(shù)據(jù)集可以練手,說不定還能順手拿個獎,賺點獎金

(, 下載次數(shù): 24)
3)Kaggle:https://www.kaggle.com/datasets
Kaggle 是一個舉辦了多項機器學習競賽的數(shù)據(jù)科學社區(qū)。用戶可以自己上傳數(shù)據(jù)集,也可以通過某項競賽下載數(shù)據(jù)集,里面有不少別的平臺找不到的有趣數(shù)據(jù)集。

(, 下載次數(shù): 23)
4)科賽網(wǎng):https://www.kesci.com/home/project
這個網(wǎng)站提供了不少數(shù)據(jù)集可以免費下載,而且還有一些數(shù)據(jù)項目的比賽,不過整體來說項目的難度比較低,獎金也不是很多,學生參加的比較多,反正單純用來獲取數(shù)據(jù)集還是很不錯的

(, 下載次數(shù): 25)
5)Quandl
這是一個包含經(jīng)濟與金融數(shù)據(jù)的倉庫。其中的部分信息是免費的,但是大部分數(shù)據(jù)集需要購買,數(shù)據(jù)可以用來構建經(jīng)濟指標預測或者股價分析模型等等。

(, 下載次數(shù): 23)

4、大型數(shù)據(jù)集
有時候你可能只是想找一些大型的數(shù)據(jù)集來進行分析,分析的結果可能并不重要,重要的只是對于數(shù)據(jù)的讀取與分析過程,練習數(shù)據(jù)處理能力,這里我也列舉幾個用的比較多的網(wǎng)站:
1)AWS 公開數(shù)據(jù)集:https://www.amazon.com/aws
亞馬遜在其 Amazon Web Services 中提供了一些大型數(shù)據(jù)集可以免費下載,不過你得注冊一個aws賬戶,新用戶有免費訪問的權限


(, 下載次數(shù): 23)

2)Google 公開數(shù)據(jù)集:https://cloud.google.com/bigquery/public-data/
Google提供了一些數(shù)據(jù)集作為其Big Query工具的一部分。包括 GitHub 公共資料庫的數(shù)據(jù),Hacker News 的所有故事和評論。
3)Youtube標簽視頻數(shù)據(jù)集:https://research.google.com/youtube8m/
Youtube標簽視頻數(shù)據(jù)集包括來自4800個可視化實體的800萬個YouTube視頻ID和相關標簽。它具有數(shù)十億幀的預計算的、最先進的視覺功能。


(, 下載次數(shù): 24)

三、數(shù)據(jù)爬取工具

1、Microsoft Excel
沒錯, Excel可以用來做數(shù)據(jù)爬取。雖然很多知道Excel可以用來做數(shù)據(jù)分析,但很少有人知道它還能用來爬數(shù)
2、火車頭采集器
官網(wǎng)地址:http://www.locoy.com/
火車頭是爬蟲界的元老了,是目前使用人數(shù)最多的互聯(lián)網(wǎng)數(shù)據(jù)抓取軟件。它的優(yōu)勢是采集不限網(wǎng)頁,不限內(nèi)容,同時還是分布式采集,效率會高一些。不過它規(guī)則和操作設置在我看來有一些死板,對小白用戶來說上手也有點困難,需要有一定的網(wǎng)頁知識基礎
3、Google Sheet
使用Google Sheet爬取數(shù)據(jù)前,要保證三點:使用Chrome瀏覽器、擁有Google賬號、電腦已翻墻。
4、八爪魚采集器
網(wǎng)站:https://www.bazhuayu.com/
八爪魚采集器是用過最簡單易用的采集器,很適合新手使用。采集原理類似火車頭采集器,用戶設定抓取規(guī)則,軟件執(zhí)行。八爪魚的優(yōu)點是提供了常見抓取網(wǎng)站的模板,如果不會寫規(guī)則, 就直接用套用模板就好了。
它是基于瀏覽器內(nèi)核實現(xiàn)可視化抓取數(shù)據(jù),所以存在卡頓、采集數(shù)據(jù)慢的現(xiàn)象。不過整體來說還是不錯的,畢竟能基本滿足新手在短時間抓取數(shù)據(jù)的場景,比如翻頁查詢,Ajax 動態(tài)加載數(shù)據(jù)等。
5、GooSeeker 集搜客
網(wǎng)站:https://www.gooseeker.com/
集搜客也是一款容易上手的可視化采集數(shù)據(jù)工具。同樣能抓取動態(tài)網(wǎng)頁,也支持可以抓取手機網(wǎng)站上的數(shù)據(jù),還支持抓取在指數(shù)圖表上懸浮顯示的數(shù)據(jù)。集搜客是以瀏覽器插件形式抓取數(shù)據(jù)。雖然具有前面所述的優(yōu)點,但缺點也有,無法多線程采集數(shù)據(jù),出現(xiàn)瀏覽器卡頓也在所難免。
6、WebScraper
網(wǎng)址:https://webscraper.io/
WebScraper 是一款優(yōu)秀國外的瀏覽器插件。同樣也是一款適合新手抓取數(shù)據(jù)的可視化工具。我們通過簡單設置一些抓取規(guī)則,剩下的就交給瀏覽器去工作。
7、Scrapinghub
地址:https://scrapinghub.com/
如果你想抓取國外的網(wǎng)站數(shù)據(jù),可以考慮 Scrapinghub。它是一個基于Python 的 Scrapy 框架的云爬蟲平臺,安裝和部署挺簡單的,但是操作界面是純英文的,不太友好,而且性價比不高,它提供的每個工具都是單獨收費的。
其實任何數(shù)據(jù)來源,看是一方面,分析也是一方面,如果要有分析的話,那就離不開一些可以自主使用的數(shù)據(jù)分析工具。
如果數(shù)據(jù)不簡單,數(shù)據(jù)量也很大,還有不少的數(shù)據(jù)處理工作,甚至你還想要一些酷炫的可視化效果,簡單快速上手,不妨用一些在線的圖表工具,但是前提是數(shù)據(jù)要在Excel中處理好,如果數(shù)據(jù)量大可能實現(xiàn)還要在數(shù)據(jù)庫中處理。
或者一蹴而就用BI分析工具,諸如FineBI(www.finebi.com),分析過程無代碼,可以很迅速的出結果,同時自帶的可視化圖表基本能滿足大部分使用需求了,適合企業(yè)級的數(shù)據(jù)分析,如果個人想拿來做做報告什么的也是非常輕松。

(, 下載次數(shù): 24)
作者: 冰之雪    時間: 2021-12-15 14:50
開放數(shù)據(jù)集

包括:      科研數(shù)據(jù)共享        數(shù)據(jù)算法競賽        政府公司分享

①Stanford Large Network Datasets
網(wǎng)站: Stanford Large Network Dataset Collection
網(wǎng)站里的數(shù)據(jù)還是挺多的,一般每個數(shù)據(jù)都是從具體的一篇論文里來的,也有一個對數(shù)據(jù)的說明。

(, 下載次數(shù): 25)
推薦其中兩個比較好的:
soc_Pokec數(shù)據(jù)集  該數(shù)據(jù)集包含了斯洛伐克最流行的社交網(wǎng)站pokec的網(wǎng)絡信息。  以下是該數(shù)據(jù)集的基本信息

(, 下載次數(shù): 25)
由于該數(shù)據(jù)集包含了非常詳盡完備的整個社交網(wǎng)站的網(wǎng)絡信息,是非常具有代表性的公開數(shù)據(jù)集。
這個數(shù)據(jù)集有一百六十多萬個節(jié)點,三千多萬條邊,文件足足半個G,是一個比較大的數(shù)據(jù)集了。
location-based online social networks  數(shù)據(jù)集

(, 下載次數(shù): 23)
該數(shù)據(jù)集Gowalla是一個簽到網(wǎng)絡。它將用戶線上和線下行為很好地關聯(lián)了起來。
注意: 下面的網(wǎng)站要翻墻啦。
foursquare dataset  網(wǎng)址:https://sites.google.com/site/yangdingqi/home/foursquare-dataset  該數(shù)據(jù)集也是一個簽到網(wǎng)絡數(shù)據(jù)集
UCI Machine Learning Repository  跟機器學習相關的
CRAWDADYour Home for Data Science國內(nèi)的兩個數(shù)據(jù)站點:
天池大數(shù)據(jù)眾智平臺-阿里云天池

DataCastle數(shù)據(jù)城堡國內(nèi)的這些商業(yè)化程度高一點 里面還有一些付費的課程。
網(wǎng)絡爬蟲


進行數(shù)據(jù)分析工作首先需要獲取數(shù)據(jù),爬蟲則是獲取互聯(lián)網(wǎng)上公開數(shù)據(jù)的一項利器,也是數(shù)據(jù)分析師一項非常加分的技能。
網(wǎng)絡爬蟲可以分為兩種
基于網(wǎng)站API的爬取
基于網(wǎng)頁的爬取

(, 下載次數(shù): 23)

就先這些吧~
還有一個很經(jīng)典的,在社會網(wǎng)絡分析里。Network data
像里面的 空手道俱樂部,海豚網(wǎng)都非常入門 , 導到Gephi里就可以進行網(wǎng)絡分析, 算是一點簡單的挖掘吧~
作者: 倔強毛驢    時間: 2021-12-15 16:04
以上數(shù)據(jù)均來自和鯨社區(qū)
@科賽網(wǎng)Kesci
https://www.kesci.com/home/dataset


yulang:數(shù)據(jù)分析機器學習必備-各行業(yè)的信息(含鏈接)
作者: 暖寶寶    時間: 2021-12-15 18:26
再補充幾個可以查宏觀數(shù)據(jù)的網(wǎng)站:
1、中國統(tǒng)計局:國家數(shù)據(jù) 可以查詢國家的各種數(shù)據(jù),如GDP、CPI、總人口、社會消費品零售總額、糧食產(chǎn)量、PMI、PPI……數(shù)據(jù)可以免費下載成Excel文件,另外也推出了移動客戶端:數(shù)據(jù)中國pro
2、美聯(lián)儲經(jīng)濟數(shù)據(jù)庫:Federal Reserve Economic Data 查詢到的數(shù)據(jù)以美國為主,也有少數(shù)其他的西方國家,可以查詢到50年代的數(shù)據(jù),支持免費下載
3、世界銀行:World Bank Open Data 查詢?nèi)蚋鲊嚓P各方面的宏觀數(shù)據(jù),免費提供CSV文件下載(Excel可以直接打開),非常方便
4、IndexMundi:IndexMundi - Country Facts 包含詳細的全球各國的統(tǒng)計數(shù)據(jù),可以按地區(qū),國家,主題,行業(yè)部門和類型組織的幾千種指標。它并不是一個官方組織,而是一個第三方網(wǎng)站,但是整合了各種數(shù)據(jù)來源,查詢起來還是非常方便的,建議可以和世界銀行的數(shù)據(jù)一起結合使用。

————————————————————————————————————
耗費200小時,嘔心瀝血精選數(shù)據(jù)源,包含常用數(shù)據(jù)公開網(wǎng)站、政府開放網(wǎng)站、數(shù)據(jù)交易平臺,歡迎收藏。
一、公開數(shù)據(jù)庫

?1、常用數(shù)據(jù)公開網(wǎng)站

UCI:該網(wǎng)站目前維護了436個經(jīng)典的機器學習、數(shù)據(jù)挖掘數(shù)據(jù)集,包含分類、聚類、回歸等問題下的多個數(shù)據(jù)集。

(, 下載次數(shù): 26)
國家數(shù)據(jù):數(shù)據(jù)來源中華人民共和國國家統(tǒng)計局,包含了我國經(jīng)濟民生等多個方面的數(shù)據(jù),并且在月度、季度、年度都有覆蓋,較為全面。

(, 下載次數(shù): 23)
CEIC:涵蓋超過195個國家400多萬個時間序列的數(shù)據(jù)源,最完整的一套超過128個國家的經(jīng)濟數(shù)據(jù),能夠精確查找GDP、CPI、進口、出口、外資直接投資、零售、銷售以及國際利率等深度數(shù)據(jù)。

(, 下載次數(shù): 23)
萬得:被譽為中國的Bloomberg,在金融業(yè)有著全面的數(shù)據(jù)覆蓋,金融數(shù)據(jù)的類目更新非??欤瑩?jù)說很受國內(nèi)的商業(yè)分析者和投資人的親睞。

(, 下載次數(shù): 30)
搜數(shù)網(wǎng):已加載到搜數(shù)網(wǎng)站的統(tǒng)計資料達到7,874本,涵蓋1,761,009張統(tǒng)計表格和364,580,479個統(tǒng)計數(shù)據(jù),匯集了中國資訊行自92年以來收集的44個行業(yè)所有統(tǒng)計和調(diào)查數(shù)據(jù)。

(, 下載次數(shù): 21)
中國統(tǒng)計信息網(wǎng):國家統(tǒng)計局的官方網(wǎng)站,匯集了全國各級政府各年度的國民經(jīng)濟和社會發(fā)展統(tǒng)計信息,建立了以統(tǒng)計公報為主,統(tǒng)計年鑒、階段發(fā)展數(shù)據(jù)、統(tǒng)計分析、經(jīng)濟新聞、主要統(tǒng)計指標排行等。

(, 下載次數(shù): 25)
亞馬遜:來自亞馬遜的跨科學云數(shù)據(jù)平臺,擁有免費且開源的數(shù)據(jù)庫,包含化學、生物、經(jīng)濟等多個領域的數(shù)據(jù)集。

(, 下載次數(shù): 30)
figshare:研究成果共享平臺,這里向全世界開放免費的研究成果及科學數(shù)據(jù)。

(, 下載次數(shù): 23)
github:一個非常全面的數(shù)據(jù)獲取渠道,包含各個細分領域的數(shù)據(jù)庫資源,自然科學和社會科學的覆蓋都很全面,適合做研究和數(shù)據(jù)分析的人員。

(, 下載次數(shù): 22)
2、政府開放數(shù)據(jù)

北京市政務數(shù)據(jù)資源網(wǎng):包含競技、交通、醫(yī)療、天氣等數(shù)據(jù)。
深圳市政府數(shù)據(jù)開放平臺:交通、文娛、就業(yè)、基礎設施等數(shù)據(jù)。
上海市政務數(shù)據(jù)服務網(wǎng):覆蓋經(jīng)濟建設、文化科技、信用服務、交通出行等12個重點領域數(shù)據(jù)。
貴州省政府數(shù)據(jù)開放平臺:貴州省在政務數(shù)據(jù)開放方面做的確實不錯。
http://Data.gov:美國政府開放數(shù)據(jù),包含氣候、教育、能源金融等各領域數(shù)據(jù)。
3、數(shù)據(jù)競賽網(wǎng)站

競賽的數(shù)據(jù)集通常干凈且科研性非常高。
DataCastle:專業(yè)的數(shù)據(jù)科學競賽平臺。
Kaggle:全球最大的數(shù)據(jù)競賽平臺。
天池:阿里旗下數(shù)據(jù)科學競賽平臺。
Datafountain:CCF制定大數(shù)據(jù)競賽平臺。
二、可以獲得有價值數(shù)據(jù)

這里給出了一些網(wǎng)站平臺,我們可p a網(wǎng)站上的數(shù)據(jù),某些網(wǎng)站上也給出獲取數(shù)據(jù)的API接口,但需要付費。
1.財經(jīng)數(shù)據(jù)
(1)新浪財經(jīng):免費提供接口,可在新浪財經(jīng)上獲取獲取歷史和實時股票數(shù)據(jù)。
(2)東方財富網(wǎng):可以查看財務指標或者根據(jù)財務指標選股。
(3)中財網(wǎng):提供各類財經(jīng)數(shù)據(jù)。
(4)黃金頭條:各種財經(jīng)資訊。
(5)StockQ:國際股市指數(shù)行情。
(6)Quandl:金融數(shù)據(jù)界的維基百科。
(7)Investing:投資數(shù)據(jù)。
(8)整合的96個股票API合集。
(9)Market Data Feed and API:提供大量數(shù)據(jù),付費,有試用期。
2.網(wǎng)貸數(shù)據(jù)
(1)網(wǎng)貸之家:包含各大網(wǎng)貸平臺不同時間段的放貸數(shù)據(jù)。
(2)零壹數(shù)據(jù):各大平臺的放貸數(shù)據(jù)。
(4)網(wǎng)貸天眼:網(wǎng)貸平臺、行業(yè)數(shù)據(jù)。
(5)76676互聯(lián)網(wǎng)金融門戶:網(wǎng)貸、P2P、理財?shù)然ソ饠?shù)據(jù)。
3.公司年報
(1)巨潮資訊:各種股市咨詢,公司股票、財務信息。
(2)http://SEC.gov:美國證券交易數(shù)據(jù)
(3)HKEx news披露易:年度業(yè)績報告和年報。
4.創(chuàng)投數(shù)據(jù)
(1)36氪:最新的投資資訊。
(2)投資潮:投資資訊、上市公司信息。
(3)IT桔子:各種創(chuàng)投數(shù)據(jù)。
5.社交平臺
(1)新浪微博:評論、輿情數(shù)據(jù),社交關系數(shù)據(jù)。
(2)Twitter:輿情數(shù)據(jù),社交關系數(shù)據(jù)。
(3)知乎:優(yōu)質問答、用戶數(shù)據(jù)。
(4)微信公眾號:公眾號運營數(shù)據(jù)。
(5)百度貼吧:輿情數(shù)據(jù)
(6)Tumblr:各種福利圖片、視頻。
6.就業(yè)招聘
(1)拉勾:人才需求數(shù)據(jù)。
(2)中華英才網(wǎng):招聘信息數(shù)據(jù)。
(3)智聯(lián)招聘:招聘信息數(shù)據(jù)。
(4)獵聘網(wǎng):高端職位招聘數(shù)據(jù)。
7.餐飲食品
(1)美團外賣:區(qū)域商家、銷量、評論數(shù)據(jù)。
(2)百度外賣:區(qū)域商家、銷量、評論數(shù)據(jù)。
(3)餓了么:區(qū)域商家、銷量、評論數(shù)據(jù)。
(4)大眾點評:點評、輿情數(shù)據(jù)。
8.交通旅游
(1)12306:鐵路運行數(shù)據(jù)。
(2)攜程:景點、路線、機票、酒店等數(shù)據(jù)。
(3)去哪兒:景點、路線、機票、酒店等數(shù)據(jù)。
(4)途牛:景點、路線、機票、酒店等數(shù)據(jù)。
(5)貓途鷹:世界各地旅游景點數(shù)據(jù),來自全球旅行者的真實點評。
類似的還有同程、驢媽媽、途家等
9.電商平臺
(1)亞馬遜:商品、銷量、折扣、點評等數(shù)據(jù)
(2)淘寶:商品、銷量、折扣、點評等數(shù)據(jù)
(3)天貓:商品、銷量、折扣、點評等數(shù)據(jù)
(4)京東:3C產(chǎn)品為主的商品信息、銷量、折扣、點評等數(shù)據(jù)
(5)當當:圖書信息、銷量、點評數(shù)據(jù)。
類似的唯品會、聚美優(yōu)品、1號店等。
10.影音數(shù)據(jù)
(1)豆瓣電影:國內(nèi)最受歡迎的電影信息、評分、評論數(shù)據(jù)。
(2)時光網(wǎng):最全的影視資料庫,評分、影評數(shù)據(jù)。
(3)貓眼電影專業(yè)版:實時票房數(shù)據(jù),電影票房排行。
(4)網(wǎng)易云音樂:音樂歌單、歌手信息、音樂評論數(shù)據(jù)。
11.房屋信息
(1)58同城房產(chǎn):二手房數(shù)據(jù)。
(2)安居客:新房和二手房數(shù)據(jù)。
(3)Q房網(wǎng):新房信息、銷售數(shù)據(jù)。
(4)房天下:新房、二手房、租房數(shù)據(jù)。
(5)小豬短租:短租房源數(shù)據(jù)。
12.購車租車
(1)網(wǎng)易汽車:汽車資訊、汽車數(shù)據(jù)。
(2)人人車:二手車信息、交易數(shù)據(jù)。
(3)中國汽車工業(yè)協(xié)會:汽車制造商產(chǎn)量、銷量數(shù)據(jù)。
13.新媒體數(shù)據(jù)
新榜:新媒體平臺運營數(shù)據(jù)。
清博大數(shù)據(jù):微信公眾號運營榜單及輿情數(shù)據(jù)。
微問數(shù)據(jù):一個針對微信的數(shù)據(jù)網(wǎng)站。
知微傳播分析:微博傳播數(shù)據(jù)。
14.分類信息
(1)58同城:豐富的同城分類信息。
(2)趕集網(wǎng):豐富的同城分類信息。
三、數(shù)據(jù)交易平臺

由于現(xiàn)在數(shù)據(jù)的需求很大,也催生了很多做數(shù)據(jù)交易的平臺,當然,除去付費購買的數(shù)據(jù),在這些平臺,也有很多免費的數(shù)據(jù)可以獲取。
優(yōu)易數(shù)據(jù):擁有國家級信息資源的數(shù)據(jù)平臺。包含政務、社會、社交、教育、消費、交通、能源、金融、健康等多個領域的數(shù)據(jù)資源。

(, 下載次數(shù): 30)

數(shù)據(jù)堂:提供數(shù)據(jù)交易、處理和數(shù)據(jù)API服務,包含語音識別、醫(yī)療健康、交通地理、電子商務、社交網(wǎng)絡、圖像識別等方面的數(shù)據(jù)。

(, 下載次數(shù): 23)

四、網(wǎng)絡指數(shù)

百度指數(shù):指數(shù)查詢平臺,可以根據(jù)指數(shù)的變化查看某個主題在各個時間段受關注的情況,進行趨勢分析、輿情預測有很好的指導作用。除了關注趨勢之外,還有需求分析、人群畫像等精準分析的工具,對于市場調(diào)研來說具有很好的參考意義。同樣的另外兩個搜索引擎搜狗、360也有類似的產(chǎn)品,都可以作為參考。

(, 下載次數(shù): 24)

阿里指數(shù):國內(nèi)權威的商品交易分析工具,可以按地域、按行業(yè)查看商品搜索和交易數(shù)據(jù),基于淘寶、天貓和1688平臺的交易數(shù)據(jù)基本能夠看出國內(nèi)商品交易的概況。
友盟+全域羅盤:友盟在移動互聯(lián)網(wǎng)應用數(shù)據(jù)統(tǒng)計和分析具有較為全面的統(tǒng)計和分析,對于研究移動端產(chǎn)品、做市場調(diào)研、用戶行為分析很有幫助。除了友盟指數(shù),友盟的互聯(lián)網(wǎng)報告同樣是了解互聯(lián)網(wǎng)趨勢的優(yōu)秀讀物。

(, 下載次數(shù): 24)
愛奇藝指數(shù):愛奇藝指數(shù)是專門針對視頻的播放行為、趨勢的分析平臺,對于互聯(lián)網(wǎng)視頻的播放有著全面的統(tǒng)計和分析,涉及到播放趨勢、播放設備、用戶畫像、地域分布等多個方面。由于愛奇藝龐大的用戶基數(shù),該指數(shù)基本可以說明實際情況。

(, 下載次數(shù): 24)
微指數(shù):微指數(shù)是新浪微博的數(shù)據(jù)分析工具,微指數(shù)通過關鍵詞的熱議度,以及行業(yè)/類別的平均影響力,來反映微博輿情或賬號的發(fā)展走勢。分為熱詞指數(shù)和影響力指數(shù)兩大模塊,此外,還可以查看熱議人群及各類賬號的地域分布情況。

(, 下載次數(shù): 30)
除了以上指數(shù)外,還有谷歌趨勢、搜狗指數(shù)、360趨勢、艾漫指數(shù)等等。
有了以上數(shù)據(jù)源,當然就可以做數(shù)據(jù)分析了。個人用戶推薦免費工具豌豆BI,企業(yè)用戶推薦企業(yè)數(shù)據(jù)分析工具億信ABI。無需下載安裝,直接云上試用。
億信豌豆BI-敏捷BI自助式分析工具|商業(yè)智能BI工具與大數(shù)據(jù)分析平臺億信ABI一站式大數(shù)據(jù)分析平臺-全能型數(shù)據(jù)可視化分析工具
關于億信華辰

億信華辰是中國專業(yè)的智能數(shù)據(jù)產(chǎn)品與服務提供商,一直致力于為政企用戶提供從數(shù)據(jù)采集、存儲、治理、分析到智能應用的智能數(shù)據(jù)全生命周期管理方案,幫助企業(yè)實現(xiàn)數(shù)據(jù)驅動、數(shù)據(jù)智能,已積累了8000多家用戶的服務和客戶成功經(jīng)驗,為客戶提供數(shù)據(jù)分析平臺、數(shù)據(jù)治理系統(tǒng)搭建等專業(yè)的產(chǎn)品咨詢、實施和技術支持服務。

(, 下載次數(shù): 32)

△億信華辰全產(chǎn)品架構圖(點擊查看大圖)


歡迎關注公眾號:億信華辰Pro
-讓數(shù)據(jù)驅動進步-
作者: 霸氣    時間: 2021-12-15 19:36
主要來自電子政務;開放政府;政府數(shù)據(jù);政府數(shù)據(jù)開放;大數(shù)據(jù)數(shù)據(jù)開放平臺。
這里匯總了幾十個公開數(shù)據(jù)源,可以點擊查看。
最全的中國開放數(shù)據(jù)(open data)及政府公開數(shù)據(jù)平臺匯總
作者: 登記表就    時間: 2021-12-15 20:13
分享一個網(wǎng)址
https://github.com/caesar0301/awesome-public-datasets,github上的一個數(shù)據(jù)庫集合,里面有挺多數(shù)據(jù)的,大多都免費的,介紹如下:
This list of public data sources are collected and tidied from blogs, answers, and user responses. Most of the data sets listed below are free, however, some are not. Other amazingly awesome lists can be found in the
awesome-awesomeness and
sindresorhus's awesome list.
放個數(shù)據(jù)庫目錄導航

(, 下載次數(shù): 27)

(, 下載次數(shù): 24)
作者: 我就軍    時間: 2021-12-15 20:39
逐漸就可以直接上一些網(wǎng)上的數(shù)據(jù)交易市場找了,大數(shù)據(jù)帶動了一大批這類網(wǎng)站,但總體來說對于從業(yè)者是好事,目前沒有一家獨大的,列個表,需要的可以看看:
百度apistore、阿里云云市場、數(shù)據(jù)堂、聚合數(shù)據(jù)
數(shù)糧、極速數(shù)據(jù)、apix、通聯(lián)、大海洋、優(yōu)易數(shù)據(jù)
還有上面答案提到的幾個網(wǎng)站,總體來說這些網(wǎng)站的數(shù)據(jù)量在不斷增加
如果找統(tǒng)計數(shù)據(jù)可以直接去國家統(tǒng)計局網(wǎng)站,量大、正宗,并且可以外鏈到幾個全球范圍的統(tǒng)計網(wǎng)站,質量很高
作者: 酒自斟    時間: 2021-12-15 22:46
現(xiàn)在找數(shù)據(jù)的渠道很多,基本上分為開放性的數(shù)據(jù)和爬蟲獲取的專業(yè)數(shù)據(jù),另外現(xiàn)在逐漸也可以找到一些數(shù)據(jù)交易平臺了。無論是哪種渠道,主要應該想好所找數(shù)據(jù)的方向,才能挖掘出更多數(shù)據(jù)。同時數(shù)據(jù)收集后要做好梳理分析,才能讓數(shù)據(jù)產(chǎn)生價值。
結合上面說的,列舉一些常見的數(shù)據(jù)渠道,希望帶來一些幫助:
1、開放性的數(shù)據(jù)渠道
一般這種數(shù)據(jù)比較好找,像國家統(tǒng)計局、中國信息統(tǒng)計網(wǎng),以及北京、上海等地方政府類數(shù)據(jù)官網(wǎng),里面包含了城市、交通、就業(yè)、基礎設施等數(shù)據(jù)。當然還包括行業(yè)類的一些數(shù)據(jù)平臺,比如新浪財經(jīng)、東方財富網(wǎng)。又或者智聯(lián)招聘、獵聘網(wǎng)等就業(yè)市場類的數(shù)據(jù)。不過很多開放的數(shù)據(jù)渠道可能數(shù)據(jù)會有些老,且比較散亂,通常需要多個渠道去找,這需要有鑒別能力,慢慢梳理,不要著急。

(, 下載次數(shù): 20)
2、專業(yè)爬蟲數(shù)據(jù)渠道
   不建議數(shù)據(jù)小白通過這種方式和渠道挖掘數(shù)據(jù),因為前期需要學習爬蟲獲取技術,比較耗費時間和精力。有基礎知識和能力的小伙伴,可以從易觀智庫、阿里研究院、科賽網(wǎng)等,以及火車頭、八爪魚等采集軟件中獲取,但可能會出現(xiàn)采集速度慢,數(shù)據(jù)混亂等情況。另外關于國外的數(shù)據(jù)網(wǎng)站,檢索成本較高,比如部分需要VPN翻墻或者數(shù)據(jù)信息冗雜,需要加強鑒別梳理,因此不建議小白采用這個方式。

(, 下載次數(shù): 18)
3、數(shù)據(jù)交易渠道
現(xiàn)在數(shù)據(jù)交易渠道也很多,通過付費方式得到想要的數(shù)據(jù)。雖然有一定的成本,但
數(shù)據(jù)獲取效率會比較高,像數(shù)據(jù)堂、萬得、數(shù)位觀察、優(yōu)易數(shù)據(jù)等。這些數(shù)據(jù)交易渠道的
數(shù)據(jù)覆蓋面很廣,比如數(shù)位觀察,可以直接查詢城市、客群、商圈、品牌、區(qū)域等,而且數(shù)據(jù)相對精準全面。此外,這些渠道的數(shù)據(jù)都比較有邏輯性,像在數(shù)位觀察上查,得到的數(shù)據(jù)都有熱力圖、模型的分析梳理,這樣就省去數(shù)據(jù)統(tǒng)計整合的過程,提高效率,省事省心。

(, 下載次數(shù): 18)
作者: 星晴    時間: 2021-12-16 01:11
數(shù)據(jù)挖掘可以通過商業(yè)軟件來實現(xiàn),例如:思邁特軟件Smartbi mining,SAS,SPSS clementine等;也可以通過自己編程或是下載已有的開源代碼來實現(xiàn),例如:決策樹就有C4.5、ID3等很多種成熟的開源算法。
作者: 穿越時光    時間: 2021-12-16 03:21
下面分享精心整理的數(shù)據(jù)網(wǎng)站,涵蓋各種原始數(shù)據(jù)以及數(shù)據(jù)分析報告,看完麻煩點個贊哈

0. 搜數(shù)網(wǎng)

http://www.soshoo.com.cn/index.do

(, 下載次數(shù): 24)
1.中華人民共和國統(tǒng)計局

國家統(tǒng)計局

(, 下載次數(shù): 17)
2. 中國互聯(lián)網(wǎng)絡信息中心

中國互聯(lián)網(wǎng)絡信息中心

(, 下載次數(shù): 17)
3. 中國信通院

中國信息通信研究院

(, 下載次數(shù): 17)
4. 艾瑞網(wǎng)

報告_艾瑞網(wǎng)

(, 下載次數(shù): 19)
(另外,我整理了學習數(shù)據(jù)分析完整的路線需要的書籍送給大家)

(, 下載次數(shù): 18)
錯過了,需要再等一年的數(shù)據(jù)分析書籍5.前瞻網(wǎng)

經(jīng)濟學人 - 讓您成為更懂趨勢的人_細分產(chǎn)業(yè)市場分析_前瞻經(jīng)濟學人App - 前瞻網(wǎng)

(, 下載次數(shù): 18)
6. 極光大數(shù)據(jù)

數(shù)據(jù)報告列表 - 極光

(, 下載次數(shù): 18)
7.中國互聯(lián)網(wǎng)數(shù)據(jù)資訊中心

互聯(lián)網(wǎng)數(shù)據(jù)資訊網(wǎng)-199IT | 發(fā)現(xiàn)數(shù)據(jù)的價值-199IT | 中文互聯(lián)網(wǎng)數(shù)據(jù)研究資訊中心-199IT

(, 下載次數(shù): 17)
8. 易觀智庫

分析報告-易觀分析

(, 下載次數(shù): 20)
9. talking data

數(shù)據(jù)報告-移動觀象臺-TalkingData

(, 下載次數(shù): 17)
(另外,我整理了學習數(shù)據(jù)分析完整的路線需要的書籍送給大家)


錯過了,需要再等一年的數(shù)據(jù)分析書籍5.前瞻網(wǎng)

10.艾媒網(wǎng)

艾媒網(wǎng)-全球領先的新經(jīng)濟行業(yè)數(shù)據(jù)分析報告發(fā)布平臺

(, 下載次數(shù): 18)
11.七麥數(shù)據(jù)

七麥數(shù)據(jù)(原ASO100)-專業(yè)移動產(chǎn)品商業(yè)分析平臺-ASO-ASM優(yōu)化

(, 下載次數(shù): 18)
12.企鵝智庫

企鵝智酷_騰訊網(wǎng)

(, 下載次數(shù): 19)
13.騰訊大數(shù)據(jù)

騰訊大數(shù)據(jù)

(, 下載次數(shù): 15)
14.IT桔子

IT桔子 | 泛互聯(lián)網(wǎng)創(chuàng)業(yè)投資項目信息數(shù)據(jù)庫及商業(yè)信息服務商

(, 下載次數(shù): 17)
15. 百度指數(shù)

https://index.baidu.com/v2/index.html#/

(, 下載次數(shù): 19)
--------------------
碼字不易,麻煩給我點個贊,更多干貨不要錯過關注我
作者: 涵西溪    時間: 2021-12-16 04:18
分享一下我平時常用的幾個經(jīng)典的數(shù)據(jù)源吧。
1,世界銀行公開數(shù)據(jù):World Bank Open Data
免費并公開獲取世界各國的發(fā)展數(shù)據(jù),數(shù)據(jù)全面、權威且比較規(guī)范。

(, 下載次數(shù): 19)

2,聯(lián)合國人口司數(shù)據(jù)集:United Nations Population Division

(, 下載次數(shù): 18)
網(wǎng)頁中有個數(shù)據(jù)專區(qū),含有各種人口相關的數(shù)據(jù)集,比如人口老齡化數(shù)據(jù)、全球移民數(shù)據(jù)、世界人口婚姻狀況數(shù)據(jù)、人口增長趨勢數(shù)據(jù)等等,想挖掘人口相關的問題,是一個不可多得的數(shù)據(jù)源。

3,Kaggle數(shù)據(jù)集:Datasets | Kaggle,總有你感興趣的數(shù)據(jù)

(, 下載次數(shù): 18)
Kaggle主要是為數(shù)據(jù)科學家提供機器學習競賽、編寫和分享代碼的平臺,里面的各種數(shù)據(jù)集十分豐富。

4,如果上面的幾個不能滿足你的需要,那就給你來個集大成的數(shù)據(jù)網(wǎng)站
大數(shù)據(jù)導航:大數(shù)據(jù)導航-大數(shù)據(jù)工具導航-199IT大數(shù)據(jù)導航-199IT大數(shù)據(jù)工具導航-Hao.199it.com

(, 下載次數(shù): 19)
數(shù)據(jù)包羅萬象,各行業(yè)、各領域分門別類,總有你需要的。

5,授人以魚不如授人以漁,沒有數(shù)據(jù)就沒法玩做可視化嗎,NO!
沒有數(shù)據(jù)還可以自己模擬數(shù)據(jù),分享一個數(shù)據(jù)模擬神器:WebPlotDigitizer,

(, 下載次數(shù): 24)

不用到處找數(shù)據(jù),如果你想做圖,沒問題,把你想要的圖表導進去,這個神器可以幫你模擬出一套數(shù)據(jù)哦(工具獲取及用法詳見:采悟:PowerBI完美制作魔力象限圖,內(nèi)含可視化神器?。?br />
最后,如果你下載數(shù)據(jù)不方便,我平時自己整理使用的一些數(shù)據(jù),近百個、Excel格式,簡單易用,在微信公眾號「PowerBI星球」,回復關鍵字"數(shù)據(jù)"即可獲取下載鏈接。
學習愉快!
.
作者: 貓頭鷹    時間: 2021-12-16 05:23
原創(chuàng)作者:吳曉光
出自公眾號:51CTO技術棧
“時下數(shù)據(jù)科學是一個熱點話題,各個行業(yè)里面也有一些比較成熟的應用,在這個大的背景下,我們在大約一年前就開始有意識地把數(shù)據(jù)技術、數(shù)據(jù)分析、數(shù)據(jù)挖掘這些技術融合到運維領域的應用?!?br /> 在這個過程中,我們做的時間其實不長,比較短,目前只是做了一些相對來說較為簡單的一些事情,但取得的成果在公司內(nèi)部感覺還是比較好的。

CDP白皮書:2020營銷技術新風向 - Linkflow聯(lián)否官網(wǎng)今天跟大家分享一下我們在應用開發(fā)過程中的一些案例,即如何讓數(shù)據(jù)技術在運維實踐中得到充分的應用,希望對大家的工作有一些參考價值。
分為四個部分進行分享:



(, 下載次數(shù): 17)
但有些問題我們經(jīng)常重復遇到,并且形成了一些提問范式,如:
目前各類數(shù)學模型的輸出在我們的具體工作中主要被用作輔助決策,有兩個原因使我們還不能直接把結果自動地用于決策:
在實際工作中,算法和業(yè)務規(guī)則庫都會進行建設,用來幫助運維人員更容易和正確地做出決定。
今天給大家重點介紹“數(shù)據(jù)處理技術”、“數(shù)據(jù)分析技術”、“數(shù)據(jù)挖掘技術”這三個方面在唯品會的應用實踐,主要會講到一些應用場景,最后談下“數(shù)據(jù)技術”在運維的生態(tài)建設和一些規(guī)劃。
數(shù)據(jù)處理技術應用

對于數(shù)據(jù)處理技術來說,我們主要解決以下五個方面的問題
這里有些問題在行業(yè)里已有比較成熟的解決方案,有些可能不是每個公司都會碰到。
數(shù)據(jù)采集



(, 下載次數(shù): 15)
首先我們看數(shù)據(jù)采集,對唯品會來說,我們主要是兩類數(shù)據(jù):
對于日志數(shù)據(jù)來說,我們有兩類采集:
對于服務器端的日志采集,實際上是比較簡單的,一般來說就是落到本地盤之后,通過 Flume 傳送到公司的 Kafka 集群,然后大家在上面消費。
對于客戶端行為的采集,分成兩種:
對于數(shù)據(jù)庫的采集,實際上我們也是有兩種方法:
有些會還原數(shù)據(jù)庫,有些就直接用消息來計算指標,具體要根據(jù)情況進行分析。
上圖主要描述了唯品會用到的一些主要開源產(chǎn)品,基本上是這樣。
數(shù)據(jù)計算



(, 下載次數(shù): 18)
數(shù)據(jù)計算是比較重要的一環(huán),實際上要兼顧性能和靈活性兩個方面。
對日志的處理,會有一個日志解析程序來消費 Kafka 的消息,“日志解析”實現(xiàn)一個實時 ETL 的過程,我們會根據(jù)配置(基本配置也跟 ETL 差不多)去生成預定義的標準格式,后續(xù)就交給 Spark 做聚合。
“日志解析”由于日志之間沒有相關性,可以 Map 之后并行計算,吞吐量和資源的投入是成正比的,這樣效率就沒有什么太多的問題。
對于 Spark 的聚合配置,一般來說我們會把日志解析完的數(shù)據(jù)進行定義,定義各個字段是維度或是指標,然后會做一個全維度的聚合。
這里面實際上也是有個要求的,我們要求所有的指標在各個維度上都具有累加性。
如果不具備累加性(比如百分比這種指標),我們在 Spark 里是不做聚合的,只是在展現(xiàn)的時候重新計算,計算好的數(shù)據(jù)會放到一個 OLAP 和 MOLAP 的數(shù)據(jù)庫里。
還有一種情況,是通過腳本在數(shù)據(jù)庫從庫上直接進行指標的計算,一般用于只有時間維度的指標計算,配置好的計算腳本,我們會用公司開源的一個產(chǎn)品 Saturn 來進行一個分布式調(diào)度。
Saturn 這個東西還是不錯的,推薦大家去嘗試一下。對于日志的詳細查詢,我們還是放到 ES 里,通過全文檢索的方式來查詢。
數(shù)據(jù)展現(xiàn)



(, 下載次數(shù): 16)
數(shù)據(jù)展現(xiàn)是最終的結果輸出,實際工作中,我們對結果數(shù)據(jù)的查詢效率要求比較嚴苛,因為這些結果數(shù)據(jù)不僅用于前端,還用于告警輸出等各個方面。
對于告警的數(shù)據(jù)我們需要做到毫秒級響應,前端界面一般要求是在 3 秒內(nèi)渲染完成。
為了完成這個要求,我們構建了一個 ROLAP 數(shù)據(jù)庫,還有一個 MOLAP 的數(shù)據(jù)庫,在 ROLAP 的數(shù)據(jù)庫里,一般只存當天的多維數(shù)據(jù),而在 MOLAP 的數(shù)據(jù)庫里,會存歷史數(shù)據(jù)。
對于 MOLAP 數(shù)據(jù)庫的檢索,由于應用主要是切片方面的需求,基本上都是 K-value 模式的一個檢索,所以它比較快。
MySQL 里一般是存放單維度指標,應該這么講,它不是多維數(shù)據(jù)。Redis 緩沖里,一般會存放我們的秒級數(shù)據(jù),還有一些配置信息。
這個架構中,最后通過 Application  Server 進行一個數(shù)據(jù)的整合,來滿足前端數(shù)據(jù)的一個展示要求。
多維分析界面案例



(, 下載次數(shù): 18)
這是一個多維分析案例的界面,左邊是我們的分析平臺,右邊是我們的實時監(jiān)控平臺。
從這上面大家能看到,我們實際提供的功能主要是對數(shù)據(jù)切片的能力,這個能力基本可以滿足我們目前所有的需求。
A/B 測試實現(xiàn)

對于數(shù)據(jù)分析來說,基于 A/B 測試的對比分析是一種重要的方法,因為 A/B 測試對比的結果容易被業(yè)務理解,如果沒有 A/B 測試,你說我做了一件事情,這件事情帶來了一個好的效果,還是很難經(jīng)得起挑戰(zhàn)的。
在 A/B 測試中,它需要一些技術來支撐的,因為我們在線上同時會有很多 A/B 測試的案例同時在跑,你自己的 A/B 測試不應該被別人干擾。
在這種情況下實際上是要求各個 A/B 測試之間的用戶分布得具有正交性,也就是說別人的 A/B 測試集用戶應該平均分布在你的 A/B 測試集上。
這種實現(xiàn)我們大約有兩種方法,一種是會在 APP 端設置開關,每個開關管理一個 A/B 測試的實驗。
更多的 A/B 測試,是統(tǒng)一請求后端的 A/B 測試分組服務,這個服務通過算法來保證各個試驗之間相互獨立。
一般來說,當客戶端發(fā)起 A/B 測試場景的時候,就會向 A/B 測試分組服務發(fā)個請求,然后 A/B 分組服務會返回這個用戶是屬于 A 組還是 B 組,一般是這樣的。

(, 下載次數(shù): 19)

數(shù)據(jù)分析技術應用

這部分會簡單介紹具體的分析方法,并主要說下應用場景和案例。我們的運維數(shù)據(jù)分析技術主要是用于解決兩方面的問題:
績效分析

以前我們做了挺多的項目,這些項目一般來說 WBS 分解之后,我們會對項目的結果做一個簡單的跟蹤,只是說做完了,還是沒做完,一般也不會對它做一些定量的分析或者說對這個質量有一個看法。
這種情況在我們的項目中非常常見,這種項目一般來說比較小,都是靠個人技術能力就能控制住。


(, 下載次數(shù): 16)
但在大型項目中這種做法就很困難,它會面臨更多的一個挑戰(zhàn),尤其是跨部門合作等情況,因為大家的溝通手法不僅僅是技術的,可能還有一些管理上的,這時就需要大家用數(shù)據(jù)在各個部門之間作為一個溝通的橋梁。
績效分析-全站 HTTPS 項目案例

于是數(shù)據(jù)分析人員開始介入來進行分析體系的設計,主要包括:分析指標的設計和分析維度的設計,同時和研發(fā)確認數(shù)據(jù)采集方案、A/B測試方案、統(tǒng)計口徑等。
指標主要是根據(jù)項目中各項工作都關注什么問題來設計,而維度的設計是從當指標不滿意時,可以在哪些方面著手改進來進行。
在這個項目中可預見的是,由于證書握手的原因,TCP 連接時間會變長,可能會影響用戶體驗,同時也會減少劫持從總體上提高用戶體驗,所以項目的目標設置為轉化率至少不下降,最好能有上升。
我們實際上是做了一個 HTTPS 的全站項目,在項目開始之初,我們就有意識地把數(shù)據(jù)分析團隊和技術人員整合到一起跟進項目,取得了不錯的結果。
數(shù)據(jù)分析人員在項目的初期就已經(jīng)開始介入,來進行分析體系的設計,主要包括:分析指標的設計和分析維度的設計,同時和研發(fā)確認數(shù)據(jù)采集方案,A/B 測試方案,統(tǒng)計口徑等。
分析人員會把這些工作做好,可他們怎么來設計這個項目的一些指標呢?一般來說,在 WBS 分解之后,我們關注什么問題,就會把這個問題變換成一個主要的監(jiān)控指標。那如何去設定這些維度呢?


(, 下載次數(shù): 16)
實際上這些維度都是我們能解決問題的一些角度,也就是說實際上所有的維度都是我們能控制、能改善的地方。
首先 HTTPS 項目,不知道大家有沒有了解,如果了解可能知道 HTTPS 項目,因為 TCP 握手時間會延長,這一點上可能會損失一部分的用戶體驗,但在防劫持等方面,又會加強整體的用戶體驗。
在這種情況下,我們項目設立了一個最終的主要目標,也就是保證轉化率,這個轉化率不能下降,最好還有一點點提升。
在這個主要目標上,我們就控制這個主要目標,不停地灰度放量,不停地調(diào)整,這個效果是比較好的。
因為在這個過程中我們發(fā)現(xiàn)了很多的問題,同時這個項目持續(xù)了大約 8 個月,在 8 個月中我們沒有發(fā)生過任何重大的故障。


(, 下載次數(shù): 18)
這個案例是對錯誤率的分析和監(jiān)控,有一次發(fā)現(xiàn)我們的錯誤碼是 HTTPS 的證書認證過不去。
這種情況在某個省某個運營商大規(guī)模地發(fā)生,我們從分析的角度看這些節(jié)點 IP 是不是我們自己的 IP,這樣我們就知道在這個地方發(fā)生了大規(guī)模的 DNS 劫持問題,于是就去協(xié)調(diào)當?shù)氐倪\營商把這個事情搞定。
數(shù)據(jù)分析也會發(fā)現(xiàn)一些代碼中的問題,我們做 HTTPS 項目,可能要對代碼進行一些修改,比如說在整個 HTML 里是不能存在 HTTP 協(xié)議的硬編碼。
但由于歷史原因,這種地方還是比較多的,開發(fā)人員很難排查完,實際上需要分析人員通過數(shù)據(jù)分析手段去查,把這些沒有改過的代碼找出來。
還有一些圖片的問題,我們發(fā)現(xiàn)一些圖片的拼接錯誤,當然是報了 404。
報了 404 之后,我們對這個錯誤碼分析,發(fā)現(xiàn)突然多了,把報錯的 URL 做一個排序后發(fā)現(xiàn)一些是拼接的錯誤,還有一些是由于特殊字符引起而導致了無法生成正確的請求。
我們對 TCP 的握手時長也會進行跟蹤,在做灰度選型階段,我們在不同的入口采用了不同的技術類型,通過分析各個入口的握手時長來輔助運維人員進行一個加速卡的選型,還有一些參數(shù)調(diào)整等工作。
績效分析-其他案例場景

這個項目進行完成之后,我們總結了很多經(jīng)驗,慢慢地在其他的項目中也逐漸有意識地運用數(shù)據(jù)分析技術,把數(shù)據(jù)分析人員和技術人員有效地結合在一起。
這里面也有幾個案例:

(, 下載次數(shù): 18)

根因分析

在數(shù)據(jù)的基礎上,我們也可以做一些原因的查找,通過數(shù)據(jù)分析進行的原因查找有時可以直接幫我們定位到問題,在更多的時候可以有效地幫我們縮小問題的范圍。
通過數(shù)據(jù)來查找原因,這其實是有一定局限性的,局限性就在于數(shù)據(jù)的維度,因為我們只能在分析的維度上來進行查找,如果故障的原因沒有在我們已知維度上,實際上是找不出來的,但大部分時候還是能起到比較關鍵的作用。
對于直接利用多維數(shù)據(jù)進行問題的分析,我們大約有三個步驟


(, 下載次數(shù): 17)
主要的方法有兩種:
在這種情況下,我們認為這個誤差值是符合正態(tài)分布的,就可以比較容易地做一個異常的檢測來看每個數(shù)據(jù)切片上是否有問題,當所有的數(shù)據(jù)被探索完之后,問題的原因也基本能找到。
根因分析-案例

這是非實時根因分析的一些案例:


(, 下載次數(shù): 16)
我們有一次網(wǎng)絡連通率連續(xù)三個月下降,我們分析到最后,發(fā)現(xiàn)這個 APP 的版本有些問題,某天之后所有新發(fā)布的 APP 版本連通率下降都比較大,跟研發(fā)反饋之后,他們就在 SDK 做了一些調(diào)整。
實際上真正錯在哪,我們并不知道,我們只能知道這個版本有問題,更多地去幫助技術人員縮小這個范圍。
圖片錯誤率上升,剛才已經(jīng)介紹過了,再就是實時的根因分析,剛才講的都是一些平時的案例,而實際上我們也做實時的系統(tǒng),這些實時的系統(tǒng)就是希望利用多維數(shù)據(jù),在系統(tǒng)告警后,能夠幫助大家更快定位一些問題。


(, 下載次數(shù): 18)

這里也有兩個例子:
總體看,實時分析還是能夠比較快地幫助運維人員定位問題。
數(shù)據(jù)挖掘技術應用

對于數(shù)據(jù)挖掘來說,我們目前所應用的場景,或者說能幫我們解決的問題主要有三類:
預測

我們現(xiàn)在的預測,主要是做了一些業(yè)務指標的預測,比如像 PV、UV、訂單、購物車這樣的一些業(yè)務指標,下面我講一下訂單的預測。


(, 下載次數(shù): 18)
如上圖,是我們的訂單預測圖。當時做這個預測,實際是有應用的場景,當故障發(fā)生時,需要實時跟蹤預計的損失,以便于我們確定故障的等級,還有就是調(diào)度解決故障需要的資源量。
大家可以看到,這種預估我們還是比較容易可以算出來的,在什么時候這個故障已經(jīng)好了,什么時候它的損失達到什么程度,我們的故障是不是需要升級。
這里面有一個技術點需要解決,就是說我們在故障的時候,實際值已經(jīng)掉下去了。
而我們的預測算法需要前一分鐘和前幾分鐘的數(shù)據(jù),為了不把故障的數(shù)據(jù)引入到算法中,在故障的時候,是用預測值代替真實值。
具體來說,就是用上一周的數(shù)據(jù)做一些平均的加成來替換,然后再做下一次的預測。


(, 下載次數(shù): 15)
對于預測算法,我們開始采用的是時間序列中的 holt-winters 算法,因為我們公司的數(shù)據(jù)周期性比較明顯,我們在時間序列上做擬合時還是比較準確的,應該來說效果還比較好。
但這個算法到了一定時候,我們就碰到了一些問題:
先看促銷,對訂單量來說,訂單達到高峰之前,我們的 PV、UV 包括收藏數(shù)等業(yè)務指標已經(jīng)開始啟動了,我們就會把這些業(yè)務指標引入我們的分析模型。
也就是我們會把 PV、UV、收藏數(shù),包括上周同期的這些數(shù)據(jù),和上周我們要預測那個時間點的訂單數(shù)全部都引進來,然后用一個機器學習的辦法,基本上就可以解決這個問題。
在雙 11 促銷后觀察了一下預測的情況,現(xiàn)在促銷預測的數(shù)值還是比較準的。
當基于預測進行告警時,碰到主要問題是夜晚低峰時數(shù)據(jù)波動較大,如果按每個時間點的指標直接進行告警非常容易誤報。
我們采用的辦法是預估損失累計的報警方法,當累計預估損失達到 100 單時就進行告警,這樣調(diào)整后,我們從上線到現(xiàn)在基本已經(jīng)沒有了誤告。
這個 100 單的設置,跟我們公司的制度有關,因為我們公司達到了 200 單、300 單,那就是重大故障了,我們在 100 單的時候,就把這個警報給拉起來,是可以防止重大故障發(fā)生的。
根因分析

最后在數(shù)據(jù)挖掘這部分的應用,給大家介紹一下根因分析。


(, 下載次數(shù): 19)
我們這套算法經(jīng)過幾個案例的嘗試,基本上都能找出原因,首先就是它跟多維分析的“根因分析”不太一樣。
多維分析的“根因分析”是建立在已經(jīng)計算好的多維數(shù)據(jù)基礎上,而這個算法實際上是從原始數(shù)據(jù)來抽樣的。
比如說,像錯誤率上升的一個根因分析,我們首先會抽一些數(shù)據(jù),把錯的和正確的日志各抽 50%,對非數(shù)據(jù)列進行預編碼。
預處理之后,我們會用 Spearman 和 Mutual  Information 這兩種算法來計算各個維度和結果之間的相關性程度。
如果這兩種方法結果一致,則直接按相關性值大小進行排序,然后會用 One  hot  encoding 做一個轉碼,轉碼之后放入邏輯回歸模型中,選擇 L1 的懲罰項;如果它的系數(shù)算出來是負值,這個負值所代表的維度就是原因所在。
如果上述方法兩個結果不一致,采用 Random Forest 和 Adaboost 的方法構建樹模型,查看模型給出的維度重要性,這里我已經(jīng)畫得很清楚了。
如果兩個模型的重要性排序一致,就走上次那個步驟;如果不同,則用該模型對數(shù)據(jù)進行預測,選擇預測結果較高的相關性排序。
應用生態(tài)建設及規(guī)劃

最后跟大家一起討論一下,如何讓數(shù)據(jù)成為運維的大腦,根據(jù)我們的經(jīng)驗,首先從組織結構上來說,我們需要一個獨立的分析團隊。
因為在這個分析團隊成立之前,公司的運維體系實際上也在使用數(shù)據(jù),使用數(shù)據(jù)的方法和分析團隊后來使用分析數(shù)據(jù)的方法也是大同小異,但因為它本身是一個自發(fā)的,沒有一些強制性的要求。
在把數(shù)據(jù)分析融入到工作流程之后,我們發(fā)現(xiàn)效率會得到一個比較大的提升,同時知識的傳承,包括統(tǒng)計口徑等這些比較令人困惑的問題也都可以得到一個比較好的管理和解決。


(, 下載次數(shù): 16)
這樣的組織架構在我們的實踐中,感覺可以更好地幫助運維專家來解決問題。
從平臺建設上來說,應該是說現(xiàn)在已經(jīng)開始了,著力打造的是兩個平臺:
目前我們會把發(fā)布平臺的一些發(fā)布信息,還有 ITIL 平臺的一些事件信息、變更信息,CMDB 的一些基礎架構信息,再有就是各種各樣的監(jiān)控系統(tǒng)的值班表信息和告警信息(這種監(jiān)控系統(tǒng)我們有好幾十套),我們都會把它們放到信息庫里面。
在信息庫建設之后,我們算法雖然可以實際有效地解決點上的問題,但還沒能很好地解決關聯(lián)性上的問題,這塊還是挺困難的。
只能是說當前是一件事情一件事情去解決,那這種復雜的關聯(lián)性我們靠什么呢?
靠的是規(guī)則庫,用業(yè)務知識補充當前階段算法上的一些不足,也就是說在整個系統(tǒng)建設中,實際上算法庫和規(guī)則庫都是一起建設的。
不會說,就用算法,不要規(guī)則了;或只有規(guī)則,算法也沒什么用,它是一體建設的。
而且它們能解決的問題不一樣,算法我們是解決點上的問題,規(guī)則我們是用來解決這種關聯(lián)性的問題,尤其復雜業(yè)務關聯(lián)的問題,都靠規(guī)則來配置的。
整個這套平臺的建設,它主要有兩個目標:
目前是有一定的成效,但準確率還沒有那么高,以后能做得好的時候,我們會通過 ITIL 平臺來驅動自動化平臺對現(xiàn)網(wǎng)的故障進行自動化的處理。
比如說像重啟、降級,限流,磁盤空間管理,流量調(diào)度等工作,應該是說為了自動化運維、解決故障一起努力吧!
以上就是我們對數(shù)據(jù)應用在未來一個時期內(nèi)的定義,也是想在未來大約半年到一年能夠看到更多成果的一個實踐。
微信后臺回復關鍵詞“數(shù)據(jù)”,即可下載完整版PPT資料
原創(chuàng)作者:吳曉光
編輯:陶家龍、孫淑娟
出處:轉載自DBAplus社群微信公眾號,本文根據(jù)吳曉光老師在〖Gdevops 2017全球敏捷運維峰會廣州站〗現(xiàn)場演講內(nèi)容整理而成。

(, 下載次數(shù): 19)
作者: 卡121    時間: 2021-12-16 07:30
01 搜索引擎

搜索引擎是我們信息資料搜集的最重要的渠道之一,用搜索引擎查找信息資料需要使用恰當?shù)年P鍵詞和一些搜索技巧。目前國內(nèi)主要的搜集引擎有如下10個,近期還有較多行業(yè)型搜索冒出來,需找專業(yè)型行業(yè)資料可以使用行業(yè)型搜索引擎。

由于每個搜索引擎都有一定的局限性,可以把要搜索的關鍵詞在多個搜索引擎試一下,可能會搜出你意想不到的結果。

大家對國內(nèi)的引擎基本都很熟悉,尤其是百度和google,需要搜索同一主題的資料,不同的人所搜出來的結果可能就天差地別了,主要原因在于如下兩點:


1. 搜索關鍵字的選擇

舉例說明,假如我們要搜索大數(shù)據(jù)行業(yè)發(fā)展相關資料,如果我們就在百度上搜索“大數(shù)據(jù)”,結果非常多,無法進行篩選,可以對關鍵詞進一步界定,如“大數(shù)據(jù)行業(yè)”“大數(shù)據(jù)市場規(guī)?!薄爸袊髷?shù)據(jù)產(chǎn)業(yè)”“大數(shù)據(jù)技術”“大數(shù)據(jù)企業(yè)”等等,需要不停地變換搜索關鍵詞,直到查到滿意的搜索結果。

在查找的過程中可以根據(jù)查找結果內(nèi)容再進行對關鍵詞進行修正,修正有些名稱專業(yè)表達方式,因為最開始搜索我們表達的不一定準確。

2. 搜索技巧

主要是針對百度、google等搜索引擎一些高級搜索技巧。常用技巧主要有如下幾個方面:

1)文件類型搜索

使用filetype,如在百度或google中鍵入“filetype:pdf 大數(shù)據(jù)”搜索出有關大數(shù)據(jù)內(nèi)容pdf內(nèi)容,而且這些文檔基本都是可直接下載。還可以變換為其他的,如“filetype:doc”“filetype:ppt”“filetype:xls”等等,注意其中的冒號為英文的冒號,一定要變換為英文冒號。

2)定位于哪個網(wǎng)站上搜索

使用site,如在百度或google中鍵入“大數(shù)據(jù)空格site:sina.com”,則在http://sina.com搜索有關大數(shù)據(jù)的一些資料信息,這個特別適用針對某些信息可能在哪些網(wǎng)站上出現(xiàn)的一個快速搜索方法,注意冒號也是英文的,網(wǎng)站名稱也不用加www。

3)精確匹配搜索

使用“”,如在百度中鍵入“大數(shù)據(jù)行業(yè)”,表示搜索“大數(shù)據(jù)行業(yè)”五個必須聯(lián)在一起的,如果不加“”,搜到的為大數(shù)據(jù)及行業(yè)兩個詞并列顯示結果,沒有這么精確匹配。

4)限制性的網(wǎng)頁搜索

使用intitle,如在百度鍵入“intitie:大數(shù)據(jù)”,限定于搜索標題中含有“大數(shù)據(jù)”網(wǎng)頁,如果輸入“intitie:大數(shù)據(jù)市場規(guī)?!毕薅ㄓ谒阉鳂祟}中含有“大數(shù)據(jù)”和“市場規(guī)?!钡木W(wǎng)頁。

附:搜索引擎推薦













02 數(shù)據(jù)庫

數(shù)據(jù)庫是研究人員重要的數(shù)據(jù)來源之一,目前券商、基金研究研究機構都購買有商業(yè)數(shù)據(jù)庫,目前研究用的數(shù)據(jù)庫主要分為兩大類,一是商業(yè)數(shù)據(jù)庫,二是學術數(shù)據(jù)庫。


1. 商業(yè)數(shù)據(jù)庫

商業(yè)數(shù)據(jù)庫大多為金融投資所用,主要分為國內(nèi)與國外數(shù)據(jù)庫兩大類。

1)國內(nèi)商業(yè)數(shù)據(jù)庫

國內(nèi)數(shù)據(jù)庫主要有如萬德、恒生聚源、銳思數(shù)據(jù)庫、CSMAR數(shù)據(jù)庫、巨潮數(shù)據(jù)庫等。


2)國外商業(yè)數(shù)據(jù)庫

國外數(shù)據(jù)庫主要有彭博、路透社、CEIC、OECD、Haver Database、Thomson Financial One Banker等。

國外數(shù)據(jù)庫中彭博是比較全也大的,在國內(nèi)銷售也較好,但是售價奇貴。一般不做國際市場研究,大多用不到國外數(shù)據(jù)庫,畢竟國外數(shù)據(jù)庫公司對國內(nèi)的行業(yè)數(shù)據(jù)及公司數(shù)據(jù)不如本土數(shù)據(jù)庫公司的做得好。

2. 學術數(shù)據(jù)庫

學術數(shù)據(jù)庫基本為高校、研究機構所用,也分為國內(nèi)與國外兩大類,學術數(shù)據(jù)庫中一些學術論文、行業(yè)數(shù)據(jù)、統(tǒng)計年鑒還是有用的,缺點就是其中有些數(shù)據(jù)的相對較舊,無法做到實時更新。

1)國內(nèi)學術數(shù)據(jù)庫


2)國外學術數(shù)據(jù)庫


以上大致介紹了國內(nèi)的商業(yè)及學術數(shù)據(jù)庫,但這些數(shù)據(jù)庫都是通過收費或學校賬號才能使用,對于平時臨時研究用的一些人,沒有必要去購買,下面介紹一些免費可用的數(shù)據(jù)庫。








03 共享文庫

首先也非常感謝共享文庫的出現(xiàn),使得大家搜集信息方便了許多,隨最早的豆丁、百度、愛問等共享文庫的出現(xiàn),隨后到如今出現(xiàn)許多共享文庫,不過很多文庫規(guī)模較小,文檔數(shù)量較少。


1. 國內(nèi)主要文庫


國內(nèi)文檔數(shù)據(jù)量最大的共享文庫,綜合型的,好用。


其收費的盈利模式導致用戶數(shù)量逐年減少,文檔質量也不如百度文庫。


綜合型文庫,里面也時常發(fā)現(xiàn)好的行業(yè)研究報告,電子書籍等。


綜合型文庫,后起之秀,文檔數(shù)量和質量較好。


以管理、行業(yè)文檔為主,質量較好。


無需注冊,通過點擊廣告模式盈利,文檔內(nèi)容多。


專業(yè)型文庫,以計算機及IT技術相關的文檔為主。


全球最大的中文IT社區(qū)。


以創(chuàng)業(yè)投資、證券市場等文檔為主的專業(yè)型文庫,剛起步狀態(tài)。


國內(nèi)最大房地產(chǎn)類文庫,房地產(chǎn)相關策劃、數(shù)據(jù)較全。

2. 國外文庫


全球最大的文檔分享平臺。


在線文檔與圖片分享平臺。

針對以上國內(nèi)的共享文庫,都可以通過注冊賬號,上傳分享資料賺取積分,通過積分可以下載文庫資料。

如果有些文檔看過后不錯想保存下來積分不夠,可以通過文庫下載器來免費下載保存,文庫下載器有如“冰點文庫下載、易讀下載、老張文庫下載”等等,如果只看重其中一部分內(nèi)容,可以通過QQ拷屏方式保留下來(登陸QQ,ctrl+alt+a拷屏)。


04 專業(yè)網(wǎng)站

在共享文庫未出現(xiàn)以前,專業(yè)論壇一直擔任著查找資料的好去處,的確國內(nèi)的一些論壇經(jīng)過這么多年的運營,已經(jīng)積累大量有用文檔。下面主要介紹我們常用的專業(yè)論壇。


1. 人大經(jīng)濟論壇

http://bbs.pinggu.org/

經(jīng)濟、學術型論壇,其中行業(yè)研究、統(tǒng)計年鑒數(shù)量多,更新速度快,我的最愛,常用。

2. 經(jīng)濟學家

http://bbs.jjxj.org/

經(jīng)濟學專業(yè)論壇,其中統(tǒng)計年鑒、行業(yè)報告、國內(nèi)外數(shù)據(jù)等有特色。

3. 隨意網(wǎng)-經(jīng)濟論壇

http://economic.5d6d.net/

新建網(wǎng)站,有些內(nèi)容尚可。

4. 理想在線

http://www.55188.com

股票券商研究報告。

5. 邁博匯金

http://www.hibor.com.cn/

股票券商研究報告,目前已經(jīng)收費了,只能查詢有哪些最新報告了,無法下載。

6. 博瑞金融

http://www.brjr.com.cn/forum.php;

金融行業(yè)專業(yè)型論壇。

7. 華爾街社區(qū)

http://forum.cnwallstreet.com/index.php

國內(nèi)專業(yè)的金融論壇。

8. 投行先鋒論壇

http://www.thxflt.com/

專業(yè)型為投行人士探討而設立的論壇。

9. 春暉投行在線

http://www.shenchunhui.com/

證券相關政策的匯編整合論壇。

10. 中華股權投資論壇

http://www.tzluntan.com/

pe投資專業(yè)型論壇。

11. 其他專業(yè)網(wǎng)站

投行網(wǎng)站:


各大咨詢公司報告:



05 政府部門

政府部門是國內(nèi)公開數(shù)據(jù)的來源,查詢權威的數(shù)據(jù)可以到政府相關部門網(wǎng)站,以下介紹國內(nèi)的主要發(fā)布相關數(shù)據(jù)的政府部門。


1. 國家統(tǒng)計局

http://www.stats.gov.cn/

這個不用多說,大家很多人瀏覽過。

2. 工業(yè)和信息化部

http://www.miit.gov.cn

較多數(shù)據(jù)在此發(fā)布,尤其是有關工業(yè)運行及信息化相關數(shù)據(jù)。

3. 中國人民銀行

http://www.pbc.gov.cn/

中國金融市場政策及運行相關數(shù)據(jù)。

4. 銀監(jiān)會

http://www.cbrc.gov.cn

銀行金融相關數(shù)據(jù)。

5. 中國海關

http://www.customs.gov.cn

中國進出口相關數(shù)據(jù)。

6. 國家知識產(chǎn)權局

http://www.sipo.gov.cn

專利相關查詢。

7. 中國證監(jiān)會

http://www.csrc.gov.cn

相關政策及招股書披露平臺,以及擬上市公司排隊每周披露。

8. 巨潮信息網(wǎng)

http://www.cninfo.com.cn/

中國資本市場指定披露平臺,上市公司相關年報、季報及公告披露信息。


06 證券交易所


1. 上海證券交易所

http://www.sse.com.cn/

其中研究出版欄目中有些研究報告。

2. 深圳證券交易所

http://www.szse.cn/

其中研究/刊物中有研究報告。

3. 全國中小企業(yè)股份轉讓系統(tǒng)(新三板)

http://www.neeq.com.cn/

新三板掛牌公司的轉讓及信息披露。

4. 香港證券交易所

http://www.hkexnews.hk/index_c.htm

5. 臺灣證券交易所

http://www.tse.com.tw/ch/index.php

6. 新加坡證券交易所

http://www.sgx.com/

7. 紐約證券交易所

http://www.nyse.com

8. 納斯達克證券交易所

http://www.nasdaq.com


07 如何尋找國外數(shù)據(jù)

1. 搜集美國相關數(shù)據(jù)

由位于華盛頓的美國政府印刷辦公室出版、經(jīng)濟顧問委員會撰寫的《總統(tǒng)經(jīng)濟報告》(Economic Report of President),提供了有關美國當前經(jīng)濟形勢的描述和主要宏觀經(jīng)濟變量數(shù)據(jù)。相當多的數(shù)據(jù)都可以追溯到1959年,甚至個別的可追溯到1929年。

可能你已經(jīng)留意到了,好多有關美國的圖形,都是采用《總統(tǒng)經(jīng)濟報告》(2005)所附數(shù)據(jù)生成的。這些數(shù)據(jù)可以免費下載,網(wǎng)址:

http://www.access.gpo.gov/eop/

如果想獲得最近數(shù)據(jù)的詳細資料,一個不錯的選擇是,美國商務經(jīng)濟分析局每月出版的《當代商業(yè)縱覽》(Survey of Current Business)。網(wǎng)址:

http://www.bea.doc.gov/


2. 如何搜集國外其他經(jīng)濟體數(shù)據(jù)

對富裕國家來說,最有用的資料來源于經(jīng)濟合作與發(fā)展組織(Organization of Economic Cooperation and Development,簡稱OECD)。

經(jīng)濟合作與發(fā)展組織的成員包括:奧地利、澳大利亞、比利時、加拿大、捷克共和國、丹麥、芬蘭、法國、德國、希臘、匈牙利、冰島、意大利、日本、盧森堡、墨西哥、荷蘭、新西蘭、挪威、波蘭、葡萄牙、韓國、西班牙、瑞典、瑞士、土耳其、英國和美國??磥?,世界上的富裕國家大都屬于該組織,其產(chǎn)出占世界產(chǎn)出的70%左右。

OECD的網(wǎng)址:
http://www.oecd.org/

提供三種極為有用的數(shù)據(jù):


對于不是OECD成員的國家和地區(qū),可以從其它國際組織那里獲得相關數(shù)據(jù),比如國際貨幣基金組織(International Monetary Fund,簡稱IMF),網(wǎng)址:

https://www.imf.org/

IMF提供《國際金融統(tǒng)計年鑒》(InternationalFinancial Statistics Yearbook),它主要提供成員國的金融數(shù)據(jù),但也包括一些總體數(shù)據(jù),比如GDP、失業(yè)和通貨膨脹等。

至于若干國家長期的統(tǒng)計數(shù)據(jù),兩個不可多得的數(shù)據(jù)來源是,Heston-Summers數(shù)據(jù)庫和Madison數(shù)據(jù)庫。

Heston-Summers數(shù)據(jù)庫提供168經(jīng)濟體在1950-2000年間的跨國可比數(shù)據(jù),在賓夕法尼亞大學國際比較中心(Center for International Comparisons at the University ofPennsylvania)網(wǎng)站上可以下載:

http://pwt.econ.upenn.edu/

Madison數(shù)據(jù)庫提供了自1820年以來56個經(jīng)濟體的數(shù)據(jù)。

最后,如果還沒有找到你要的數(shù)據(jù),不妨登陸下面的兩個網(wǎng)站,也許是根稻草。哈佛商學院的宏觀經(jīng)濟學資源網(wǎng)站提供了大量連接:

https://www.hbs.edu/faculty/units/bgie/Pages/default.aspx

由密西西比大學BillGoffe維護的一個網(wǎng)站:

http://rfe.wustl.edu

不僅列出了數(shù)據(jù)來源,而且還列出了有關經(jīng)濟的其他信息來源。


08 分行業(yè)網(wǎng)站


1. 互聯(lián)網(wǎng)及傳媒

1)資訊類











2)數(shù)據(jù)類










2. 銀行業(yè)

1)新聞資訊








2)公告、數(shù)據(jù)查找








3. 有色金屬

1)日報網(wǎng)站






2)其他常用站









09 其他

除以上介紹的幾種資料搜集渠道外,我們也結合近年it科技的發(fā)展,在博客、微博、空間等去搜索。

1. 行業(yè)協(xié)會網(wǎng)站

每個行業(yè)協(xié)會基本都會有網(wǎng)站,在該網(wǎng)站上能夠查找一些對本行業(yè)的描述、相關數(shù)據(jù)等。

2. 博客

國內(nèi)有網(wǎng)易、新浪、搜狐、百度空間、和訊等博客網(wǎng)站,有些數(shù)據(jù)也可以從搜索博客中找到。

3. 微博

新浪微博及騰訊微博,用數(shù)量極大,其中有些數(shù)據(jù)可以通過搜索查詢到。

4. 微信

微信用戶已經(jīng)超過4億,每個人都是新聞的發(fā)布者,其中數(shù)據(jù)資源豐富,但目前還未提供全文搜索功能,只能通過關注相關公共賬號或關注朋友圈獲取。

5. QQ空間

有些企業(yè)或機構QQ空間會有些報告及數(shù)據(jù)發(fā)布。

6. 全景網(wǎng)

http://www.p5w.net/

注:本文中提到的部分網(wǎng)站需科學上網(wǎng)才能訪問,另由于信息更新不及時等原因,部分鏈接可能已失效。歡迎大家一起查bug。

作者:王術,發(fā)表于知乎
來源:http://zhihu.com/question/22698541/answer/22367802
部分內(nèi)容來自網(wǎng)絡

作者: 妖而不媚    時間: 2021-12-16 08:23
想要分析的時候,沒有數(shù)據(jù),就是巧婦難為無米之炊。以前想找一個數(shù)據(jù)需要費盡心思在網(wǎng)上去搜,最終還找不到自己想要的數(shù)據(jù)。通過編程爬蟲數(shù)據(jù),學習成本又太高,畢竟你的目標不是想要成為爬蟲工程師,只是想要拿到數(shù)據(jù)來分析。那有沒有傻瓜式的獲取數(shù)據(jù)方法呢?
下面介紹4種獲取數(shù)據(jù)的方法,選擇一種適合你自己的方法就可以。


(, 下載次數(shù): 15)
1)如何選擇行業(yè)?
不知道如何選擇行業(yè)的,可以在下面網(wǎng)站里看到各個行業(yè)的分析報告:
如何選擇入職行業(yè) :https://www.zhihu.com/question/24995484/answer/516813008
艾瑞研究-艾瑞網(wǎng)(行業(yè)報告):http://report.iresearch.cn
Talkingdata報告(行業(yè)報告):http://mi.talkingdata.com
199IT互聯(lián)網(wǎng)數(shù)據(jù)中心(行業(yè)報告,內(nèi)容多,支持搜索):http://www.199it.com

2)10大行業(yè)免費數(shù)據(jù)匯總
【優(yōu)點】直接拿來使用
【缺點】數(shù)據(jù)有限
根據(jù)你確定的行業(yè),選擇一個自己感興趣的數(shù)據(jù)。比如你確定了電商行業(yè),然后就找一個電商行業(yè)的數(shù)據(jù)。
在《數(shù)據(jù)分析思維》中匯聚了10多個行業(yè)的數(shù)據(jù)以及分析案例

(, 下載次數(shù): 19)

(, 下載次數(shù): 17)

《數(shù)據(jù)分析思維》12大行業(yè)案例數(shù)據(jù)

更多行業(yè)數(shù)據(jù):
<a href="http://zhuanlan.zhihu.com/p/48413088" class="internal">10大行業(yè)公開數(shù)據(jù)集免費下載:電商零售行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:金融行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:游戲行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:教育行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:旅游行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:文化娛樂行業(yè)(電影,音樂等)
10大行業(yè)公開數(shù)據(jù)集免費下載:醫(yī)療行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:汽車及出行
10大行業(yè)公開數(shù)據(jù)集免費下載:房產(chǎn)行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載:自媒體等行業(yè)

1.國內(nèi)中文平臺:
1)阿里云天池,官網(wǎng)網(wǎng)址:https://tianchi.aliyun.com/dataset/
數(shù)據(jù)下載辦法:

(, 下載次數(shù): 23)

(, 下載次數(shù): 19)

(, 下載次數(shù): 17)
2)DataFountain,官網(wǎng)地址:https://www.datafountain.cn/dataSets
有的文件下載后會顯示后綴是.zip, .zip是個壓縮包,下載后需要減壓后才能看到壓縮包里的excel文件

(, 下載次數(shù): 21)
2.國外英文平臺
Kaggle,官網(wǎng)地址和如何下載數(shù)據(jù):如何在Kaggle上查找數(shù)據(jù)

【優(yōu)點】在網(wǎng)站上爬取你感興趣領域網(wǎng)站的數(shù)據(jù),可以獲取到自己想要的領域數(shù)據(jù)
【缺點】需要看官網(wǎng)教程來學習,有一定門檻

1)工具: 后羿,同時有mac,windows版本
網(wǎng)址:http://www.houyicaiji.com/
打開官網(wǎng)后點擊下圖“教程”的地方有入門教程。

(, 下載次數(shù): 17)
2)工具:集搜客,只有windows版本
操作指南只需要看下面紅框中的內(nèi)容就可以,操作指南地址:
https://www.gooseeker.com/tuto/tutorial.html

(, 下載次數(shù): 20)
爬取多少數(shù)據(jù)?
數(shù)據(jù)量少一般說明不了什么問題,起碼的超過幾萬條數(shù)據(jù)。
多嘗試、思維邏輯要清晰,一定要知道自己做什么,爬取什么樣的數(shù)據(jù),提前規(guī)劃好了,整個過程就不會走太多的彎路。

(, 下載次數(shù): 20)
案例:https://zhuanlan.zhihu.com/p/39733403

歡迎留言補充更多行業(yè)數(shù)據(jù)。

上面提到3種獲取數(shù)據(jù)的方法,選擇一種適合你自己方法。獲取數(shù)據(jù)后分析,可以使用這個里面的方法來分析:
如何分析數(shù)據(jù)?
作者: 齊吧    時間: 2021-12-16 10:18
不請自來。
二手研究:基于其它個人團體或機構以前進行的研究的信息。
一手研究:為公司的具體需求直接參與信息收集。包括焦點小組、問卷調(diào)查、個人訪談等。
欣旋咨詢:項目管理培訓專家,欣然學習,凱旋而歸!
作者: 張總    時間: 2021-12-16 12:31
是時候拿出之前總結的干貨了?。?!
真實可用的公開數(shù)據(jù)集:
亞馬遜AWS開放數(shù)據(jù)登記冊
Registry of Open Data on AWS阿帕奇數(shù)據(jù)集(得在linux操作系統(tǒng)上才能正常登陸)
http://archive.ics.uci.edu/ml/datasets.htmlkaggle比賽用數(shù)據(jù)集
Competitions | KaggleKDnugget之家數(shù)據(jù)集
Datasets for Data Mining and Data Science搜狗實驗室
搜狗實驗室(Sogou Labs)阿里云天池比賽數(shù)據(jù)集
天池數(shù)據(jù)集DC競賽數(shù)據(jù)集
DC競賽-大數(shù)據(jù)競賽平臺題主拿去,不謝。
歡迎訂閱微信公眾號:IT知識庫小姐姐
獲取更多免費學習資料、行業(yè)資訊,轉行疑惑解答。
另有轉行IT疑惑,或者不知道自己適合學什么的,可以評論區(qū)留言或者私信,我將一一回復解答。
覺得這個回答有幫助的,別光記得收藏,點個贊讓更多的小伙伴看到,謝謝(*°?°)=3




歡迎光臨 愛鋒貝 (http://7gfy2te7.cn/) Powered by Discuz! X3.4