愛(ài)鋒貝

 找回密碼
 立即注冊(cè)

只需一步,快速開(kāi)始

扫一扫,极速登录

12
返回列表 發(fā)新帖
打印 上一主題 下一主題
收起左側(cè)

去哪找數(shù)據(jù)?怎么挖掘?

[復(fù)制鏈接]

0

主題

47

帖子

1

積分

Rank: 1

11
發(fā)表于 2021-12-15 20:39:14 | 只看該作者
逐漸就可以直接上一些網(wǎng)上的數(shù)據(jù)交易市場(chǎng)找了,大數(shù)據(jù)帶動(dòng)了一大批這類(lèi)網(wǎng)站,但總體來(lái)說(shuō)對(duì)于從業(yè)者是好事,目前沒(méi)有一家獨(dú)大的,列個(gè)表,需要的可以看看:
百度apistore、阿里云云市場(chǎng)、數(shù)據(jù)堂、聚合數(shù)據(jù)
數(shù)糧、極速數(shù)據(jù)、apix、通聯(lián)、大海洋、優(yōu)易數(shù)據(jù)
還有上面答案提到的幾個(gè)網(wǎng)站,總體來(lái)說(shuō)這些網(wǎng)站的數(shù)據(jù)量在不斷增加
如果找統(tǒng)計(jì)數(shù)據(jù)可以直接去國(guó)家統(tǒng)計(jì)局網(wǎng)站,量大、正宗,并且可以外鏈到幾個(gè)全球范圍的統(tǒng)計(jì)網(wǎng)站,質(zhì)量很高
精選高品質(zhì)二手iPhone,上愛(ài)鋒貝APP

0

主題

55

帖子

6

積分

Rank: 1

12
發(fā)表于 2021-12-15 22:46:33 | 只看該作者
現(xiàn)在找數(shù)據(jù)的渠道很多,基本上分為開(kāi)放性的數(shù)據(jù)和爬蟲(chóng)獲取的專(zhuān)業(yè)數(shù)據(jù),另外現(xiàn)在逐漸也可以找到一些數(shù)據(jù)交易平臺(tái)了。無(wú)論是哪種渠道,主要應(yīng)該想好所找數(shù)據(jù)的方向,才能挖掘出更多數(shù)據(jù)。同時(shí)數(shù)據(jù)收集后要做好梳理分析,才能讓數(shù)據(jù)產(chǎn)生價(jià)值。
結(jié)合上面說(shuō)的,列舉一些常見(jiàn)的數(shù)據(jù)渠道,希望帶來(lái)一些幫助:
1、開(kāi)放性的數(shù)據(jù)渠道
一般這種數(shù)據(jù)比較好找,像國(guó)家統(tǒng)計(jì)局、中國(guó)信息統(tǒng)計(jì)網(wǎng),以及北京、上海等地方政府類(lèi)數(shù)據(jù)官網(wǎng),里面包含了城市、交通、就業(yè)、基礎(chǔ)設(shè)施等數(shù)據(jù)。當(dāng)然還包括行業(yè)類(lèi)的一些數(shù)據(jù)平臺(tái),比如新浪財(cái)經(jīng)、東方財(cái)富網(wǎng)。又或者智聯(lián)招聘、獵聘網(wǎng)等就業(yè)市場(chǎng)類(lèi)的數(shù)據(jù)。不過(guò)很多開(kāi)放的數(shù)據(jù)渠道可能數(shù)據(jù)會(huì)有些老,且比較散亂,通常需要多個(gè)渠道去找,這需要有鑒別能力,慢慢梳理,不要著急。


2、專(zhuān)業(yè)爬蟲(chóng)數(shù)據(jù)渠道
   不建議數(shù)據(jù)小白通過(guò)這種方式和渠道挖掘數(shù)據(jù),因?yàn)榍捌谛枰獙W(xué)習(xí)爬蟲(chóng)獲取技術(shù),比較耗費(fèi)時(shí)間和精力。有基礎(chǔ)知識(shí)和能力的小伙伴,可以從易觀智庫(kù)、阿里研究院、科賽網(wǎng)等,以及火車(chē)頭、八爪魚(yú)等采集軟件中獲取,但可能會(huì)出現(xiàn)采集速度慢,數(shù)據(jù)混亂等情況。另外關(guān)于國(guó)外的數(shù)據(jù)網(wǎng)站,檢索成本較高,比如部分需要VPN翻墻或者數(shù)據(jù)信息冗雜,需要加強(qiáng)鑒別梳理,因此不建議小白采用這個(gè)方式。


3、數(shù)據(jù)交易渠道
現(xiàn)在數(shù)據(jù)交易渠道也很多,通過(guò)付費(fèi)方式得到想要的數(shù)據(jù)。雖然有一定的成本,但
數(shù)據(jù)獲取效率會(huì)比較高,像數(shù)據(jù)堂、萬(wàn)得、數(shù)位觀察、優(yōu)易數(shù)據(jù)等。這些數(shù)據(jù)交易渠道的
數(shù)據(jù)覆蓋面很廣,比如數(shù)位觀察,可以直接查詢(xún)城市、客群、商圈、品牌、區(qū)域等,而且數(shù)據(jù)相對(duì)精準(zhǔn)全面。此外,這些渠道的數(shù)據(jù)都比較有邏輯性,像在數(shù)位觀察上查,得到的數(shù)據(jù)都有熱力圖、模型的分析梳理,這樣就省去數(shù)據(jù)統(tǒng)計(jì)整合的過(guò)程,提高效率,省事省心。

精選高品質(zhì)二手iPhone,上愛(ài)鋒貝APP

0

主題

51

帖子

3

積分

Rank: 1

13
發(fā)表于 2021-12-16 01:11:21 | 只看該作者
數(shù)據(jù)挖掘可以通過(guò)商業(yè)軟件來(lái)實(shí)現(xiàn),例如:思邁特軟件Smartbi mining,SAS,SPSS clementine等;也可以通過(guò)自己編程或是下載已有的開(kāi)源代碼來(lái)實(shí)現(xiàn),例如:決策樹(shù)就有C4.5、ID3等很多種成熟的開(kāi)源算法。
精選高品質(zhì)二手iPhone,上愛(ài)鋒貝APP

0

主題

60

帖子

3

積分

Rank: 1

14
發(fā)表于 2021-12-16 03:21:40 | 只看該作者
下面分享精心整理的數(shù)據(jù)網(wǎng)站,涵蓋各種原始數(shù)據(jù)以及數(shù)據(jù)分析報(bào)告,看完麻煩點(diǎn)個(gè)贊哈

0. 搜數(shù)網(wǎng)

http://www.soshoo.com.cn/index.do


1.中華人民共和國(guó)統(tǒng)計(jì)局

國(guó)家統(tǒng)計(jì)局


2. 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心

中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心


3. 中國(guó)信通院

中國(guó)信息通信研究院


4. 艾瑞網(wǎng)

報(bào)告_艾瑞網(wǎng)


(另外,我整理了學(xué)習(xí)數(shù)據(jù)分析完整的路線需要的書(shū)籍送給大家)


錯(cuò)過(guò)了,需要再等一年的數(shù)據(jù)分析書(shū)籍5.前瞻網(wǎng)

經(jīng)濟(jì)學(xué)人 - 讓您成為更懂趨勢(shì)的人_細(xì)分產(chǎn)業(yè)市場(chǎng)分析_前瞻經(jīng)濟(jì)學(xué)人App - 前瞻網(wǎng)


6. 極光大數(shù)據(jù)

數(shù)據(jù)報(bào)告列表 - 極光


7.中國(guó)互聯(lián)網(wǎng)數(shù)據(jù)資訊中心

互聯(lián)網(wǎng)數(shù)據(jù)資訊網(wǎng)-199IT | 發(fā)現(xiàn)數(shù)據(jù)的價(jià)值-199IT | 中文互聯(lián)網(wǎng)數(shù)據(jù)研究資訊中心-199IT


8. 易觀智庫(kù)

分析報(bào)告-易觀分析


9. talking data

數(shù)據(jù)報(bào)告-移動(dòng)觀象臺(tái)-TalkingData


(另外,我整理了學(xué)習(xí)數(shù)據(jù)分析完整的路線需要的書(shū)籍送給大家)


錯(cuò)過(guò)了,需要再等一年的數(shù)據(jù)分析書(shū)籍5.前瞻網(wǎng)

10.艾媒網(wǎng)

艾媒網(wǎng)-全球領(lǐng)先的新經(jīng)濟(jì)行業(yè)數(shù)據(jù)分析報(bào)告發(fā)布平臺(tái)


11.七麥數(shù)據(jù)

七麥數(shù)據(jù)(原ASO100)-專(zhuān)業(yè)移動(dòng)產(chǎn)品商業(yè)分析平臺(tái)-ASO-ASM優(yōu)化


12.企鵝智庫(kù)

企鵝智酷_騰訊網(wǎng)


13.騰訊大數(shù)據(jù)

騰訊大數(shù)據(jù)


14.IT桔子

IT桔子 | 泛互聯(lián)網(wǎng)創(chuàng)業(yè)投資項(xiàng)目信息數(shù)據(jù)庫(kù)及商業(yè)信息服務(wù)商


15. 百度指數(shù)

https://index.baidu.com/v2/index.html#/


--------------------
碼字不易,麻煩給我點(diǎn)個(gè)贊,更多干貨不要錯(cuò)過(guò)關(guān)注我
精選高品質(zhì)二手iPhone,上愛(ài)鋒貝APP

0

主題

50

帖子

3

積分

Rank: 1

15
發(fā)表于 2021-12-16 04:18:24 | 只看該作者
分享一下我平時(shí)常用的幾個(gè)經(jīng)典的數(shù)據(jù)源吧。
1,世界銀行公開(kāi)數(shù)據(jù):World Bank Open Data
免費(fèi)并公開(kāi)獲取世界各國(guó)的發(fā)展數(shù)據(jù),數(shù)據(jù)全面、權(quán)威且比較規(guī)范。



2,聯(lián)合國(guó)人口司數(shù)據(jù)集:United Nations Population Division


網(wǎng)頁(yè)中有個(gè)數(shù)據(jù)專(zhuān)區(qū),含有各種人口相關(guān)的數(shù)據(jù)集,比如人口老齡化數(shù)據(jù)、全球移民數(shù)據(jù)、世界人口婚姻狀況數(shù)據(jù)、人口增長(zhǎng)趨勢(shì)數(shù)據(jù)等等,想挖掘人口相關(guān)的問(wèn)題,是一個(gè)不可多得的數(shù)據(jù)源。

3,Kaggle數(shù)據(jù)集:Datasets | Kaggle,總有你感興趣的數(shù)據(jù)


Kaggle主要是為數(shù)據(jù)科學(xué)家提供機(jī)器學(xué)習(xí)競(jìng)賽、編寫(xiě)和分享代碼的平臺(tái),里面的各種數(shù)據(jù)集十分豐富。

4,如果上面的幾個(gè)不能滿足你的需要,那就給你來(lái)個(gè)集大成的數(shù)據(jù)網(wǎng)站
大數(shù)據(jù)導(dǎo)航:大數(shù)據(jù)導(dǎo)航-大數(shù)據(jù)工具導(dǎo)航-199IT大數(shù)據(jù)導(dǎo)航-199IT大數(shù)據(jù)工具導(dǎo)航-Hao.199it.com


數(shù)據(jù)包羅萬(wàn)象,各行業(yè)、各領(lǐng)域分門(mén)別類(lèi),總有你需要的。

5,授人以魚(yú)不如授人以漁,沒(méi)有數(shù)據(jù)就沒(méi)法玩做可視化嗎,NO!
沒(méi)有數(shù)據(jù)還可以自己模擬數(shù)據(jù),分享一個(gè)數(shù)據(jù)模擬神器:WebPlotDigitizer



不用到處找數(shù)據(jù),如果你想做圖,沒(méi)問(wèn)題,把你想要的圖表導(dǎo)進(jìn)去,這個(gè)神器可以幫你模擬出一套數(shù)據(jù)哦(工具獲取及用法詳見(jiàn):采悟:PowerBI完美制作魔力象限圖,內(nèi)含可視化神器?。?br />
最后,如果你下載數(shù)據(jù)不方便,我平時(shí)自己整理使用的一些數(shù)據(jù),近百個(gè)、Excel格式,簡(jiǎn)單易用,在微信公眾號(hào)「PowerBI星球」,回復(fù)關(guān)鍵字"數(shù)據(jù)"即可獲取下載鏈接。
學(xué)習(xí)愉快!
.
精選高品質(zhì)二手iPhone,上愛(ài)鋒貝APP

0

主題

50

帖子

-6

積分

16
發(fā)表于 2021-12-16 05:23:37 | 只看該作者
原創(chuàng)作者:吳曉光
出自公眾號(hào):51CTO技術(shù)棧
“時(shí)下數(shù)據(jù)科學(xué)是一個(gè)熱點(diǎn)話題,各個(gè)行業(yè)里面也有一些比較成熟的應(yīng)用,在這個(gè)大的背景下,我們?cè)诖蠹s一年前就開(kāi)始有意識(shí)地把數(shù)據(jù)技術(shù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘這些技術(shù)融合到運(yùn)維領(lǐng)域的應(yīng)用?!?br /> 在這個(gè)過(guò)程中,我們做的時(shí)間其實(shí)不長(zhǎng),比較短,目前只是做了一些相對(duì)來(lái)說(shuō)較為簡(jiǎn)單的一些事情,但取得的成果在公司內(nèi)部感覺(jué)還是比較好的。

CDP白皮書(shū):2020營(yíng)銷(xiāo)技術(shù)新風(fēng)向 - Linkflow聯(lián)否官網(wǎng)今天跟大家分享一下我們?cè)趹?yīng)用開(kāi)發(fā)過(guò)程中的一些案例,即如何讓數(shù)據(jù)技術(shù)在運(yùn)維實(shí)踐中得到充分的應(yīng)用,希望對(duì)大家的工作有一些參考價(jià)值。
分為四個(gè)部分進(jìn)行分享:


  • 數(shù)據(jù)處理技術(shù)應(yīng)用
  • 數(shù)據(jù)分析技術(shù)應(yīng)用
  • 數(shù)據(jù)挖掘技術(shù)應(yīng)用
  • 應(yīng)用生態(tài)建設(shè)及規(guī)劃在運(yùn)維中我們會(huì)碰到各種各樣的問(wèn)題,如下圖:



但有些問(wèn)題我們經(jīng)常重復(fù)遇到,并且形成了一些提問(wèn)范式,如:

  • “有問(wèn)題或故障發(fā)生嗎?”,這個(gè)提問(wèn)轉(zhuǎn)換成數(shù)學(xué)問(wèn)題就是建立“異常檢測(cè)”模型。
  • 當(dāng)我們確認(rèn)有問(wèn)題時(shí),我們本能地會(huì)問(wèn)“哪里出了問(wèn)題”,這便是一個(gè)“根因分析”問(wèn)題。
  • 對(duì)于一家電商公司來(lái)說(shuō),促銷(xiāo)前總是要對(duì)線上系統(tǒng)進(jìn)行容量評(píng)估和擴(kuò)容,這里便有一個(gè)“預(yù)測(cè)”模型需要被建立。
  • 當(dāng)我們每做完一個(gè)項(xiàng)目,需要對(duì)項(xiàng)目需要達(dá)成的目標(biāo)進(jìn)行定量的評(píng)估,這便是一個(gè)“績(jī)效分析”的問(wèn)題。
目前各類(lèi)數(shù)學(xué)模型的輸出在我們的具體工作中主要被用作輔助決策,有兩個(gè)原因使我們還不能直接把結(jié)果自動(dòng)地用于決策:

  • 我們對(duì)數(shù)據(jù)的使用能力還不能做到面面俱到,很多業(yè)務(wù)知識(shí)還無(wú)法用算法描述。
  • 算法的輸出結(jié)果一般都是有概率的,在很多需要“絕對(duì)正確”的場(chǎng)合只能作為參考。
在實(shí)際工作中,算法和業(yè)務(wù)規(guī)則庫(kù)都會(huì)進(jìn)行建設(shè),用來(lái)幫助運(yùn)維人員更容易和正確地做出決定。
今天給大家重點(diǎn)介紹“數(shù)據(jù)處理技術(shù)”、“數(shù)據(jù)分析技術(shù)”、“數(shù)據(jù)挖掘技術(shù)”這三個(gè)方面在唯品會(huì)的應(yīng)用實(shí)踐,主要會(huì)講到一些應(yīng)用場(chǎng)景,最后談下“數(shù)據(jù)技術(shù)”在運(yùn)維的生態(tài)建設(shè)和一些規(guī)劃。
數(shù)據(jù)處理技術(shù)應(yīng)用

對(duì)于數(shù)據(jù)處理技術(shù)來(lái)說(shuō),我們主要解決以下五個(gè)方面的問(wèn)題

  • 數(shù)據(jù)的準(zhǔn)確性、及時(shí)性
  • 海量數(shù)據(jù)的實(shí)時(shí)計(jì)算
  • 多維數(shù)據(jù)的實(shí)時(shí)監(jiān)控
  • 多維數(shù)據(jù)的展示
  • A/B 測(cè)試實(shí)現(xiàn)方法
這里有些問(wèn)題在行業(yè)里已有比較成熟的解決方案,有些可能不是每個(gè)公司都會(huì)碰到。
數(shù)據(jù)采集




首先我們看數(shù)據(jù)采集,對(duì)唯品會(huì)來(lái)說(shuō),我們主要是兩類(lèi)數(shù)據(jù):

  • 日志數(shù)據(jù)
  • 數(shù)據(jù)庫(kù)數(shù)據(jù)
對(duì)于日志數(shù)據(jù)來(lái)說(shuō),我們有兩類(lèi)采集:

  • 客戶(hù)端的日志采集
  • 服務(wù)器端的日志采集
對(duì)于服務(wù)器端的日志采集,實(shí)際上是比較簡(jiǎn)單的,一般來(lái)說(shuō)就是落到本地盤(pán)之后,通過(guò) Flume 傳送到公司的 Kafka 集群,然后大家在上面消費(fèi)。
對(duì)于客戶(hù)端行為的采集,分成兩種:

  • Web 端的采集,一般來(lái)說(shuō)就是通過(guò)異步請(qǐng)求在 Nginx 上落日志。
  • APP 端的采集,一般是通過(guò)一個(gè)接口調(diào)用的方式,把這些數(shù)據(jù)落到服務(wù)端,再由服務(wù)端把這個(gè)數(shù)據(jù)收集起來(lái)。
對(duì)于數(shù)據(jù)庫(kù)的采集,實(shí)際上我們也是有兩種方法:

  • 直接在從庫(kù)上來(lái)做這種指標(biāo)的計(jì)算。
  • 對(duì)于復(fù)雜的應(yīng)用,我們會(huì)把 DB 的 Binlog 做一些解析,解析完了之后放到一個(gè)消息總線上,實(shí)際上就放到 Kafka 上,然后讓大家來(lái)進(jìn)行一個(gè)消費(fèi),每個(gè)應(yīng)用都是根據(jù)自己的特點(diǎn),重構(gòu)自己的數(shù)據(jù)結(jié)構(gòu)。
有些會(huì)還原數(shù)據(jù)庫(kù),有些就直接用消息來(lái)計(jì)算指標(biāo),具體要根據(jù)情況進(jìn)行分析。
上圖主要描述了唯品會(huì)用到的一些主要開(kāi)源產(chǎn)品,基本上是這樣。
數(shù)據(jù)計(jì)算




數(shù)據(jù)計(jì)算是比較重要的一環(huán),實(shí)際上要兼顧性能和靈活性?xún)蓚€(gè)方面。
對(duì)日志的處理,會(huì)有一個(gè)日志解析程序來(lái)消費(fèi) Kafka 的消息,“日志解析”實(shí)現(xiàn)一個(gè)實(shí)時(shí) ETL 的過(guò)程,我們會(huì)根據(jù)配置(基本配置也跟 ETL 差不多)去生成預(yù)定義的標(biāo)準(zhǔn)格式,后續(xù)就交給 Spark 做聚合。
“日志解析”由于日志之間沒(méi)有相關(guān)性,可以 Map 之后并行計(jì)算,吞吐量和資源的投入是成正比的,這樣效率就沒(méi)有什么太多的問(wèn)題。
對(duì)于 Spark 的聚合配置,一般來(lái)說(shuō)我們會(huì)把日志解析完的數(shù)據(jù)進(jìn)行定義,定義各個(gè)字段是維度或是指標(biāo),然后會(huì)做一個(gè)全維度的聚合。
這里面實(shí)際上也是有個(gè)要求的,我們要求所有的指標(biāo)在各個(gè)維度上都具有累加性。
如果不具備累加性(比如百分比這種指標(biāo)),我們?cè)?Spark 里是不做聚合的,只是在展現(xiàn)的時(shí)候重新計(jì)算,計(jì)算好的數(shù)據(jù)會(huì)放到一個(gè) OLAP 和 MOLAP 的數(shù)據(jù)庫(kù)里。
還有一種情況,是通過(guò)腳本在數(shù)據(jù)庫(kù)從庫(kù)上直接進(jìn)行指標(biāo)的計(jì)算,一般用于只有時(shí)間維度的指標(biāo)計(jì)算,配置好的計(jì)算腳本,我們會(huì)用公司開(kāi)源的一個(gè)產(chǎn)品 Saturn 來(lái)進(jìn)行一個(gè)分布式調(diào)度。
Saturn 這個(gè)東西還是不錯(cuò)的,推薦大家去嘗試一下。對(duì)于日志的詳細(xì)查詢(xún),我們還是放到 ES 里,通過(guò)全文檢索的方式來(lái)查詢(xún)。
數(shù)據(jù)展現(xiàn)




數(shù)據(jù)展現(xiàn)是最終的結(jié)果輸出,實(shí)際工作中,我們對(duì)結(jié)果數(shù)據(jù)的查詢(xún)效率要求比較嚴(yán)苛,因?yàn)檫@些結(jié)果數(shù)據(jù)不僅用于前端,還用于告警輸出等各個(gè)方面。
對(duì)于告警的數(shù)據(jù)我們需要做到毫秒級(jí)響應(yīng),前端界面一般要求是在 3 秒內(nèi)渲染完成。
為了完成這個(gè)要求,我們構(gòu)建了一個(gè) ROLAP 數(shù)據(jù)庫(kù),還有一個(gè) MOLAP 的數(shù)據(jù)庫(kù),在 ROLAP 的數(shù)據(jù)庫(kù)里,一般只存當(dāng)天的多維數(shù)據(jù),而在 MOLAP 的數(shù)據(jù)庫(kù)里,會(huì)存歷史數(shù)據(jù)。
對(duì)于 MOLAP 數(shù)據(jù)庫(kù)的檢索,由于應(yīng)用主要是切片方面的需求,基本上都是 K-value 模式的一個(gè)檢索,所以它比較快。
MySQL 里一般是存放單維度指標(biāo),應(yīng)該這么講,它不是多維數(shù)據(jù)。Redis 緩沖里,一般會(huì)存放我們的秒級(jí)數(shù)據(jù),還有一些配置信息。
這個(gè)架構(gòu)中,最后通過(guò) Application  Server 進(jìn)行一個(gè)數(shù)據(jù)的整合,來(lái)滿足前端數(shù)據(jù)的一個(gè)展示要求。
多維分析界面案例




這是一個(gè)多維分析案例的界面,左邊是我們的分析平臺(tái),右邊是我們的實(shí)時(shí)監(jiān)控平臺(tái)。
從這上面大家能看到,我們實(shí)際提供的功能主要是對(duì)數(shù)據(jù)切片的能力,這個(gè)能力基本可以滿足我們目前所有的需求。
A/B 測(cè)試實(shí)現(xiàn)

對(duì)于數(shù)據(jù)分析來(lái)說(shuō),基于 A/B 測(cè)試的對(duì)比分析是一種重要的方法,因?yàn)?A/B 測(cè)試對(duì)比的結(jié)果容易被業(yè)務(wù)理解,如果沒(méi)有 A/B 測(cè)試,你說(shuō)我做了一件事情,這件事情帶來(lái)了一個(gè)好的效果,還是很難經(jīng)得起挑戰(zhàn)的。
在 A/B 測(cè)試中,它需要一些技術(shù)來(lái)支撐的,因?yàn)槲覀冊(cè)诰€上同時(shí)會(huì)有很多 A/B 測(cè)試的案例同時(shí)在跑,你自己的 A/B 測(cè)試不應(yīng)該被別人干擾。
在這種情況下實(shí)際上是要求各個(gè) A/B 測(cè)試之間的用戶(hù)分布得具有正交性,也就是說(shuō)別人的 A/B 測(cè)試集用戶(hù)應(yīng)該平均分布在你的 A/B 測(cè)試集上。
這種實(shí)現(xiàn)我們大約有兩種方法,一種是會(huì)在 APP 端設(shè)置開(kāi)關(guān),每個(gè)開(kāi)關(guān)管理一個(gè) A/B 測(cè)試的實(shí)驗(yàn)。
更多的 A/B 測(cè)試,是統(tǒng)一請(qǐng)求后端的 A/B 測(cè)試分組服務(wù),這個(gè)服務(wù)通過(guò)算法來(lái)保證各個(gè)試驗(yàn)之間相互獨(dú)立。
一般來(lái)說(shuō),當(dāng)客戶(hù)端發(fā)起 A/B 測(cè)試場(chǎng)景的時(shí)候,就會(huì)向 A/B 測(cè)試分組服務(wù)發(fā)個(gè)請(qǐng)求,然后 A/B 分組服務(wù)會(huì)返回這個(gè)用戶(hù)是屬于 A 組還是 B 組,一般是這樣的。



數(shù)據(jù)分析技術(shù)應(yīng)用

這部分會(huì)簡(jiǎn)單介紹具體的分析方法,并主要說(shuō)下應(yīng)用場(chǎng)景和案例。我們的運(yùn)維數(shù)據(jù)分析技術(shù)主要是用于解決兩方面的問(wèn)題:

  • 績(jī)效分析
  • 根因分析
績(jī)效分析

以前我們做了挺多的項(xiàng)目,這些項(xiàng)目一般來(lái)說(shuō) WBS 分解之后,我們會(huì)對(duì)項(xiàng)目的結(jié)果做一個(gè)簡(jiǎn)單的跟蹤,只是說(shuō)做完了,還是沒(méi)做完,一般也不會(huì)對(duì)它做一些定量的分析或者說(shuō)對(duì)這個(gè)質(zhì)量有一個(gè)看法。
這種情況在我們的項(xiàng)目中非常常見(jiàn),這種項(xiàng)目一般來(lái)說(shuō)比較小,都是靠個(gè)人技術(shù)能力就能控制住。



但在大型項(xiàng)目中這種做法就很困難,它會(huì)面臨更多的一個(gè)挑戰(zhàn),尤其是跨部門(mén)合作等情況,因?yàn)榇蠹业臏贤ㄊ址ú粌H僅是技術(shù)的,可能還有一些管理上的,這時(shí)就需要大家用數(shù)據(jù)在各個(gè)部門(mén)之間作為一個(gè)溝通的橋梁。
績(jī)效分析-全站 HTTPS 項(xiàng)目案例

于是數(shù)據(jù)分析人員開(kāi)始介入來(lái)進(jìn)行分析體系的設(shè)計(jì),主要包括:分析指標(biāo)的設(shè)計(jì)和分析維度的設(shè)計(jì),同時(shí)和研發(fā)確認(rèn)數(shù)據(jù)采集方案、A/B測(cè)試方案、統(tǒng)計(jì)口徑等。
指標(biāo)主要是根據(jù)項(xiàng)目中各項(xiàng)工作都關(guān)注什么問(wèn)題來(lái)設(shè)計(jì),而維度的設(shè)計(jì)是從當(dāng)指標(biāo)不滿意時(shí),可以在哪些方面著手改進(jìn)來(lái)進(jìn)行。
在這個(gè)項(xiàng)目中可預(yù)見(jiàn)的是,由于證書(shū)握手的原因,TCP 連接時(shí)間會(huì)變長(zhǎng),可能會(huì)影響用戶(hù)體驗(yàn),同時(shí)也會(huì)減少劫持從總體上提高用戶(hù)體驗(yàn),所以項(xiàng)目的目標(biāo)設(shè)置為轉(zhuǎn)化率至少不下降,最好能有上升。
我們實(shí)際上是做了一個(gè) HTTPS 的全站項(xiàng)目,在項(xiàng)目開(kāi)始之初,我們就有意識(shí)地把數(shù)據(jù)分析團(tuán)隊(duì)和技術(shù)人員整合到一起跟進(jìn)項(xiàng)目,取得了不錯(cuò)的結(jié)果。
數(shù)據(jù)分析人員在項(xiàng)目的初期就已經(jīng)開(kāi)始介入,來(lái)進(jìn)行分析體系的設(shè)計(jì),主要包括:分析指標(biāo)的設(shè)計(jì)和分析維度的設(shè)計(jì),同時(shí)和研發(fā)確認(rèn)數(shù)據(jù)采集方案,A/B 測(cè)試方案,統(tǒng)計(jì)口徑等。
分析人員會(huì)把這些工作做好,可他們?cè)趺磥?lái)設(shè)計(jì)這個(gè)項(xiàng)目的一些指標(biāo)呢?一般來(lái)說(shuō),在 WBS 分解之后,我們關(guān)注什么問(wèn)題,就會(huì)把這個(gè)問(wèn)題變換成一個(gè)主要的監(jiān)控指標(biāo)。那如何去設(shè)定這些維度呢?



實(shí)際上這些維度都是我們能解決問(wèn)題的一些角度,也就是說(shuō)實(shí)際上所有的維度都是我們能控制、能改善的地方。
首先 HTTPS 項(xiàng)目,不知道大家有沒(méi)有了解,如果了解可能知道 HTTPS 項(xiàng)目,因?yàn)?TCP 握手時(shí)間會(huì)延長(zhǎng),這一點(diǎn)上可能會(huì)損失一部分的用戶(hù)體驗(yàn),但在防劫持等方面,又會(huì)加強(qiáng)整體的用戶(hù)體驗(yàn)。
在這種情況下,我們項(xiàng)目設(shè)立了一個(gè)最終的主要目標(biāo),也就是保證轉(zhuǎn)化率,這個(gè)轉(zhuǎn)化率不能下降,最好還有一點(diǎn)點(diǎn)提升。
在這個(gè)主要目標(biāo)上,我們就控制這個(gè)主要目標(biāo),不停地灰度放量,不停地調(diào)整,這個(gè)效果是比較好的。
因?yàn)樵谶@個(gè)過(guò)程中我們發(fā)現(xiàn)了很多的問(wèn)題,同時(shí)這個(gè)項(xiàng)目持續(xù)了大約 8 個(gè)月,在 8 個(gè)月中我們沒(méi)有發(fā)生過(guò)任何重大的故障。



這個(gè)案例是對(duì)錯(cuò)誤率的分析和監(jiān)控,有一次發(fā)現(xiàn)我們的錯(cuò)誤碼是 HTTPS 的證書(shū)認(rèn)證過(guò)不去。
這種情況在某個(gè)省某個(gè)運(yùn)營(yíng)商大規(guī)模地發(fā)生,我們從分析的角度看這些節(jié)點(diǎn) IP 是不是我們自己的 IP,這樣我們就知道在這個(gè)地方發(fā)生了大規(guī)模的 DNS 劫持問(wèn)題,于是就去協(xié)調(diào)當(dāng)?shù)氐倪\(yùn)營(yíng)商把這個(gè)事情搞定。
數(shù)據(jù)分析也會(huì)發(fā)現(xiàn)一些代碼中的問(wèn)題,我們做 HTTPS 項(xiàng)目,可能要對(duì)代碼進(jìn)行一些修改,比如說(shuō)在整個(gè) HTML 里是不能存在 HTTP 協(xié)議的硬編碼。
但由于歷史原因,這種地方還是比較多的,開(kāi)發(fā)人員很難排查完,實(shí)際上需要分析人員通過(guò)數(shù)據(jù)分析手段去查,把這些沒(méi)有改過(guò)的代碼找出來(lái)。
還有一些圖片的問(wèn)題,我們發(fā)現(xiàn)一些圖片的拼接錯(cuò)誤,當(dāng)然是報(bào)了 404。
報(bào)了 404 之后,我們對(duì)這個(gè)錯(cuò)誤碼分析,發(fā)現(xiàn)突然多了,把報(bào)錯(cuò)的 URL 做一個(gè)排序后發(fā)現(xiàn)一些是拼接的錯(cuò)誤,還有一些是由于特殊字符引起而導(dǎo)致了無(wú)法生成正確的請(qǐng)求。
我們對(duì) TCP 的握手時(shí)長(zhǎng)也會(huì)進(jìn)行跟蹤,在做灰度選型階段,我們?cè)诓煌娜肟诓捎昧瞬煌募夹g(shù)類(lèi)型,通過(guò)分析各個(gè)入口的握手時(shí)長(zhǎng)來(lái)輔助運(yùn)維人員進(jìn)行一個(gè)加速卡的選型,還有一些參數(shù)調(diào)整等工作。
績(jī)效分析-其他案例場(chǎng)景

這個(gè)項(xiàng)目進(jìn)行完成之后,我們總結(jié)了很多經(jīng)驗(yàn),慢慢地在其他的項(xiàng)目中也逐漸有意識(shí)地運(yùn)用數(shù)據(jù)分析技術(shù),把數(shù)據(jù)分析人員和技術(shù)人員有效地結(jié)合在一起。
這里面也有幾個(gè)案例:

  • 比如說(shuō) CDN 廠商切換時(shí),我們要跟蹤錯(cuò)誤率、響應(yīng)時(shí)間這樣的一些指標(biāo),來(lái)決定切換是否需要回滾。
  • 促銷(xiāo)前的一些流量調(diào)度,我們也要分析調(diào)度策略的預(yù)期結(jié)果,比如說(shuō)各個(gè)入口的流量是不是按我們的計(jì)劃把這個(gè)流量調(diào)度到位了。
  • 每次 APP 版本的更新,我們也需要不停地來(lái)跟蹤它的訪問(wèn)連通率、網(wǎng)絡(luò)連通率等一些關(guān)鍵指標(biāo)。



根因分析

在數(shù)據(jù)的基礎(chǔ)上,我們也可以做一些原因的查找,通過(guò)數(shù)據(jù)分析進(jìn)行的原因查找有時(shí)可以直接幫我們定位到問(wèn)題,在更多的時(shí)候可以有效地幫我們縮小問(wèn)題的范圍。
通過(guò)數(shù)據(jù)來(lái)查找原因,這其實(shí)是有一定局限性的,局限性就在于數(shù)據(jù)的維度,因?yàn)槲覀冎荒茉诜治龅木S度上來(lái)進(jìn)行查找,如果故障的原因沒(méi)有在我們已知維度上,實(shí)際上是找不出來(lái)的,但大部分時(shí)候還是能起到比較關(guān)鍵的作用。
對(duì)于直接利用多維數(shù)據(jù)進(jìn)行問(wèn)題的分析,我們大約有三個(gè)步驟

  • 確定問(wèn)題,確定問(wèn)題之后,就確定了是哪個(gè)指標(biāo)有問(wèn)題。
  • 做一些數(shù)據(jù)上的分析。
  • 找到問(wèn)題之后,我們要做數(shù)據(jù)和業(yè)務(wù)上的一些驗(yàn)證。



主要的方法有兩種:

  • 排序表,這個(gè)最簡(jiǎn)單了,就是人眼看,通過(guò)排序我們可以解決70-80%的問(wèn)題。
  • 數(shù)據(jù)探索,有點(diǎn)自動(dòng)化的意思,它有一個(gè)原理,實(shí)際上并不是所有的數(shù)據(jù)都能進(jìn)行探索,我們目前就是假設(shè)這個(gè)數(shù)據(jù)在任意切片上,在時(shí)間維度上它是屬于均勻分布的。
在這種情況下,我們認(rèn)為這個(gè)誤差值是符合正態(tài)分布的,就可以比較容易地做一個(gè)異常的檢測(cè)來(lái)看每個(gè)數(shù)據(jù)切片上是否有問(wèn)題,當(dāng)所有的數(shù)據(jù)被探索完之后,問(wèn)題的原因也基本能找到。
根因分析-案例

這是非實(shí)時(shí)根因分析的一些案例:



我們有一次網(wǎng)絡(luò)連通率連續(xù)三個(gè)月下降,我們分析到最后,發(fā)現(xiàn)這個(gè) APP 的版本有些問(wèn)題,某天之后所有新發(fā)布的 APP 版本連通率下降都比較大,跟研發(fā)反饋之后,他們就在 SDK 做了一些調(diào)整。
實(shí)際上真正錯(cuò)在哪,我們并不知道,我們只能知道這個(gè)版本有問(wèn)題,更多地去幫助技術(shù)人員縮小這個(gè)范圍。
圖片錯(cuò)誤率上升,剛才已經(jīng)介紹過(guò)了,再就是實(shí)時(shí)的根因分析,剛才講的都是一些平時(shí)的案例,而實(shí)際上我們也做實(shí)時(shí)的系統(tǒng),這些實(shí)時(shí)的系統(tǒng)就是希望利用多維數(shù)據(jù),在系統(tǒng)告警后,能夠幫助大家更快定位一些問(wèn)題。




這里也有兩個(gè)例子:

  • 連通率下降之后,我們會(huì)發(fā)現(xiàn)某類(lèi)錯(cuò)誤碼是影響的一個(gè)主要因素,有針對(duì)性地解決問(wèn)題后,發(fā)現(xiàn)連通率恢復(fù)了,這樣基本上可以定位故障。
  • 某一個(gè)應(yīng)用的錯(cuò)誤率有上升,我們會(huì)看到有些省份影響比較大,具體看是一些 CDN 節(jié)點(diǎn)的故障,切換后,故障得到恢復(fù)。
總體看,實(shí)時(shí)分析還是能夠比較快地幫助運(yùn)維人員定位問(wèn)題。
數(shù)據(jù)挖掘技術(shù)應(yīng)用

對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō),我們目前所應(yīng)用的場(chǎng)景,或者說(shuō)能幫我們解決的問(wèn)題主要有三類(lèi):

  • 預(yù)測(cè)。
  • 異常檢測(cè),主要是用來(lái)做告警閾值自動(dòng)的設(shè)置。
  • 做一些根因的分析,它的目的和剛才講的基于數(shù)據(jù)分析的根因分析是一樣的,但在實(shí)現(xiàn)上算法有些不同。
預(yù)測(cè)

我們現(xiàn)在的預(yù)測(cè),主要是做了一些業(yè)務(wù)指標(biāo)的預(yù)測(cè),比如像 PV、UV、訂單、購(gòu)物車(chē)這樣的一些業(yè)務(wù)指標(biāo),下面我講一下訂單的預(yù)測(cè)。



如上圖,是我們的訂單預(yù)測(cè)圖。當(dāng)時(shí)做這個(gè)預(yù)測(cè),實(shí)際是有應(yīng)用的場(chǎng)景,當(dāng)故障發(fā)生時(shí),需要實(shí)時(shí)跟蹤預(yù)計(jì)的損失,以便于我們確定故障的等級(jí),還有就是調(diào)度解決故障需要的資源量。
大家可以看到,這種預(yù)估我們還是比較容易可以算出來(lái)的,在什么時(shí)候這個(gè)故障已經(jīng)好了,什么時(shí)候它的損失達(dá)到什么程度,我們的故障是不是需要升級(jí)。
這里面有一個(gè)技術(shù)點(diǎn)需要解決,就是說(shuō)我們?cè)诠收系臅r(shí)候,實(shí)際值已經(jīng)掉下去了。
而我們的預(yù)測(cè)算法需要前一分鐘和前幾分鐘的數(shù)據(jù),為了不把故障的數(shù)據(jù)引入到算法中,在故障的時(shí)候,是用預(yù)測(cè)值代替真實(shí)值。
具體來(lái)說(shuō),就是用上一周的數(shù)據(jù)做一些平均的加成來(lái)替換,然后再做下一次的預(yù)測(cè)。



對(duì)于預(yù)測(cè)算法,我們開(kāi)始采用的是時(shí)間序列中的 holt-winters 算法,因?yàn)槲覀児镜臄?shù)據(jù)周期性比較明顯,我們?cè)跁r(shí)間序列上做擬合時(shí)還是比較準(zhǔn)確的,應(yīng)該來(lái)說(shuō)效果還比較好。
但這個(gè)算法到了一定時(shí)候,我們就碰到了一些問(wèn)題:

  • 促銷(xiāo)和平時(shí)不太一樣,也就是說(shuō)促銷(xiāo)的數(shù)據(jù),我們是擬合不上的。
  • 在告警和一些夜晚流量低峰時(shí),這個(gè)數(shù)據(jù)波動(dòng)還是比較大的,告警的準(zhǔn)確率也不是很高,我們?cè)趺磥?lái)解決這個(gè)問(wèn)題呢?
先看促銷(xiāo),對(duì)訂單量來(lái)說(shuō),訂單達(dá)到高峰之前,我們的 PV、UV 包括收藏?cái)?shù)等業(yè)務(wù)指標(biāo)已經(jīng)開(kāi)始啟動(dòng)了,我們就會(huì)把這些業(yè)務(wù)指標(biāo)引入我們的分析模型。
也就是我們會(huì)把 PV、UV、收藏?cái)?shù),包括上周同期的這些數(shù)據(jù),和上周我們要預(yù)測(cè)那個(gè)時(shí)間點(diǎn)的訂單數(shù)全部都引進(jìn)來(lái),然后用一個(gè)機(jī)器學(xué)習(xí)的辦法,基本上就可以解決這個(gè)問(wèn)題。
在雙 11 促銷(xiāo)后觀察了一下預(yù)測(cè)的情況,現(xiàn)在促銷(xiāo)預(yù)測(cè)的數(shù)值還是比較準(zhǔn)的。
當(dāng)基于預(yù)測(cè)進(jìn)行告警時(shí),碰到主要問(wèn)題是夜晚低峰時(shí)數(shù)據(jù)波動(dòng)較大,如果按每個(gè)時(shí)間點(diǎn)的指標(biāo)直接進(jìn)行告警非常容易誤報(bào)。
我們采用的辦法是預(yù)估損失累計(jì)的報(bào)警方法,當(dāng)累計(jì)預(yù)估損失達(dá)到 100 單時(shí)就進(jìn)行告警,這樣調(diào)整后,我們從上線到現(xiàn)在基本已經(jīng)沒(méi)有了誤告。
這個(gè) 100 單的設(shè)置,跟我們公司的制度有關(guān),因?yàn)槲覀児具_(dá)到了 200 單、300 單,那就是重大故障了,我們?cè)?100 單的時(shí)候,就把這個(gè)警報(bào)給拉起來(lái),是可以防止重大故障發(fā)生的。
根因分析

最后在數(shù)據(jù)挖掘這部分的應(yīng)用,給大家介紹一下根因分析。



我們這套算法經(jīng)過(guò)幾個(gè)案例的嘗試,基本上都能找出原因,首先就是它跟多維分析的“根因分析”不太一樣。
多維分析的“根因分析”是建立在已經(jīng)計(jì)算好的多維數(shù)據(jù)基礎(chǔ)上,而這個(gè)算法實(shí)際上是從原始數(shù)據(jù)來(lái)抽樣的。
比如說(shuō),像錯(cuò)誤率上升的一個(gè)根因分析,我們首先會(huì)抽一些數(shù)據(jù),把錯(cuò)的和正確的日志各抽 50%,對(duì)非數(shù)據(jù)列進(jìn)行預(yù)編碼。
預(yù)處理之后,我們會(huì)用 Spearman 和 Mutual  Information 這兩種算法來(lái)計(jì)算各個(gè)維度和結(jié)果之間的相關(guān)性程度。
如果這兩種方法結(jié)果一致,則直接按相關(guān)性值大小進(jìn)行排序,然后會(huì)用 One  hot  encoding 做一個(gè)轉(zhuǎn)碼,轉(zhuǎn)碼之后放入邏輯回歸模型中,選擇 L1 的懲罰項(xiàng);如果它的系數(shù)算出來(lái)是負(fù)值,這個(gè)負(fù)值所代表的維度就是原因所在。
如果上述方法兩個(gè)結(jié)果不一致,采用 Random Forest 和 Adaboost 的方法構(gòu)建樹(shù)模型,查看模型給出的維度重要性,這里我已經(jīng)畫(huà)得很清楚了。
如果兩個(gè)模型的重要性排序一致,就走上次那個(gè)步驟;如果不同,則用該模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),選擇預(yù)測(cè)結(jié)果較高的相關(guān)性排序。
應(yīng)用生態(tài)建設(shè)及規(guī)劃

最后跟大家一起討論一下,如何讓數(shù)據(jù)成為運(yùn)維的大腦,根據(jù)我們的經(jīng)驗(yàn),首先從組織結(jié)構(gòu)上來(lái)說(shuō),我們需要一個(gè)獨(dú)立的分析團(tuán)隊(duì)。
因?yàn)樵谶@個(gè)分析團(tuán)隊(duì)成立之前,公司的運(yùn)維體系實(shí)際上也在使用數(shù)據(jù),使用數(shù)據(jù)的方法和分析團(tuán)隊(duì)后來(lái)使用分析數(shù)據(jù)的方法也是大同小異,但因?yàn)樗旧硎且粋€(gè)自發(fā)的,沒(méi)有一些強(qiáng)制性的要求。
在把數(shù)據(jù)分析融入到工作流程之后,我們發(fā)現(xiàn)效率會(huì)得到一個(gè)比較大的提升,同時(shí)知識(shí)的傳承,包括統(tǒng)計(jì)口徑等這些比較令人困惑的問(wèn)題也都可以得到一個(gè)比較好的管理和解決。



這樣的組織架構(gòu)在我們的實(shí)踐中,感覺(jué)可以更好地幫助運(yùn)維專(zhuān)家來(lái)解決問(wèn)題。
從平臺(tái)建設(shè)上來(lái)說(shuō),應(yīng)該是說(shuō)現(xiàn)在已經(jīng)開(kāi)始了,著力打造的是兩個(gè)平臺(tái):

  • 數(shù)據(jù)分析平臺(tái),數(shù)據(jù)分析平臺(tái)說(shuō)到底就是運(yùn)維的數(shù)據(jù)倉(cāng)庫(kù),它使用現(xiàn)在大數(shù)據(jù)的一些傳統(tǒng)技術(shù)來(lái)做這件事情。
  • 統(tǒng)一信息平臺(tái),“統(tǒng)一信息平臺(tái)”主要考慮到在互聯(lián)網(wǎng)公司,不管是不是在野蠻成長(zhǎng)階段,系統(tǒng)都特別多,信息也是特別分散,我們還是想把這些分散的關(guān)鍵信息看怎么收集起來(lái),然后看能不能做一些事情。
目前我們會(huì)把發(fā)布平臺(tái)的一些發(fā)布信息,還有 ITIL 平臺(tái)的一些事件信息、變更信息,CMDB 的一些基礎(chǔ)架構(gòu)信息,再有就是各種各樣的監(jiān)控系統(tǒng)的值班表信息和告警信息(這種監(jiān)控系統(tǒng)我們有好幾十套),我們都會(huì)把它們放到信息庫(kù)里面。
在信息庫(kù)建設(shè)之后,我們算法雖然可以實(shí)際有效地解決點(diǎn)上的問(wèn)題,但還沒(méi)能很好地解決關(guān)聯(lián)性上的問(wèn)題,這塊還是挺困難的。
只能是說(shuō)當(dāng)前是一件事情一件事情去解決,那這種復(fù)雜的關(guān)聯(lián)性我們靠什么呢?
靠的是規(guī)則庫(kù),用業(yè)務(wù)知識(shí)補(bǔ)充當(dāng)前階段算法上的一些不足,也就是說(shuō)在整個(gè)系統(tǒng)建設(shè)中,實(shí)際上算法庫(kù)和規(guī)則庫(kù)都是一起建設(shè)的。
不會(huì)說(shuō),就用算法,不要規(guī)則了;或只有規(guī)則,算法也沒(méi)什么用,它是一體建設(shè)的。
而且它們能解決的問(wèn)題不一樣,算法我們是解決點(diǎn)上的問(wèn)題,規(guī)則我們是用來(lái)解決這種關(guān)聯(lián)性的問(wèn)題,尤其復(fù)雜業(yè)務(wù)關(guān)聯(lián)的問(wèn)題,都靠規(guī)則來(lái)配置的。
整個(gè)這套平臺(tái)的建設(shè),它主要有兩個(gè)目標(biāo):

  • 對(duì)告警進(jìn)行有效的一個(gè)壓制、管理、合并。
  • 想能夠解決自動(dòng)故障定位的問(wèn)題。
目前是有一定的成效,但準(zhǔn)確率還沒(méi)有那么高,以后能做得好的時(shí)候,我們會(huì)通過(guò) ITIL 平臺(tái)來(lái)驅(qū)動(dòng)自動(dòng)化平臺(tái)對(duì)現(xiàn)網(wǎng)的故障進(jìn)行自動(dòng)化的處理。
比如說(shuō)像重啟、降級(jí),限流,磁盤(pán)空間管理,流量調(diào)度等工作,應(yīng)該是說(shuō)為了自動(dòng)化運(yùn)維、解決故障一起努力吧!
以上就是我們對(duì)數(shù)據(jù)應(yīng)用在未來(lái)一個(gè)時(shí)期內(nèi)的定義,也是想在未來(lái)大約半年到一年能夠看到更多成果的一個(gè)實(shí)踐。
微信后臺(tái)回復(fù)關(guān)鍵詞“數(shù)據(jù)”,即可下載完整版PPT資料
原創(chuàng)作者:吳曉光
編輯:陶家龍、孫淑娟
出處:轉(zhuǎn)載自DBAplus社群微信公眾號(hào),本文根據(jù)吳曉光老師在〖Gdevops 2017全球敏捷運(yùn)維峰會(huì)廣州站〗現(xiàn)場(chǎng)演講內(nèi)容整理而成。

精選高品質(zhì)二手iPhone,上愛(ài)鋒貝APP

0

主題

48

帖子

3

積分

Rank: 1

17
發(fā)表于 2021-12-16 07:30:00 | 只看該作者
01 搜索引擎

搜索引擎是我們信息資料搜集的最重要的渠道之一,用搜索引擎查找信息資料需要使用恰當(dāng)?shù)年P(guān)鍵詞和一些搜索技巧。目前國(guó)內(nèi)主要的搜集引擎有如下10個(gè),近期還有較多行業(yè)型搜索冒出來(lái),需找專(zhuān)業(yè)型行業(yè)資料可以使用行業(yè)型搜索引擎。

由于每個(gè)搜索引擎都有一定的局限性,可以把要搜索的關(guān)鍵詞在多個(gè)搜索引擎試一下,可能會(huì)搜出你意想不到的結(jié)果。

大家對(duì)國(guó)內(nèi)的引擎基本都很熟悉,尤其是百度和google,需要搜索同一主題的資料,不同的人所搜出來(lái)的結(jié)果可能就天差地別了,主要原因在于如下兩點(diǎn):


1. 搜索關(guān)鍵字的選擇

舉例說(shuō)明,假如我們要搜索大數(shù)據(jù)行業(yè)發(fā)展相關(guān)資料,如果我們就在百度上搜索“大數(shù)據(jù)”,結(jié)果非常多,無(wú)法進(jìn)行篩選,可以對(duì)關(guān)鍵詞進(jìn)一步界定,如“大數(shù)據(jù)行業(yè)”“大數(shù)據(jù)市場(chǎng)規(guī)?!薄爸袊?guó)大數(shù)據(jù)產(chǎn)業(yè)”“大數(shù)據(jù)技術(shù)”“大數(shù)據(jù)企業(yè)”等等,需要不停地變換搜索關(guān)鍵詞,直到查到滿意的搜索結(jié)果。

在查找的過(guò)程中可以根據(jù)查找結(jié)果內(nèi)容再進(jìn)行對(duì)關(guān)鍵詞進(jìn)行修正,修正有些名稱(chēng)專(zhuān)業(yè)表達(dá)方式,因?yàn)樽铋_(kāi)始搜索我們表達(dá)的不一定準(zhǔn)確。

2. 搜索技巧

主要是針對(duì)百度、google等搜索引擎一些高級(jí)搜索技巧。常用技巧主要有如下幾個(gè)方面:

1)文件類(lèi)型搜索

使用filetype,如在百度或google中鍵入“filetype:pdf 大數(shù)據(jù)”搜索出有關(guān)大數(shù)據(jù)內(nèi)容pdf內(nèi)容,而且這些文檔基本都是可直接下載。還可以變換為其他的,如“filetype:doc”“filetype:ppt”“filetype:xls”等等,注意其中的冒號(hào)為英文的冒號(hào),一定要變換為英文冒號(hào)。

2)定位于哪個(gè)網(wǎng)站上搜索

使用site,如在百度或google中鍵入“大數(shù)據(jù)空格site:sina.com”,則在http://sina.com搜索有關(guān)大數(shù)據(jù)的一些資料信息,這個(gè)特別適用針對(duì)某些信息可能在哪些網(wǎng)站上出現(xiàn)的一個(gè)快速搜索方法,注意冒號(hào)也是英文的,網(wǎng)站名稱(chēng)也不用加www。

3)精確匹配搜索

使用“”,如在百度中鍵入“大數(shù)據(jù)行業(yè)”,表示搜索“大數(shù)據(jù)行業(yè)”五個(gè)必須聯(lián)在一起的,如果不加“”,搜到的為大數(shù)據(jù)及行業(yè)兩個(gè)詞并列顯示結(jié)果,沒(méi)有這么精確匹配。

4)限制性的網(wǎng)頁(yè)搜索

使用intitle,如在百度鍵入“intitie:大數(shù)據(jù)”,限定于搜索標(biāo)題中含有“大數(shù)據(jù)”網(wǎng)頁(yè),如果輸入“intitie:大數(shù)據(jù)市場(chǎng)規(guī)?!毕薅ㄓ谒阉鳂?biāo)題中含有“大數(shù)據(jù)”和“市場(chǎng)規(guī)模”的網(wǎng)頁(yè)。

附:搜索引擎推薦


  • http://scholar.google.com/
  • Google學(xué)術(shù)搜索濾掉了普通搜索結(jié)果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次數(shù)。略顯不足的是,它搜索出來(lái)的結(jié)果沒(méi)有按照權(quán)威度(譬如影響因子、引用次數(shù))依次排列,在中國(guó)搜索出來(lái)的,前幾頁(yè)可能大部分為中文的一些期刊的文章。


  • http://www.scirus.com
  • Scirus 是目前互聯(lián)網(wǎng)上最全面、綜合性最強(qiáng)的科技文獻(xiàn)搜索引擎之一,由Elsevier科學(xué)出版社開(kāi)發(fā),用于搜索期刊和專(zhuān)利,效果很不錯(cuò)!
  • Scirus覆蓋的學(xué)科范圍包括:農(nóng)業(yè)與生物學(xué),天文學(xué),生物科學(xué),化學(xué)與化工,計(jì)算機(jī)科學(xué),地球與行星科學(xué),經(jīng)濟(jì)、金融與管理科學(xué),工程、能源與技術(shù),環(huán)境科學(xué),語(yǔ)言學(xué),法學(xué),生命科學(xué),材料科學(xué),數(shù)學(xué),醫(yī)學(xué),神經(jīng)系統(tǒng)科學(xué),藥理學(xué),物理學(xué),心理學(xué),社會(huì)與行為科學(xué),社會(huì)學(xué)等。


  • http://www.base-search.net/
  • BASE是德國(guó)比勒費(fèi)爾德(Bielefeld)大學(xué)圖書(shū)館開(kāi)發(fā)的一個(gè)多學(xué)科的學(xué)術(shù)搜索引擎,提供對(duì)全球異構(gòu)學(xué)術(shù)資源的集成檢索服務(wù)。它整合了德國(guó)比勒費(fèi)爾德大學(xué)圖書(shū)館的圖書(shū)館目錄和大約160個(gè)開(kāi)放資源(超過(guò)200 萬(wàn)個(gè)文檔)的數(shù)據(jù)。


  • http://www.vascoda.de/
  • Vascoda是一個(gè)交叉學(xué)科門(mén)戶(hù)網(wǎng)站的原型,它注重特定主題的聚合,集成了圖書(shū)館的收藏、文獻(xiàn)數(shù)據(jù)庫(kù)和附加的學(xué)術(shù)內(nèi)容。


  • http://www.goole.com/
  • 與google比較了一下發(fā)現(xiàn),能搜索到一些google搜索不到的好東東 。它界面簡(jiǎn)潔,功能強(qiáng)大,速度快,YAHOO、網(wǎng)易都采用了它的搜索技術(shù)。各位可以一試。


  • http://www.a9.com
  • Google在同一水平的搜索引擎。是http://Amazon.com推出的,Webresult部分是基于Google的,所以保證和Google在同一水平,另外增加了Amazon的在書(shū)本內(nèi)搜索的功能和個(gè)性化功能:主要是可以記錄你的搜索歷史。


  • http://www.findarticles.com/
  • 一個(gè)檢索免費(fèi)paper的好工具。進(jìn)入網(wǎng)頁(yè)以后,可以看到他有三個(gè)功能,driectory web article,其中article對(duì)我們很有幫助,你可以嘗試輸入你要找的文章,會(huì)有很多發(fā)現(xiàn)的!


  • http://www.emolecules.com
  • 在此搜索引擎里可以搜索到超過(guò)千萬(wàn)種化學(xué)品信息或相應(yīng)的供應(yīng)商,與Chemblink有點(diǎn)相似,但提供的化學(xué)品理化信息沒(méi)有Chemblink詳細(xì),與其不同的是該搜索引擎可提供化學(xué)品結(jié)構(gòu)式搜索(主頁(yè)上有在線繪制化學(xué)結(jié)構(gòu)式的搜索框)。


  • http://www.ojose.com/
  • OJOSE (Online JournalSearch Engine,在線期刊搜索引擎)是一個(gè)強(qiáng)大的免費(fèi)科學(xué)搜索引擎,通過(guò)OJOSE,你能查找、下載或購(gòu)買(mǎi)到近60個(gè)數(shù)據(jù)庫(kù)的資源。但是感覺(jué)操作比較復(fù)雜。


  • http://citeseer.ist.psu.edu/
  • 一個(gè)關(guān)于計(jì)算機(jī)和信息科學(xué)的搜索引擎。


  • http://hpsearch.uni-trier.de/
  • 專(zhuān)家個(gè)人主頁(yè)搜索引擎。


02 數(shù)據(jù)庫(kù)

數(shù)據(jù)庫(kù)是研究人員重要的數(shù)據(jù)來(lái)源之一,目前券商、基金研究研究機(jī)構(gòu)都購(gòu)買(mǎi)有商業(yè)數(shù)據(jù)庫(kù),目前研究用的數(shù)據(jù)庫(kù)主要分為兩大類(lèi),一是商業(yè)數(shù)據(jù)庫(kù),二是學(xué)術(shù)數(shù)據(jù)庫(kù)。


1. 商業(yè)數(shù)據(jù)庫(kù)

商業(yè)數(shù)據(jù)庫(kù)大多為金融投資所用,主要分為國(guó)內(nèi)與國(guó)外數(shù)據(jù)庫(kù)兩大類(lèi)。

1)國(guó)內(nèi)商業(yè)數(shù)據(jù)庫(kù)

國(guó)內(nèi)數(shù)據(jù)庫(kù)主要有如萬(wàn)德、恒生聚源、銳思數(shù)據(jù)庫(kù)、CSMAR數(shù)據(jù)庫(kù)、巨潮數(shù)據(jù)庫(kù)等。


  • 目前萬(wàn)德數(shù)據(jù)庫(kù)主要定位于國(guó)內(nèi)高端客戶(hù),市場(chǎng)占有率較高,80%左右,當(dāng)然其售價(jià)較高。
  • 恒生聚源也定位為機(jī)構(gòu)客戶(hù),性?xún)r(jià)比較高,售價(jià)要比萬(wàn)德便宜的多。
  • CSMAR數(shù)據(jù)庫(kù)定位于學(xué)術(shù)與高校,其中金融數(shù)據(jù)比較全,強(qiáng)大。
  • 銳思數(shù)據(jù)庫(kù)定位于學(xué)術(shù),質(zhì)量一般。
  • 巨潮數(shù)據(jù)庫(kù)為深交所旗下數(shù)據(jù)庫(kù),有一定的特殊優(yōu)勢(shì)。

2)國(guó)外商業(yè)數(shù)據(jù)庫(kù)

國(guó)外數(shù)據(jù)庫(kù)主要有彭博、路透社、CEIC、OECD、Haver Database、Thomson Financial One Banker等。

國(guó)外數(shù)據(jù)庫(kù)中彭博是比較全也大的,在國(guó)內(nèi)銷(xiāo)售也較好,但是售價(jià)奇貴。一般不做國(guó)際市場(chǎng)研究,大多用不到國(guó)外數(shù)據(jù)庫(kù),畢竟國(guó)外數(shù)據(jù)庫(kù)公司對(duì)國(guó)內(nèi)的行業(yè)數(shù)據(jù)及公司數(shù)據(jù)不如本土數(shù)據(jù)庫(kù)公司的做得好。

2. 學(xué)術(shù)數(shù)據(jù)庫(kù)

學(xué)術(shù)數(shù)據(jù)庫(kù)基本為高校、研究機(jī)構(gòu)所用,也分為國(guó)內(nèi)與國(guó)外兩大類(lèi),學(xué)術(shù)數(shù)據(jù)庫(kù)中一些學(xué)術(shù)論文、行業(yè)數(shù)據(jù)、統(tǒng)計(jì)年鑒還是有用的,缺點(diǎn)就是其中有些數(shù)據(jù)的相對(duì)較舊,無(wú)法做到實(shí)時(shí)更新。

1)國(guó)內(nèi)學(xué)術(shù)數(shù)據(jù)庫(kù)


  • 中國(guó)知網(wǎng):國(guó)內(nèi)最大學(xué)術(shù)數(shù)據(jù)庫(kù),包括期刊、學(xué)位論文、統(tǒng)計(jì)年鑒等
  • 萬(wàn)方數(shù)據(jù):僅次于中國(guó)知網(wǎng),包括期刊、學(xué)位論文等
  • 人大復(fù)印資料:期刊、論文等
  • 維普:期刊、論文等
  • 中經(jīng)網(wǎng):有較多行業(yè)研究報(bào)告,宏觀數(shù)據(jù)較全
  • 國(guó)研網(wǎng):數(shù)據(jù)較為權(quán)威,有些報(bào)告可以一看
  • 上海公共研發(fā)平臺(tái):可以注冊(cè),人工審核,內(nèi)包含較多數(shù)據(jù)庫(kù)

2)國(guó)外學(xué)術(shù)數(shù)據(jù)庫(kù)


  • EBSCO:較全的一個(gè)數(shù)據(jù)庫(kù),內(nèi)包含較多的商業(yè)數(shù)據(jù),好用
  • Elsevier:學(xué)術(shù)文章全,更新速度快

以上大致介紹了國(guó)內(nèi)的商業(yè)及學(xué)術(shù)數(shù)據(jù)庫(kù),但這些數(shù)據(jù)庫(kù)都是通過(guò)收費(fèi)或?qū)W校賬號(hào)才能使用,對(duì)于平時(shí)臨時(shí)研究用的一些人,沒(méi)有必要去購(gòu)買(mǎi),下面介紹一些免費(fèi)可用的數(shù)據(jù)庫(kù)。


  • 數(shù)據(jù)匯:國(guó)內(nèi)的宏觀數(shù)據(jù),國(guó)外的也有一部分,可以導(dǎo)出來(lái),免費(fèi)好用。
  • http://www.shujuhui.com/database/


  • 數(shù)據(jù)圈:免費(fèi)共享平臺(tái),行業(yè)研究報(bào)告,統(tǒng)計(jì)年鑒等
  • http://www.shujuquan.com.cn/


  • FRED
  • http://research.stlouisfed.org/fred2/


  • OECD圖書(shū)館
  • http://www.oecd-ilibrary.org/economics


  • 臺(tái)灣學(xué)術(shù)數(shù)據(jù)庫(kù):部分文章提供免費(fèi)全文下載
  • http://fedetd.mis.nsysu.edu.tw/


  • 臺(tái)灣大學(xué)電子書(shū)
  • http://ebooks.lib.ntu.edu.tw/Home/ListBooks


03 共享文庫(kù)

首先也非常感謝共享文庫(kù)的出現(xiàn),使得大家搜集信息方便了許多,隨最早的豆丁、百度、愛(ài)問(wèn)等共享文庫(kù)的出現(xiàn),隨后到如今出現(xiàn)許多共享文庫(kù),不過(guò)很多文庫(kù)規(guī)模較小,文檔數(shù)量較少。


1. 國(guó)內(nèi)主要文庫(kù)


  • 百度文庫(kù)
  • http://wenku.baidu.com/

國(guó)內(nèi)文檔數(shù)據(jù)量最大的共享文庫(kù),綜合型的,好用。


  • 豆丁文庫(kù)
  • http://www.docin.com/

其收費(fèi)的盈利模式導(dǎo)致用戶(hù)數(shù)量逐年減少,文檔質(zhì)量也不如百度文庫(kù)。


  • 愛(ài)問(wèn)共享
  • http://ishare.iask.sina.com.cn/

綜合型文庫(kù),里面也時(shí)常發(fā)現(xiàn)好的行業(yè)研究報(bào)告,電子書(shū)籍等。


  • 道客巴巴
  • http://www.doc88.com/

綜合型文庫(kù),后起之秀,文檔數(shù)量和質(zhì)量較好。


  • 智庫(kù)文檔
  • http://doc.mbalib.com/

以管理、行業(yè)文檔為主,質(zhì)量較好。


  • 文庫(kù)大全
  • http://www.wenkudaquan.com/

無(wú)需注冊(cè),通過(guò)點(diǎn)擊廣告模式盈利,文檔內(nèi)容多。


  • IT168文庫(kù)
  • http://wenku.it168.com/

專(zhuān)業(yè)型文庫(kù),以計(jì)算機(jī)及IT技術(shù)相關(guān)的文檔為主。


  • CSDN
  • http://www.csdn.net/

全球最大的中文IT社區(qū)。


  • 呱仕網(wǎng)
  • http://www.guasee.com/

以創(chuàng)業(yè)投資、證券市場(chǎng)等文檔為主的專(zhuān)業(yè)型文庫(kù),剛起步狀態(tài)。


  • 新浪地產(chǎn)
  • http://dichan.sina.com.cn/

國(guó)內(nèi)最大房地產(chǎn)類(lèi)文庫(kù),房地產(chǎn)相關(guān)策劃、數(shù)據(jù)較全。

2. 國(guó)外文庫(kù)


  • Scribd
  • http://www.scribd.com

全球最大的文檔分享平臺(tái)。


  • Docstoc
  • http://www.docstoc.com

在線文檔與圖片分享平臺(tái)。

針對(duì)以上國(guó)內(nèi)的共享文庫(kù),都可以通過(guò)注冊(cè)賬號(hào),上傳分享資料賺取積分,通過(guò)積分可以下載文庫(kù)資料。

如果有些文檔看過(guò)后不錯(cuò)想保存下來(lái)積分不夠,可以通過(guò)文庫(kù)下載器來(lái)免費(fèi)下載保存,文庫(kù)下載器有如“冰點(diǎn)文庫(kù)下載、易讀下載、老張文庫(kù)下載”等等,如果只看重其中一部分內(nèi)容,可以通過(guò)QQ拷屏方式保留下來(lái)(登陸QQ,ctrl+alt+a拷屏)。


04 專(zhuān)業(yè)網(wǎng)站

在共享文庫(kù)未出現(xiàn)以前,專(zhuān)業(yè)論壇一直擔(dān)任著查找資料的好去處,的確國(guó)內(nèi)的一些論壇經(jīng)過(guò)這么多年的運(yùn)營(yíng),已經(jīng)積累大量有用文檔。下面主要介紹我們常用的專(zhuān)業(yè)論壇。


1. 人大經(jīng)濟(jì)論壇

http://bbs.pinggu.org/

經(jīng)濟(jì)、學(xué)術(shù)型論壇,其中行業(yè)研究、統(tǒng)計(jì)年鑒數(shù)量多,更新速度快,我的最?lèi)?ài),常用。

2. 經(jīng)濟(jì)學(xué)家

http://bbs.jjxj.org/

經(jīng)濟(jì)學(xué)專(zhuān)業(yè)論壇,其中統(tǒng)計(jì)年鑒、行業(yè)報(bào)告、國(guó)內(nèi)外數(shù)據(jù)等有特色。

3. 隨意網(wǎng)-經(jīng)濟(jì)論壇

http://economic.5d6d.net/

新建網(wǎng)站,有些內(nèi)容尚可。

4. 理想在線

http://www.55188.com

股票券商研究報(bào)告。

5. 邁博匯金

http://www.hibor.com.cn/

股票券商研究報(bào)告,目前已經(jīng)收費(fèi)了,只能查詢(xún)有哪些最新報(bào)告了,無(wú)法下載。

6. 博瑞金融

http://www.brjr.com.cn/forum.php;

金融行業(yè)專(zhuān)業(yè)型論壇。

7. 華爾街社區(qū)

http://forum.cnwallstreet.com/index.php

國(guó)內(nèi)專(zhuān)業(yè)的金融論壇。

8. 投行先鋒論壇

http://www.thxflt.com/

專(zhuān)業(yè)型為投行人士探討而設(shè)立的論壇。

9. 春暉投行在線

http://www.shenchunhui.com/

證券相關(guān)政策的匯編整合論壇。

10. 中華股權(quán)投資論壇

http://www.tzluntan.com/

pe投資專(zhuān)業(yè)型論壇。

11. 其他專(zhuān)業(yè)網(wǎng)站

投行網(wǎng)站:


  • http://macabacus.com/
  • http://www.wallstreetoasis.com/
  • http://www.ibankingfaq.com/
  • http://stocks.etnet.com.cn/www/sc/stocks/ci_ipo.php
  • http://www.aastocks.com/sc/ipo/sponsor.aspx
  • http://terminal.chinaef.com/index.action
  • http://www.mergermarket.com/info/

各大咨詢(xún)公司報(bào)告:


  • http://www.deloitte.com/view/zh_CN/cn/services/
  • http://www.deloitte.com/view/en_GX/global/insights/index.htm
  • http://www.kpmg.com/CN/en/IssuesAndInsights/Pages/default.aspx
  • http://www.mckinsey.com/locations/chinasimplified/
  • http://www-31.ibm.com/cn/services/bcs/
  • http://www.bcg.com.cn/cn/newsandpublications/newsandpublictions_publications.html
  • http://www.ebusinessreview.cn/
  • http://www.ey.com/CN/ZH/home/library
  • http://www.bain.cn/news.php
  • https://china.mckinseyquarterly.com/home.aspx
  • http://www.pwccn.com/home/eng/libraryindex.html
  • http://www2.hewittassociates.com/Intl/AP/zh-CHT/Default.aspx
  • http://www.booz.com/global/home/what_we_think/cds_home/m_and_a/cds_our-leading-research-on-ma


05 政府部門(mén)

政府部門(mén)是國(guó)內(nèi)公開(kāi)數(shù)據(jù)的來(lái)源,查詢(xún)權(quán)威的數(shù)據(jù)可以到政府相關(guān)部門(mén)網(wǎng)站,以下介紹國(guó)內(nèi)的主要發(fā)布相關(guān)數(shù)據(jù)的政府部門(mén)。


1. 國(guó)家統(tǒng)計(jì)局

http://www.stats.gov.cn/

這個(gè)不用多說(shuō),大家很多人瀏覽過(guò)。

2. 工業(yè)和信息化部

http://www.miit.gov.cn

較多數(shù)據(jù)在此發(fā)布,尤其是有關(guān)工業(yè)運(yùn)行及信息化相關(guān)數(shù)據(jù)。

3. 中國(guó)人民銀行

http://www.pbc.gov.cn/

中國(guó)金融市場(chǎng)政策及運(yùn)行相關(guān)數(shù)據(jù)。

4. 銀監(jiān)會(huì)

http://www.cbrc.gov.cn

銀行金融相關(guān)數(shù)據(jù)。

5. 中國(guó)海關(guān)

http://www.customs.gov.cn

中國(guó)進(jìn)出口相關(guān)數(shù)據(jù)。

6. 國(guó)家知識(shí)產(chǎn)權(quán)局

http://www.sipo.gov.cn

專(zhuān)利相關(guān)查詢(xún)。

7. 中國(guó)證監(jiān)會(huì)

http://www.csrc.gov.cn

相關(guān)政策及招股書(shū)披露平臺(tái),以及擬上市公司排隊(duì)每周披露。

8. 巨潮信息網(wǎng)

http://www.cninfo.com.cn/

中國(guó)資本市場(chǎng)指定披露平臺(tái),上市公司相關(guān)年報(bào)、季報(bào)及公告披露信息。


06 證券交易所


1. 上海證券交易所

http://www.sse.com.cn/

其中研究出版欄目中有些研究報(bào)告。

2. 深圳證券交易所

http://www.szse.cn/

其中研究/刊物中有研究報(bào)告。

3. 全國(guó)中小企業(yè)股份轉(zhuǎn)讓系統(tǒng)(新三板)

http://www.neeq.com.cn/

新三板掛牌公司的轉(zhuǎn)讓及信息披露。

4. 香港證券交易所

http://www.hkexnews.hk/index_c.htm

5. 臺(tái)灣證券交易所

http://www.tse.com.tw/ch/index.php

6. 新加坡證券交易所

http://www.sgx.com/

7. 紐約證券交易所

http://www.nyse.com

8. 納斯達(dá)克證券交易所

http://www.nasdaq.com


07 如何尋找國(guó)外數(shù)據(jù)

1. 搜集美國(guó)相關(guān)數(shù)據(jù)

由位于華盛頓的美國(guó)政府印刷辦公室出版、經(jīng)濟(jì)顧問(wèn)委員會(huì)撰寫(xiě)的《總統(tǒng)經(jīng)濟(jì)報(bào)告》(Economic Report of President),提供了有關(guān)美國(guó)當(dāng)前經(jīng)濟(jì)形勢(shì)的描述和主要宏觀經(jīng)濟(jì)變量數(shù)據(jù)。相當(dāng)多的數(shù)據(jù)都可以追溯到1959年,甚至個(gè)別的可追溯到1929年。

可能你已經(jīng)留意到了,好多有關(guān)美國(guó)的圖形,都是采用《總統(tǒng)經(jīng)濟(jì)報(bào)告》(2005)所附數(shù)據(jù)生成的。這些數(shù)據(jù)可以免費(fèi)下載,網(wǎng)址:

http://www.access.gpo.gov/eop/

如果想獲得最近數(shù)據(jù)的詳細(xì)資料,一個(gè)不錯(cuò)的選擇是,美國(guó)商務(wù)經(jīng)濟(jì)分析局每月出版的《當(dāng)代商業(yè)縱覽》(Survey of Current Business)。網(wǎng)址:

http://www.bea.doc.gov/


2. 如何搜集國(guó)外其他經(jīng)濟(jì)體數(shù)據(jù)

對(duì)富裕國(guó)家來(lái)說(shuō),最有用的資料來(lái)源于經(jīng)濟(jì)合作與發(fā)展組織(Organization of Economic Cooperation and Development,簡(jiǎn)稱(chēng)OECD)。

經(jīng)濟(jì)合作與發(fā)展組織的成員包括:奧地利、澳大利亞、比利時(shí)、加拿大、捷克共和國(guó)、丹麥、芬蘭、法國(guó)、德國(guó)、希臘、匈牙利、冰島、意大利、日本、盧森堡、墨西哥、荷蘭、新西蘭、挪威、波蘭、葡萄牙、韓國(guó)、西班牙、瑞典、瑞士、土耳其、英國(guó)和美國(guó)??磥?lái),世界上的富裕國(guó)家大都屬于該組織,其產(chǎn)出占世界產(chǎn)出的70%左右。

OECD的網(wǎng)址:
http://www.oecd.org/

提供三種極為有用的數(shù)據(jù):


  • 《OECD經(jīng)濟(jì)展望》(OECD Economic Outlook),每年出版兩次,提供許多跨國(guó)宏觀經(jīng)濟(jì)數(shù)據(jù)。這些數(shù)據(jù)一般都上溯到20世紀(jì)70年代,而且具有很好的一致性。
  • 《OECD就業(yè)展望》(OECD Employment Outlook),每年出版一次,專(zhuān)門(mén)提供勞動(dòng)力市場(chǎng)的數(shù)據(jù)。
  • 《OECD歷史統(tǒng)計(jì)》(OECD Historical Statistics),不定期出版,將當(dāng)期數(shù)據(jù)和過(guò)去數(shù)據(jù)放在一起。

對(duì)于不是OECD成員的國(guó)家和地區(qū),可以從其它國(guó)際組織那里獲得相關(guān)數(shù)據(jù),比如國(guó)際貨幣基金組織(International Monetary Fund,簡(jiǎn)稱(chēng)IMF),網(wǎng)址:

https://www.imf.org/

IMF提供《國(guó)際金融統(tǒng)計(jì)年鑒》(InternationalFinancial Statistics Yearbook),它主要提供成員國(guó)的金融數(shù)據(jù),但也包括一些總體數(shù)據(jù),比如GDP、失業(yè)和通貨膨脹等。

至于若干國(guó)家長(zhǎng)期的統(tǒng)計(jì)數(shù)據(jù),兩個(gè)不可多得的數(shù)據(jù)來(lái)源是,Heston-Summers數(shù)據(jù)庫(kù)和Madison數(shù)據(jù)庫(kù)。

Heston-Summers數(shù)據(jù)庫(kù)提供168經(jīng)濟(jì)體在1950-2000年間的跨國(guó)可比數(shù)據(jù),在賓夕法尼亞大學(xué)國(guó)際比較中心(Center for International Comparisons at the University ofPennsylvania)網(wǎng)站上可以下載:

http://pwt.econ.upenn.edu/

Madison數(shù)據(jù)庫(kù)提供了自1820年以來(lái)56個(gè)經(jīng)濟(jì)體的數(shù)據(jù)。

最后,如果還沒(méi)有找到你要的數(shù)據(jù),不妨登陸下面的兩個(gè)網(wǎng)站,也許是根稻草。哈佛商學(xué)院的宏觀經(jīng)濟(jì)學(xué)資源網(wǎng)站提供了大量連接:

https://www.hbs.edu/faculty/units/bgie/Pages/default.aspx

由密西西比大學(xué)BillGoffe維護(hù)的一個(gè)網(wǎng)站:

http://rfe.wustl.edu

不僅列出了數(shù)據(jù)來(lái)源,而且還列出了有關(guān)經(jīng)濟(jì)的其他信息來(lái)源。


08 分行業(yè)網(wǎng)站


1. 互聯(lián)網(wǎng)及傳媒

1)資訊類(lèi)


  • 新浪科技
  • http://tech.sina.com.cn/


  • 騰訊科技
  • http://tech.qq.com/


  • 艾瑞網(wǎng)
  • http://www.iresearch.cn/


  • 藝恩網(wǎng)
  • http://www.entgroup.cn/


  • 虎嗅網(wǎng)
  • http://wwww.huxiu.com/


  • 36kr
  • http://36kr.com/


  • 鈦媒體
  • http://www.tmtpost.com/


  • 游戲大觀
  • http://www.gamelook.com.cn/


  • 億歐網(wǎng)
  • http://www.iyiou.com/


  • 媒介36
  • http://www.chinamedia360.com/main

2)數(shù)據(jù)類(lèi)


  • 中國(guó)票房
  • http://www.cbooo.cn/


  • 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心
  • http://www.cnnic.net.cn/


  • 艾瑞網(wǎng)
  • http://www.iresearch.com.cn/report/viewlist.aspx


  • 易觀智庫(kù)
  • http://www.analysys.cn/


  • 游戲產(chǎn)業(yè)網(wǎng)
  • http://www.cgigc.com.cn/list/79644663134.html


  • 百度指數(shù)
  • http://index.baidu.com/


  • 大數(shù)據(jù)導(dǎo)航
  • http://hao.199it.com/


  • CSM(電視收視率)
  • http://www.csm.com.cn/


  • 微排片
  • http://www.weipaipian.com

2. 銀行業(yè)

1)新聞資訊


  • 中證網(wǎng)
  • http://www.cs.com.cn/xwzx/hg/


  • 一財(cái)網(wǎng)
  • http://www.yicai.com/economy/


  • 財(cái)新網(wǎng)
  • http://finance.caixin.com/bank/


  • 華爾街見(jiàn)聞
  • http://wallstreetcn.com/news?cid=19


  • 新浪財(cái)經(jīng)
  • http://finance.sina.com.cn/


  • 證券時(shí)報(bào)網(wǎng)
  • http://www.stcn.com/


  • 中國(guó)金融新聞網(wǎng)
  • http://www.financialnews.com.cn/yh/xw/

2)公告、數(shù)據(jù)查找


  • 中國(guó)貨幣網(wǎng)
  • http://www.chinamoney.com.cn/index.html


  • 巨潮網(wǎng)
  • http://www.cninfo.com.cn/


  • 統(tǒng)計(jì)局
  • http://www.stats.gov.cn/


  • 中國(guó)人民銀行
  • http://www.pbc.gov.cn/


  • 銀監(jiān)會(huì)
  • http://www.cbrc.gov.cn/index.html


  • 上海證券交易所
  • http://www.sse.com.cn/


  • 深圳證券交易所
  • http://www.szse.cn/

3. 有色金屬

1)日?qǐng)?bào)網(wǎng)站


  • 宏觀新聞:央行快訊
  • http://t.news.fx168.com/bank/


  • 行業(yè)新聞:中國(guó)金屬網(wǎng)
  • http://www.metalchina.com


  • 上海有色網(wǎng)
  • http://www.smm.cn/index_2015.html


  • 百川咨詢(xún)
  • http://www.baiinfo.com


  • 公司公告:巨潮
  • http://www.cninfo.com.cn

2)其他常用站


  • 高工鋰電
  • http://www.gg-lb.com/default_index_new.php


  • 真鋰研究
  • http://www.realli.net


  • 深交所互動(dòng)易(查看投資者互動(dòng)資料)
  • http://irm.cninfo.com.cn/szse/


  • 中金網(wǎng)(有色金屬)
  • http://www.metalsinfo.com/news/



  • https://www.silverinstitute.org/site/publications/


  • 新三板咨訊
  • http://www.sanban18.com


  • 格隆匯港股
  • http://www.gelonghui.com/portal.php


09 其他

除以上介紹的幾種資料搜集渠道外,我們也結(jié)合近年it科技的發(fā)展,在博客、微博、空間等去搜索。

1. 行業(yè)協(xié)會(huì)網(wǎng)站

每個(gè)行業(yè)協(xié)會(huì)基本都會(huì)有網(wǎng)站,在該網(wǎng)站上能夠查找一些對(duì)本行業(yè)的描述、相關(guān)數(shù)據(jù)等。

2. 博客

國(guó)內(nèi)有網(wǎng)易、新浪、搜狐、百度空間、和訊等博客網(wǎng)站,有些數(shù)據(jù)也可以從搜索博客中找到。

3. 微博

新浪微博及騰訊微博,用數(shù)量極大,其中有些數(shù)據(jù)可以通過(guò)搜索查詢(xún)到。

4. 微信

微信用戶(hù)已經(jīng)超過(guò)4億,每個(gè)人都是新聞的發(fā)布者,其中數(shù)據(jù)資源豐富,但目前還未提供全文搜索功能,只能通過(guò)關(guān)注相關(guān)公共賬號(hào)或關(guān)注朋友圈獲取。

5. QQ空間

有些企業(yè)或機(jī)構(gòu)QQ空間會(huì)有些報(bào)告及數(shù)據(jù)發(fā)布。

6. 全景網(wǎng)

http://www.p5w.net/

注:本文中提到的部分網(wǎng)站需科學(xué)上網(wǎng)才能訪問(wèn),另由于信息更新不及時(shí)等原因,部分鏈接可能已失效。歡迎大家一起查bug。

作者:王術(shù),發(fā)表于知乎
來(lái)源:http://zhihu.com/question/22698541/answer/22367802
部分內(nèi)容來(lái)自網(wǎng)絡(luò)
精選高品質(zhì)二手iPhone,上愛(ài)鋒貝APP

0

主題

50

帖子

448

積分

Rank: 2

18
發(fā)表于 2021-12-16 08:23:26 | 只看該作者
想要分析的時(shí)候,沒(méi)有數(shù)據(jù),就是巧婦難為無(wú)米之炊。以前想找一個(gè)數(shù)據(jù)需要費(fèi)盡心思在網(wǎng)上去搜,最終還找不到自己想要的數(shù)據(jù)。通過(guò)編程爬蟲(chóng)數(shù)據(jù),學(xué)習(xí)成本又太高,畢竟你的目標(biāo)不是想要成為爬蟲(chóng)工程師,只是想要拿到數(shù)據(jù)來(lái)分析。那有沒(méi)有傻瓜式的獲取數(shù)據(jù)方法呢?
下面介紹4種獲取數(shù)據(jù)的方法,選擇一種適合你自己的方法就可以。


  • 方法一:直接獲取10大行業(yè)免費(fèi)數(shù)據(jù)


1)如何選擇行業(yè)?
不知道如何選擇行業(yè)的,可以在下面網(wǎng)站里看到各個(gè)行業(yè)的分析報(bào)告:
如何選擇入職行業(yè) :https://www.zhihu.com/question/24995484/answer/516813008
艾瑞研究-艾瑞網(wǎng)(行業(yè)報(bào)告):http://report.iresearch.cn
Talkingdata報(bào)告(行業(yè)報(bào)告):http://mi.talkingdata.com
199IT互聯(lián)網(wǎng)數(shù)據(jù)中心(行業(yè)報(bào)告,內(nèi)容多,支持搜索):http://www.199it.com

2)10大行業(yè)免費(fèi)數(shù)據(jù)匯總
【優(yōu)點(diǎn)】直接拿來(lái)使用
【缺點(diǎn)】數(shù)據(jù)有限
根據(jù)你確定的行業(yè),選擇一個(gè)自己感興趣的數(shù)據(jù)。比如你確定了電商行業(yè),然后就找一個(gè)電商行業(yè)的數(shù)據(jù)。
在《數(shù)據(jù)分析思維》中匯聚了10多個(gè)行業(yè)的數(shù)據(jù)以及分析案例





《數(shù)據(jù)分析思維》12大行業(yè)案例數(shù)據(jù)

更多行業(yè)數(shù)據(jù):
<a href="http://zhuanlan.zhihu.com/p/48413088" class="internal">10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:電商零售行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:金融行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:游戲行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:教育行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:旅游行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:文化娛樂(lè)行業(yè)(電影,音樂(lè)等)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:醫(yī)療行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:汽車(chē)及出行
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:房產(chǎn)行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:自媒體等行業(yè)


  • 方法二:從數(shù)據(jù)平臺(tái)獲取
1.國(guó)內(nèi)中文平臺(tái):
1)阿里云天池,官網(wǎng)網(wǎng)址:https://tianchi.aliyun.com/dataset/
數(shù)據(jù)下載辦法:






2)DataFountain,官網(wǎng)地址:https://www.datafountain.cn/dataSets
有的文件下載后會(huì)顯示后綴是.zip, .zip是個(gè)壓縮包,下載后需要減壓后才能看到壓縮包里的excel文件


2.國(guó)外英文平臺(tái)
Kaggle,官網(wǎng)地址和如何下載數(shù)據(jù):如何在Kaggle上查找數(shù)據(jù)


  • 方法三:傻瓜式爬蟲(chóng)工具(不需要編程)
【優(yōu)點(diǎn)】在網(wǎng)站上爬取你感興趣領(lǐng)域網(wǎng)站的數(shù)據(jù),可以獲取到自己想要的領(lǐng)域數(shù)據(jù)
【缺點(diǎn)】需要看官網(wǎng)教程來(lái)學(xué)習(xí),有一定門(mén)檻

1)工具: 后羿,同時(shí)有mac,windows版本
網(wǎng)址:http://www.houyicaiji.com/
打開(kāi)官網(wǎng)后點(diǎn)擊下圖“教程”的地方有入門(mén)教程。


2)工具:集搜客,只有windows版本
操作指南只需要看下面紅框中的內(nèi)容就可以,操作指南地址:
https://www.gooseeker.com/tuto/tutorial.html


爬取多少數(shù)據(jù)?
數(shù)據(jù)量少一般說(shuō)明不了什么問(wèn)題,起碼的超過(guò)幾萬(wàn)條數(shù)據(jù)。
多嘗試、思維邏輯要清晰,一定要知道自己做什么,爬取什么樣的數(shù)據(jù),提前規(guī)劃好了,整個(gè)過(guò)程就不會(huì)走太多的彎路。


案例:https://zhuanlan.zhihu.com/p/39733403

歡迎留言補(bǔ)充更多行業(yè)數(shù)據(jù)。

上面提到3種獲取數(shù)據(jù)的方法,選擇一種適合你自己方法。獲取數(shù)據(jù)后分析,可以使用這個(gè)里面的方法來(lái)分析:
如何分析數(shù)據(jù)?
精選高品質(zhì)二手iPhone,上愛(ài)鋒貝APP

0

主題

51

帖子

3

積分

Rank: 1

19
發(fā)表于 2021-12-16 10:18:06 | 只看該作者
不請(qǐng)自來(lái)。
二手研究:基于其它個(gè)人團(tuán)體或機(jī)構(gòu)以前進(jìn)行的研究的信息。
一手研究:為公司的具體需求直接參與信息收集。包括焦點(diǎn)小組、問(wèn)卷調(diào)查、個(gè)人訪談等。
欣旋咨詢(xún):項(xiàng)目管理培訓(xùn)專(zhuān)家,欣然學(xué)習(xí),凱旋而歸!
精選高品質(zhì)二手iPhone,上愛(ài)鋒貝APP

0

主題

44

帖子

5

積分

Rank: 1

20
發(fā)表于 2021-12-16 12:31:10 | 只看該作者
是時(shí)候拿出之前總結(jié)的干貨了?。?!
真實(shí)可用的公開(kāi)數(shù)據(jù)集:
亞馬遜AWS開(kāi)放數(shù)據(jù)登記冊(cè)
Registry of Open Data on AWS阿帕奇數(shù)據(jù)集(得在linux操作系統(tǒng)上才能正常登陸)
http://archive.ics.uci.edu/ml/datasets.htmlkaggle比賽用數(shù)據(jù)集
Competitions | KaggleKDnugget之家數(shù)據(jù)集
Datasets for Data Mining and Data Science搜狗實(shí)驗(yàn)室
搜狗實(shí)驗(yàn)室(Sogou Labs)阿里云天池比賽數(shù)據(jù)集
天池?cái)?shù)據(jù)集DC競(jìng)賽數(shù)據(jù)集
DC競(jìng)賽-大數(shù)據(jù)競(jìng)賽平臺(tái)題主拿去,不謝。
歡迎訂閱微信公眾號(hào):IT知識(shí)庫(kù)小姐姐
獲取更多免費(fèi)學(xué)習(xí)資料、行業(yè)資訊,轉(zhuǎn)行疑惑解答。
另有轉(zhuǎn)行IT疑惑,或者不知道自己適合學(xué)什么的,可以評(píng)論區(qū)留言或者私信,我將一一回復(fù)解答。
覺(jué)得這個(gè)回答有幫助的,別光記得收藏,點(diǎn)個(gè)贊讓更多的小伙伴看到,謝謝(*°?°)=3
精選高品質(zhì)二手iPhone,上愛(ài)鋒貝APP
12
返回列表 發(fā)新帖
您需要登錄后才可以回帖 登錄 | 立即注冊(cè)   

本版積分規(guī)則

QQ|Archiver|手機(jī)版|小黑屋|愛(ài)鋒貝 ( 粵ICP備16041312號(hào)-5 )

GMT+8, 2025-2-23 17:38

Powered by Discuz! X3.4

© 2001-2013 Discuz Team. 技術(shù)支持 by 巔峰設(shè)計(jì).

快速回復(fù) 返回頂部 返回列表