愛鋒貝

標題: 數據分析第2篇|深入理解:探究四種常見的數據分析類型 [打印本頁]

作者: 科技閻羅    時間: 2023-4-3 06:33
標題: 數據分析第2篇|深入理解:探究四種常見的數據分析類型
(, 下載次數: 83)

在【數據分析第一篇|概念掃盲】,通過三個故事簡單給大家掃盲了一下數據分析的概念,讓你可以快速理解數據分析的本質。但真實的數據分析肯定是要復雜的多。
?我們提到數據分析就是從數據中提取有價值的信息的過程,目的是用于決策。數據分析是一個過程,是一個我們通過數據理解世界的一個過程。
在劉慈欣的科幻小說《三體》中,智子是一種超級人工智能,其能力和智慧遠超人類。故事中三體人通過智子 鎖死了人類科技。
其鎖死人類科技的核心就是在微觀層面干擾人類科學實結果,從而使人類科學家不能正確地開展數據分析,無法對物質深層的結構進行有效探索,失去了理解世界的能力,從而無法產生突破性的科學發(fā)展。
由此可見數據分析的重要性。這篇文章,我們就來聊一聊數據分析的四種類型,了解一下如何利用數據來幫助我們更好地理解世界。
第一類:描述型數據分析

我們都知道,所謂的數據是對事實的描述,比如說你的身高、體重、籍貫等等。對這些數據的描述本身也是一種分析。
舉一個例子:最近我在看房子,每天會關注成都市二手房的成交量,比如說{2023年2月27日成都二手房成交了465套}
這就是描述型分析,如果你寫過實證分析相關的論文,這個就是對數據的描述,比如說我上面提到的畢業(yè)論文,在完成數據處理后會做一個描述型統計分析:
2012年,國有企業(yè)控制下的上市公司數量達到了1176家,占比超過50%,到2016年,這個數字下降到了1015家,占比降至不到50%。與此同時,民營企業(yè)控制下的上市公司數量在同期內從978家增加到了1183家……
第二類:探索性數據分析

探索性數據分析,有個英文名叫Exploratory Data Analysis,簡稱EDA。我們所說的一般意義上的數據分析就是指探索性分析。
所謂的探索性分析就是提出一個問題,然后通過數據的特征、規(guī)律、分布和異常等情況,給出問題的答案,輔助決策。
這也是一般企業(yè)里數據分析師的核心工作:比如說探究什么用戶注冊數變少了?為什么公司的GMV下滑了?等用戶運營或者產品運營層面的問題。
講一個故事:
2021年我在一家公司金融小貸部門做數據產品經理,主要做貸前的反欺詐產品。
有一天運營部門的同事突然發(fā)現,當天下午的3點-6點,申請貸款的用戶暴增,而且比過往的每天平均客戶數多了2倍多,而且還在持續(xù)增長,于是立刻匯報給了部門領導.
部門領導就給數據分析的同事拋出來一個問題:是什么原因導致用戶數驟增?
數據分析的同學接到任務,立刻著手進行數據分析,拉出當天3~6點申請貸款的客戶的全部信息:性別、年齡、籍貫、手機號、婚姻狀態(tài),駕照信息、申請地點等等……
經過幾個小時的分析,最終得出結論:這是一起無組織的集體擼貸行為。
原因也很簡單:這些客戶分散在全國各地,申請時間高度集中,而且申請的貸款流程中約50%的人上傳的都是同一個駕照信息。
作為一名優(yōu)秀的數據分析師,并不會甘于只做探索性分析,而是會給出指導和改進的建議。
比如說我上面講的的故事里,我們部門在發(fā)現了這個問題后,給業(yè)務部門提出了優(yōu)化建議:建議在貸款流程中加入駕照身份核驗,必須要身份信息和駕照信息一致才能申請貸款。
因為有數據支撐,業(yè)務部門也很快采納了我們的建議。
第三類:指導性數據分析

指導性分析,英文名叫Confirmatory Data Analysis,簡稱CDA。
別被它的名字給誤導了,基本大多數研究生和博士生論文都是指導性分析,也就是所謂的實證分析。
它要求你在做數據分析前,先明確研究問題,并提出假設,然后通過嚴格的統計方法和模型驗證,對數據進行檢驗和分析,以驗證研究假設的有效性和可靠性。
和探索性分析不同,指導性分析的目標是驗證數據分析中的假設和研究結論是否正確,它需要做出明確的假設,并通過統計模型和驗證方法來檢驗假設的有效性,以確保分析結果的可靠性。
CDA通常是在EDA之后進行,當我們已經了解數據并發(fā)現有趣的關系時,需要進行進一步的驗證和檢驗。
CDA在科學研究和數據分析中非常重要,因為它可以幫助我們確定研究結論的有效性,并排除偶然性和誤差的影響。
同時,CDA也可以幫助我們發(fā)現數據中的異常和離群值,以及其他可能影響分析結論的因素。
第四類:預測性數據分析

預測性分析,又叫Predictive Analytics。這個概念有點晦澀,但卻早已飛入尋常百姓家。
預測分析是指通過對歷史數據和趨勢的分析和建模,預測未來事件或行為的發(fā)生概率或趨勢。
它的目標是利用現有的數據建立預測模型,它可以幫助決策者更好地理解未來發(fā)展趨勢和可能發(fā)生的事件,以便制定更加科學的決策和策略或者讓用戶更加上癮。
看到這個,你是不是想起了抖音、快手、微信視頻號。沒錯,這類短視頻工具無一例外地使用了預測性數據分析,它可以將你的注意力數據作為輸入,輸出你更為感興趣的視頻 ,讓你越刷越想刷,越刷越停不下來。

(, 下載次數: 80)

抖音2小時,人間五分鐘。就是這么來的。
預測性分析有較高的技術門檻,它需要完整的數據清洗、特征選擇、模型選擇和評估等步驟。
在建立預測模型時,我們需要選擇合適的特征和算法,并對模型進行訓練和優(yōu)化,以達到最佳的預測效果。
這些從業(yè)人員也一般稱之為算法工程師,而不再是數據分析師了。

-----------------------------




歡迎光臨 愛鋒貝 (http://7gfy2te7.cn/) Powered by Discuz! X3.4