其實數據分析自古有之,古代很多名人從事的其實就是數據分析的工作,他們的名稱可能不是數據分析師,更多的是丞相、軍師、謀士,如:張良、管仲、蕭何、孫斌、鬼谷子、諸葛亮。他們通過“歷史統計--經驗總結--預測未來”為自己的組織創造了極大的價值。
而在計算機和互聯網領域,推崇的是精益創業--MVP(最簡化可行產品)的理念,通過小步快跑的方式來不斷優化產品、增長用戶。大膽嘗試,將想法轉化成產品和運營方法,然後分析其中的數據,衡量產品或者運營的效果。如果好的話保持並大力推廣,如果不好的話總結問題及時改進。
做大事情總要先講究方法論,例如《XX論》揭露了資本主義的血腥成長,《XX思想》指導了紅星兩萬五。
方法論是從宏觀角度出發,從管理和業務的角度提出的分析框架,指導具體分析的方向。企業常用的數據分析方法論很多,例如:SWOT分析法(優勢、劣勢、機遇、威脅);5W2H分析法(Why、When、Where、What、Who、How、How_much);**理論(產品、價格、渠道和促銷……
方法論千千萬萬,但有一種方法論非常契合互聯網企業--AARRR海盜法則(獲取、激活、留存、變現和推薦)。對於互聯網產品而言,用戶具有明顯的生命周期特征,靈活運用AARRR的五個環節,通過數據指標來衡量與分析,從而實現精益化運營的目的,每個環節的提升都可以有效增長業務。
方法論有了,那麽接下來就是具體的數據分析方法。
首先是趨勢分析,趨勢分析是最簡單、最基礎,也是最常見的數據監測與數據分析方法。通常我們在數據分析產品中建立一張數據指標的線圖或者柱狀圖,然後持續觀察,重點關注異常值。
如果我們將OKM下載量作為第一關鍵指標,可能就會走偏,因為用戶下載軟件並不代表他一定會使用它。在這種情況下,建議將DAU(日活躍用戶)作為第一關鍵指標,而且是啟動並且執行了某個操作的用戶才能算上去,這樣的指標才有實際意義。
然後是多維分解,多維分解是指從業務需求出發,將指標從多個維度進行拆分。為什麽需要進行多維拆解?有時候一個非常籠統或者最終的指標你是看不出什麽問題來的,但是進行拆分之後,很多細節問題就會浮現出來。
接著從多維度對用戶進行分群,在用戶分群的基礎上,一般抽取3-5個用戶進行細查(郵件調查),即可覆蓋分群用戶大部分行為規律。用戶行為數據也是數據的一種,觀察用戶在你產品內的行為路徑是一種非常直觀的分析方法。
漏鬥分析,漏鬥是用於衡量轉化效率的工具,要盡可能將OKM用戶轉化為注冊用戶。
留存分析,顧名思義就是新用戶留下來持續使用產品的含義。我們可以從兩個方面去分析留存,一個是新用戶的留存率,另一個是產品功能的留存。
A/B測試與A/A測試,A/B測試是為了達到一個目標,采取了兩套方案,一組用戶采用A方案,一組用戶采用B方案。通過實驗觀察兩組方案的數據效果,判斷兩組方案的好壞。
在A/B測試方面,谷歌是不遺余力地嘗試;對於搜索結果的顯示,谷歌會制定多種不同的方案(包括文案標題,字體大小,顏色等等),
不斷來優化搜索結果中廣告的點擊率。A/A測試是評估兩個實驗組是否是處於相同的水平,這樣A/B測試才有意義。其實這和學校裡面的控制變量法、實驗組與對照組、雙盲試驗本質一樣的。 把事情搞得那麽複雜,金韶賢一個人忙得過來嗎。
只靠個人力量當然不行,但人類的智慧是無限且傳承的,所以有了計算機,所以有了專業數據分析軟件。
Crystal_Report,全球最流行的報表工具,還有可視化的Tableau報表。如果覺得專業軟件難以下手,那還可以嘗試
Excel加插件XLSTAT的常見組合。
SAS統計分析系統,被譽為數據統計分析的標準軟件,共有三十多個功能模塊,具有完備的數據存取、數據管理、數據分析和數據展現的系列功能。
SPSS,社會科學統計軟件包,操作方便、方法齊全、直觀輸出,堪稱最強預測分析軟件。
金韶賢就是使用這些軟件進行數據分析,雖然它們難用且貴,但在未來十年內還是得依靠它們,直到大數據的出現。
數據分析按部就班,金韶賢真正上心的是推薦算法。用過帶歌單的播放器的用戶都清楚,每天都會有一堆歌單推薦給你,覺得不好換一換,隨著推薦歌曲越來越中心意,也就懶得搜索歌曲來聽了。
所謂推薦算法就是利用用戶的一些行為,通過一些數學算法,推測出用戶可能喜歡的東西。而要能運用推薦算法,首先要知道算法是什麽。
歐幾裡得算法被人們認為是史上第一個算法。人們第一次編寫程序是Ada_Byron於1842年為巴貝奇分析機編寫求解伯努利方程的程序,因此她被大多數人認為是世界上第一位程序員。中國也有很多自古流傳下來的算法:割圓術,秦九韶算法……
學過數學的都或多或少知道一些算法,例如:遞推、遞歸、窮舉、迭代、與或非……但這些都是數學上的算法,它和計算機算法還是有些不同的。
在計算機領域,算法(Algorithm)是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令,代表著用系統的方法描述解決問題的策略機制。
計算機最最底層的其實就只有0和1,代表著高低電平,所有的計算機和網絡技術都是構建在對0和1的計算上,算法不可謂不重要。
計算機算法可大致分為基本算法、數據結構的算法、數論與代數算法、計算幾何的算法、圖論的算法、動態規劃以及數值分析、加密算法、排序算法、檢索算法、隨機化算法、並行算法,厄米變形模型,隨機森林算法。
算法的質量優劣將影響到算法乃至程序的效率。算法的正確性是評價一個算法優劣的最重要的標準。其次,算法的評價主要從時間複雜度和空間複雜度來考慮。算法的時間複雜度是指執行算法所需要的計算工作量。算法的空間複雜度是指算法需要消耗的內存空間。還有算法的可讀性,是指一個算法可供人們閱讀的容易程度。健壯性,是指一個算法對不合理數據輸入的反應能力和處理能力,也稱為容錯性。
在所有互聯網企業中運用算法能力最強的非Google莫屬。每天都有十億以上的用戶訪問Google的網站,使用Google的服務,也產生很多很多的日志(Log)。
Google的數據中心使用的是超大的並行計算機,但在傳統的算法運行時,效率會在增加機器數量後迅速降低,也就是說,十台機器如果有五倍的效果,增加到一千台時也許就只有幾十倍的效果。這種事半功倍的代價是沒有哪家公司可以負擔得起的。而且,在許多傳統算法中,只要一個結點犯錯誤,所有計算都會前功盡棄。
那麽Google是如何開發出既有效率又能容錯的並行計算的呢?
Google最資深的計算機科學家Jeff_Dean認識到:絕大部分數據處理都可以歸結為一個簡單的並行算法--Map_and_Reduce。這個算法能夠在很多種計算中達到相當高的效率,而且是可擴展的(也就是說,一千台機器就算不能達到一千倍的效果,至少也可以達到幾百倍的效果)。
Map_and_Reduce的另外一大特色是它可以利用大批廉價的機器組成功能強大的server_farm。最後,它的容錯性能異常出色,就算一個server_farm宕掉一半,整個fram依然能夠運行。正是因為這個天才的認識,才有了Map_and_Reduce算法,借助該算法,Google幾乎能無限地增加計算量,與日新月異的互聯網應用一同成長。
Ending
閱文附言:
You_laugh_at_me_for_being_different,but_I_laugh_at_you_for_being_the_same.
你嘲笑我和別人不一樣,我嘲笑你和大家都一樣。
隨文閑聊:
二十三章修改內容:OKM注冊表添加郵箱地址,要不然密碼找不回來了。
二十四章修改內容:添加了一個小段落,主要是讓大家更好的理解數據和數據分析。
作者有點傷心啊,讀者朋友們注冊過那麽多的帳號,竟然沒人發現郵箱這個漏洞。
Linkedin《2016年中國互聯網最熱職位人才庫報告》,數據分析人才被列為Top6的熱門職位。報告中還顯示,數據分析人才的供給指數最低,僅為0.05,相當於20個職位同時在競爭一個求職者。
根據麥肯錫報告,僅僅在美國市場,2018年大數據人才和高級分析專家的人才缺口將高達19萬。此外美國企業還需要150萬位能夠提出正確問題、運用大數據分析結果的數據相關管理人才。