【相信過程】第25章

繁简轉換
[繁]
[简]

選擇背景顏色

選擇字體大小
[特大]
[大]
[中]
[小]

[回報錯誤]

《相信過程》第25章

　　其實數據分析自古有之，古代很多名人從事的其實就是數據分析的工作，他們的名稱可能不是數據分析師，更多的是丞相、軍師、謀士，如:張良、管仲、蕭何、孫斌、鬼谷子、諸葛亮。他們通過“歷史統計--經驗總結--預測未來”為自己的組織創造了極大的價值。

　　而在計算機和互聯網領域，推崇的是精益創業--MVP(最簡化可行產品)的理念，通過小步快跑的方式來不斷優化產品、增長用戶。大膽嘗試，將想法轉化成產品和運營方法，然後分析其中的數據，衡量產品或者運營的效果。如果好的話保持並大力推廣，如果不好的話總結問題及時改進。

　　做大事情總要先講究方法論，例如《XX論》揭露了資本主義的血腥成長，《XX思想》指導了紅星兩萬五。

　　方法論是從宏觀角度出發，從管理和業務的角度提出的分析框架，指導具體分析的方向。企業常用的數據分析方法論很多，例如:SWOT分析法(優勢、劣勢、機遇、威脅);5W2H分析法(Why、When、Where、What、Who、How、How_much);**理論(產品、價格、渠道和促銷……

　　方法論千千萬萬，但有一種方法論非常契合互聯網企業--AARRR海盜法則(獲取、激活、留存、變現和推薦)。對於互聯網產品而言，用戶具有明顯的生命周期特征，靈活運用AARRR的五個環節，通過數據指標來衡量與分析，從而實現精益化運營的目的，每個環節的提升都可以有效增長業務。

　　方法論有了，那麽接下來就是具體的數據分析方法。

　　首先是趨勢分析，趨勢分析是最簡單、最基礎，也是最常見的數據監測與數據分析方法。通常我們在數據分析產品中建立一張數據指標的線圖或者柱狀圖，然後持續觀察，重點關注異常值。

　　如果我們將OKM下載量作為第一關鍵指標，可能就會走偏，因為用戶下載軟件並不代表他一定會使用它。在這種情況下，建議將DAU(日活躍用戶)作為第一關鍵指標，而且是啟動並且執行了某個操作的用戶才能算上去，這樣的指標才有實際意義。

　　然後是多維分解，多維分解是指從業務需求出發，將指標從多個維度進行拆分。為什麽需要進行多維拆解?有時候一個非常籠統或者最終的指標你是看不出什麽問題來的，但是進行拆分之後，很多細節問題就會浮現出來。

　　接著從多維度對用戶進行分群，在用戶分群的基礎上，一般抽取3-5個用戶進行細查(郵件調查)，即可覆蓋分群用戶大部分行為規律。用戶行為數據也是數據的一種，觀察用戶在你產品內的行為路徑是一種非常直觀的分析方法。

　　漏鬥分析，漏鬥是用於衡量轉化效率的工具，要盡可能將OKM用戶轉化為注冊用戶。

　　留存分析，顧名思義就是新用戶留下來持續使用產品的含義。我們可以從兩個方面去分析留存，一個是新用戶的留存率，另一個是產品功能的留存。

　　A/B測試與A/A測試，A/B測試是為了達到一個目標，采取了兩套方案，一組用戶采用A方案，一組用戶采用B方案。通過實驗觀察兩組方案的數據效果，判斷兩組方案的好壞。

　　在A/B測試方面，谷歌是不遺余力地嘗試;對於搜索結果的顯示，谷歌會制定多種不同的方案(包括文案標題，字體大小，顏色等等)，

不斷來優化搜索結果中廣告的點擊率。A/A測試是評估兩個實驗組是否是處於相同的水平，這樣A/B測試才有意義。其實這和學校裡面的控制變量法、實驗組與對照組、雙盲試驗本質一樣的。　　把事情搞得那麽複雜，金韶賢一個人忙得過來嗎。

　　只靠個人力量當然不行，但人類的智慧是無限且傳承的，所以有了計算機，所以有了專業數據分析軟件。

　　Crystal_Report，全球最流行的報表工具，還有可視化的Tableau報表。如果覺得專業軟件難以下手，那還可以嘗試

　　Excel加插件XLSTAT的常見組合。

　　SAS統計分析系統，被譽為數據統計分析的標準軟件，共有三十多個功能模塊，具有完備的數據存取、數據管理、數據分析和數據展現的系列功能。

　　SPSS，社會科學統計軟件包，操作方便、方法齊全、直觀輸出，堪稱最強預測分析軟件。

　　金韶賢就是使用這些軟件進行數據分析，雖然它們難用且貴，但在未來十年內還是得依靠它們，直到大數據的出現。

　　數據分析按部就班，金韶賢真正上心的是推薦算法。用過帶歌單的播放器的用戶都清楚，每天都會有一堆歌單推薦給你，覺得不好換一換，隨著推薦歌曲越來越中心意，也就懶得搜索歌曲來聽了。

　　所謂推薦算法就是利用用戶的一些行為，通過一些數學算法，推測出用戶可能喜歡的東西。而要能運用推薦算法，首先要知道算法是什麽。

　　歐幾裡得算法被人們認為是史上第一個算法。人們第一次編寫程序是Ada_Byron於1842年為巴貝奇分析機編寫求解伯努利方程的程序，因此她被大多數人認為是世界上第一位程序員。中國也有很多自古流傳下來的算法:割圓術，秦九韶算法……

　　學過數學的都或多或少知道一些算法，例如:遞推、遞歸、窮舉、迭代、與或非……但這些都是數學上的算法，它和計算機算法還是有些不同的。

　　在計算機領域，算法(Algorithm)是指解題方案的準確而完整的描述，是一系列解決問題的清晰指令，代表著用系統的方法描述解決問題的策略機制。

　　計算機最最底層的其實就只有0和1，代表著高低電平，所有的計算機和網絡技術都是構建在對0和1的計算上，算法不可謂不重要。

　　計算機算法可大致分為基本算法、數據結構的算法、數論與代數算法、計算幾何的算法、圖論的算法、動態規劃以及數值分析、加密算法、排序算法、檢索算法、隨機化算法、並行算法，厄米變形模型，隨機森林算法。

　　算法的質量優劣將影響到算法乃至程序的效率。算法的正確性是評價一個算法優劣的最重要的標準。其次，算法的評價主要從時間複雜度和空間複雜度來考慮。算法的時間複雜度是指執行算法所需要的計算工作量。算法的空間複雜度是指算法需要消耗的內存空間。還有算法的可讀性，是指一個算法可供人們閱讀的容易程度。健壯性，是指一個算法對不合理數據輸入的反應能力和處理能力，也稱為容錯性。

　　在所有互聯網企業中運用算法能力最強的非Google莫屬。每天都有十億以上的用戶訪問Google的網站，使用Google的服務，也產生很多很多的日志(Log)。

　　Google的數據中心使用的是超大的並行計算機，但在傳統的算法運行時，效率會在增加機器數量後迅速降低，也就是說，十台機器如果有五倍的效果，增加到一千台時也許就只有幾十倍的效果。這種事半功倍的代價是沒有哪家公司可以負擔得起的。而且，在許多傳統算法中，只要一個結點犯錯誤，所有計算都會前功盡棄。

　　那麽Google是如何開發出既有效率又能容錯的並行計算的呢?

　　Google最資深的計算機科學家Jeff_Dean認識到:絕大部分數據處理都可以歸結為一個簡單的並行算法--Map_and_Reduce。這個算法能夠在很多種計算中達到相當高的效率，而且是可擴展的(也就是說，一千台機器就算不能達到一千倍的效果，至少也可以達到幾百倍的效果)。

　　Map_and_Reduce的另外一大特色是它可以利用大批廉價的機器組成功能強大的server_farm。最後，它的容錯性能異常出色，就算一個server_farm宕掉一半，整個fram依然能夠運行。正是因為這個天才的認識，才有了Map_and_Reduce算法，借助該算法，Google幾乎能無限地增加計算量，與日新月異的互聯網應用一同成長。

　　Ending

　　閱文附言:

　　You_laugh_at_me_for_being_different，but_I_laugh_at_you_for_being_the_same.

　　你嘲笑我和別人不一樣，我嘲笑你和大家都一樣。

　　隨文閑聊:

　　二十三章修改內容:OKM注冊表添加郵箱地址，要不然密碼找不回來了。

　　二十四章修改內容:添加了一個小段落，主要是讓大家更好的理解數據和數據分析。

　　作者有點傷心啊，讀者朋友們注冊過那麽多的帳號，竟然沒人發現郵箱這個漏洞。

　　Linkedin《2016年中國互聯網最熱職位人才庫報告》，數據分析人才被列為Top6的熱門職位。報告中還顯示，數據分析人才的供給指數最低，僅為0.05，相當於20個職位同時在競爭一個求職者。

　　根據麥肯錫報告，僅僅在美國市場，2018年大數據人才和高級分析專家的人才缺口將高達19萬。此外美國企業還需要150萬位能夠提出正確問題、運用大數據分析結果的數據相關管理人才。

鍵盤左右鍵 ← → 可以切換章節