典型的大數據分析包含以下幾個步驟:
(1)明確分析目的和思路
明確數據分析目的以及確定分析思路,是確保數據分析過程有效進行的先決條件,它可以為數據的收集、處理及分析提供清晰的指引方向。
目的是整個分析流程的起點。目的不明確則會導致方向性的錯誤。即思考:為什么要開展數據分析,通過這次數據分析要解決什么問題?
當明確目的后,就要校理分析思路,并搭建分析框架,把分析目的分解成若干個不同的分析要點,即如何具體開展數據分析,需要從哪幾個角度進行分析,采用哪些分析指標。只有明確了分析目的,分析框架才能跟著確定下來,最后還要確保分析框架的體系化,使分析更具有說服力。
體系化也就是邏輯化,簡單來說就是先分析什么,后分析什么,使得各個分析點之間具有邏輯聯系。避免不知從哪方面入手以及分析的內容和指標被質疑是否合理、完整。所以體系化就是為了讓你的分析框架具有說服力。
要想使分析框架體系化,就需要一些營銷、管理等理論為指導,結合著實際的業(yè)務情況進行構建,這樣才能保證分析維度的完整性,分析結果的有效性以及正確性。比如以用戶行為理論為指導,搭建的互聯網網站分析指標框架如下:
把跟數據分析相關的營銷、管理等理論統稱為數據分析方法論。比如用戶行為理論、PEST分析法、5W2H分析法等等。
(2)數據收集
數據收集是按照確定的數據分析框架,收集相關數據的過程,它為數據分析提供了素材和依據。這里所說的數據包括第一手數據與第二手數據,第一手數據主要指可直接獲取的數據,第二手數據主要指經過加工整理后得到的數據。一般數據來源主要有以下幾種方式:
數據庫:每個公司都有自己的業(yè)務數據庫,存放從公司成立以來產生的相關業(yè)務數據。這個業(yè)務數據庫就是一個龐大的數據資源,需要有效地利用起來。
公開出版物:可以用于收集數據的公開出版物包括《中國統計年鑒》《中國社會統計年鑒》《中國人口統計年鑒》《世界經濟年鑒》《世界發(fā)展報告》等統計年鑒或報告。
互聯網:隨著互聯網的發(fā)展,網絡上發(fā)布的數據越來越多,特別是搜索引擎可以幫助我們快速找到所需要的數據,例如國家及地方統計局網站、行業(yè)組織網站、政府機構網站、傳播媒體網站、大型綜合門戶網站等上面都可能有我們需要的數據。
市場調查:進行數據分析時,需要了解用戶的想法與需求,但是通過以上三種方式獲得此類數據會比較困難,因此可以嘗試使用市場調查的方法收集用戶的想法和需求數據。
(3)數據處理
數據處理是指對收集到的數據進行加工整理,形成適合數據分析的樣式,它是數據分析前必不可少的階段。數據處理的基本目的是從大量的、雜亂無章、難以理解的數據中,抽取并推導出對解決問題有價值、有意義的數據。
數據處理主要包括數據清洗、數據轉化、數據提取、數據計算等處理方法。一般拿到手的數據都需要進行一定的處理才能用于后續(xù)的數據分析工作,即使再“干凈”’的原始數據也需要先進行一定的處理才能使用。
數據處理是數據分析的基礎。通過數據處理,將收集到的原始數據轉換為可以分析的形式,并且保證數據的一致性和有效性。
(4)數據分析
數據分析是指用適當的分析方法及工具,對處理過的數據進行分析,提取有價值的信息,形成有效結論的過程。由于數據分析多是通過軟件來完成的,這就要求數據分析師不僅要掌握各種數據分析方法,還要熟悉數據分析軟件的操作。
數據挖掘其實是一種高級的數據分析方法,就是從大量的數據中挖掘出有用的信息,它是根據用戶的特定要求,從浩如煙海的數據中找出所需的信息,以滿足用戶的特定需求。數據挖掘技術是人們長期對數據庫技術進行研究和開發(fā)的結果。一般來說,數據挖掘側重解決四類數據分析問題:分類、聚類、關聯和預測,重點在尋找模式和規(guī)律。數據分析與數據挖掘的本質是一樣的,都是從數據里面發(fā)現關于業(yè)務的知識。
(5)數據展現
一般情況下,數據是通過表格和圖形的方式來呈現的,我們常說用圖表說話就是這個意思。常用的數據圖表包括餅圖、柱形圖、條形圖、折線圖、散點圖、雷達圖等,當然可以對這些圖表進一步整理加工,使之變?yōu)槲覀兯枰膱D形,例如金字塔圖、矩陣圖、漏斗圖等。
大多數情況下,人們更愿意接受圖形這種數據展現方式,因為它能更加有效、直觀地傳遞出分析所要表達的觀點。記位,一般情況不,能用圖說明問題的就不用表格,能用表格說明問題的就不要用文字。
(6)報告撰寫
數據分析報告其實是對整個數據分析過程的一個總結與呈現。通過報告,把數據分析的起因、過程、結果及建議完整地呈現出來,供決策者參考。
一份好的數據分析報告,首先需要有一個好的分析框架,并且圖文并茂,層次明晰,能夠讓閱讀者一目了然。結構清晰、主次分明可以使閱讀者正確理解報告內容;圖文并茂,可以令數據更加生動活潑 ,提供視覺沖擊力,有助于閱讀者更形象、直觀地看清楚問題和結論,從而產生思考。
另外,數據分析報告需要有明確的結論,沒有明確結論的分析稱不上分析,同時也失去了報告的意義,因為我們最初就是為尋找或者求證一個結論才進行分析的,所以千萬不要舍本求末。
最后,好的分析報告一定要有建議或解決方案。作為決策者,需要的不僅僅是找出問題,更重要的是建議或解決方案,以便他們做決策時作參考。所以,數據分析師不僅需要掌握數據分析方法,而且還要了解和熟悉業(yè)務,這樣才能根據發(fā)現的業(yè)務問題,提出具有可行性的建議或解決方案。
(7)大數據部門的組織結構
猜你喜歡:
大數據有什么價值?研究大數據有什么意義?
大數據的兩種計算框架優(yōu)劣對比,哪個更適合開發(fā)?
大數據能干什么?淺談大數據的應用場景
沒有接觸過編程可以學大數據嗎?
傳智教育python+大數據開發(fā)課程