大數(shù)據(jù)資料庫(kù)
輸入機(jī)構(gòu)/課程/服務(wù)名稱(chēng)

新人如何學(xué)習(xí)大數(shù)據(jù)分析

2021-12-09 更新
# 大數(shù)據(jù) # IT培訓(xùn)



第一周:培養(yǎng)數(shù)據(jù)分析思維

為什么數(shù)據(jù)分析思維很重要?

如果我們?cè)诜治鲆粋€(gè)問(wèn)題前,思維缺失就像下面圖中所表達(dá)的一樣,往往不知道問(wèn)題從哪里下手,即使拿到數(shù)據(jù)也是一臉懵逼。

所以我們要通過(guò)訓(xùn)練數(shù)據(jù)分析思維,幫助在遇到問(wèn)題時(shí),大家腦中能快速梳理出分析的切入點(diǎn)以及思路,這一點(diǎn)很重要。

常用的一些思維方式:

1、金字塔/結(jié)構(gòu)化思維



把待分析問(wèn)題按不同方向去分類(lèi),然后不斷拆分細(xì)化,能全方位的思考問(wèn)題,一般是先把所有能想到的一些論點(diǎn)先寫(xiě)出來(lái),然后在進(jìn)行整理歸納成金字塔模型。主要通過(guò)思維導(dǎo)圖來(lái)寫(xiě)我們的分析思維。

2、公式化思維

在結(jié)構(gòu)化的基礎(chǔ)上,這些論點(diǎn)往往會(huì)存在一些數(shù)量關(guān)系,使其能進(jìn)行+、-、×、÷的計(jì)算,將這些論點(diǎn)進(jìn)行量化分析,從而驗(yàn)證論點(diǎn)。

所謂指標(biāo)體系,就是這么梳理得來(lái)的。

3、業(yè)務(wù)化思維

業(yè)務(wù)化即是深入了解業(yè)務(wù)情況,結(jié)合該項(xiàng)目的具體業(yè)務(wù)進(jìn)行分析,并且能讓分析結(jié)果進(jìn)行落地執(zhí)行。用結(jié)構(gòu)化思考+公式化拆解得出的最終分析論點(diǎn)再很多時(shí)候表示的是一種現(xiàn)象,不能體現(xiàn)產(chǎn)生結(jié)果的原因。所以需要繼續(xù)去用業(yè)務(wù)思維去思考,站在業(yè)務(wù)人員或分析對(duì)象的角度思考問(wèn)題,深究出現(xiàn)這種現(xiàn)象的原因或者通過(guò)數(shù)據(jù)推動(dòng)業(yè)務(wù)。

增加業(yè)務(wù)思維方法:貼近業(yè)務(wù),換位思考,積累經(jīng)驗(yàn)。

同時(shí),這樣的思維模式在一些特定業(yè)務(wù)場(chǎng)景下,還衍生出一些基礎(chǔ)的分析方法,比如象限法、多維法、假設(shè)法、指數(shù)法、二八法、對(duì)比法、漏斗法,這個(gè)對(duì)未來(lái)構(gòu)建分析模型都有幫助。

思維模型的好處是他能提供一種視角或思維框架,從而幫助你建立起觀察事物和分析問(wèn)題的視角。通過(guò)對(duì)思維模型的學(xué)習(xí)和訓(xùn)練,能提高你成功的可能性。


第二周:Excel技能進(jìn)階

學(xué)習(xí)Excel是一個(gè)循序漸進(jìn)的過(guò)程

基礎(chǔ)的:簡(jiǎn)單的表格數(shù)據(jù)處理、篩選、排序

函數(shù)和公式:常用函數(shù)、高級(jí)數(shù)據(jù)計(jì)算、數(shù)組公式、多維引用、function

可視化圖表:圖形圖示展示、高級(jí)圖表、圖表插件

數(shù)據(jù)透視表、VBA程序開(kāi)發(fā)……
按照我習(xí)慣的方法,先過(guò)一遍基礎(chǔ),知道什么是什么,然后找?guī)讉€(gè)case練習(xí)。多逛逛excelhome論壇,平常多思考如何用excel來(lái)解決問(wèn)題,善用插件。

函數(shù)和數(shù)據(jù)透視表是兩個(gè)重點(diǎn),結(jié)合業(yè)務(wù)場(chǎng)景來(lái)學(xué)習(xí),可參考《誰(shuí)說(shuō)菜鳥(niǎo)不會(huì)數(shù)據(jù)分析》。


第三周:學(xué)習(xí)數(shù)據(jù)庫(kù)原理和SQL

做數(shù)據(jù)分析,數(shù)據(jù)從哪里來(lái)?數(shù)據(jù)庫(kù)!

怎么取數(shù)據(jù)?寫(xiě)SQL!

做數(shù)據(jù)分析,取數(shù)、清洗數(shù)據(jù),基本都要依賴(lài)SQL。

初入門(mén)階段,對(duì)于數(shù)據(jù)庫(kù)不必精通,只需了解常用的數(shù)據(jù)庫(kù)類(lèi)型,能夠在現(xiàn)有的表格里面查詢(xún)出數(shù)據(jù),能夠更新數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行重編碼,知道怎么增加添加數(shù)據(jù),把數(shù)據(jù)變得規(guī)整就行。

理解主鍵,索引等含義和用處;導(dǎo)入導(dǎo)出數(shù)據(jù)可以使用工具,分析數(shù)據(jù)可以使用ODBC或者其他的接口對(duì)數(shù)據(jù)庫(kù)進(jìn)行連接。

取數(shù)的排序,做數(shù)據(jù)的交集并集,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)表合并等這些,*好也能掌握。

SQL的學(xué)習(xí),看這個(gè)就夠了:SQL教程_w3cschool

這里總結(jié)了幾個(gè)核心技能:

引自:數(shù)據(jù)分析人員如何快速入門(mén)SQL-SQL學(xué)習(xí)感悟(一) - Ash_Zhang的技術(shù)小屋

技能一:學(xué)會(huì)用select語(yǔ)句添加字段和找出需要的數(shù)據(jù)

直接給一個(gè)隨時(shí)可以套用的萬(wàn)金油模板吧:

select cola,colb,colc into newtable from oldtable wherecola='x' and colb is not null;
基本上,學(xué)會(huì)這個(gè)就可以完全的查出大部分的數(shù)據(jù)了。

select后面是一個(gè)個(gè)的字段,要哪個(gè)選哪個(gè)。有into意味著放到一張新表里面,沒(méi)有就是查詢(xún)出來(lái)。where之后的就是我們的條件,等于某個(gè)值,或者是不是空值,是*常用的幾種查詢(xún)方式吧。

還有一種select也用的非常多:select cola from oldtable group by cola;

這個(gè)語(yǔ)句是看看cola有多少種值的可能性。

select進(jìn)階學(xué)習(xí),可能要講講join,union,以及多個(gè)查詢(xún)組合成的嵌套查詢(xún),或者是子查詢(xún)的模式,以及模糊查詢(xún)。這個(gè)后面我會(huì)再花篇幅寫(xiě)出來(lái)給大家參考。

技能二:學(xué)會(huì)alter學(xué)會(huì)增加,減少字段

alter可以做的事情很多,增加字段,減少字段,增加主鍵減少主鍵等等,非常常用。

1. 增加字段:alter table tablename add colname varchar;

這樣就可以增加一個(gè)空字段,varchar是一種數(shù)據(jù)類(lèi)型。

2. 減少字段:alter table tablename drop column colname;

這樣就去掉了一個(gè)原有的字段。

技能三:學(xué)會(huì)update學(xué)會(huì)更新數(shù)據(jù)更新數(shù)據(jù)

大概常用的有兩種,一種是更新成一個(gè)固定值:

update table set col=1;

另一種是從另一張表里面更新,這種方法,在處理一些小型數(shù)據(jù)的時(shí)候經(jīng)常會(huì)導(dǎo)出,然后導(dǎo)入到數(shù)據(jù)庫(kù),就可以用:

update table set col=tableb.col from tableb where table.id=tableb.id;

里面table和tableb是兩張表,然后通過(guò)兩張表的id關(guān)聯(lián)起來(lái),學(xué)會(huì)這個(gè)書(shū)寫(xiě)結(jié)構(gòu)就行。


第四周:數(shù)理統(tǒng)計(jì)學(xué)

統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析師必備的基礎(chǔ)知識(shí)之一,是一組用于匯總數(shù)據(jù)和量化給定觀測(cè)樣本域?qū)傩缘墓ぞ摺?/p>

單獨(dú)的原始觀察數(shù)據(jù)只是數(shù)據(jù),還不能變?yōu)槲覀兿胍男畔⒒蛑R(shí)。有了原始數(shù)據(jù),那么接下來(lái)的問(wèn)題是:

什么是*常見(jiàn)或可預(yù)期的觀測(cè)?

觀測(cè)的限制條件是什么?

數(shù)據(jù)是什么樣子的?

回答這些問(wèn)題,我們需要借助一些統(tǒng)計(jì)工具來(lái)得出一些結(jié)論。借助統(tǒng)計(jì)學(xué),你的分析深度、專(zhuān)業(yè)度和科學(xué)性都會(huì)有很大提升。

所以這一周,我們需要掌握統(tǒng)計(jì)學(xué)的以下幾大概念:

1.集中趨勢(shì)(中數(shù)、眾數(shù)、平均數(shù))
2.變異(四分位數(shù)、四分位距、異常值、方差)
3.歸一化(標(biāo)準(zhǔn)分?jǐn)?shù))
4.正態(tài)分布
5.抽樣分布(中心極限、抽樣分布)
6.估計(jì)(置性度、置信區(qū)間)
7.假設(shè)檢驗(yàn)
8.T檢驗(yàn)

推薦書(shū)籍:吳喜之-《統(tǒng)計(jì)學(xué)·從數(shù)據(jù)到結(jié)論》


第五周:數(shù)據(jù)分析軟件應(yīng)用

有了數(shù)據(jù)分析思維基礎(chǔ),懂一些統(tǒng)計(jì)學(xué)知識(shí)之后,我們就可以著手開(kāi)始相對(duì)專(zhuān)業(yè)的分析,用可視化的方法探索數(shù)據(jù)的規(guī)律。

這一周,除了Excel,你需要掌握一個(gè)傍身的數(shù)據(jù)分析工具。

考慮到快速入門(mén),這里暫時(shí)放一放SPSS、R、Python一類(lèi)工具,先掌握BI工具的運(yùn)用,幫助快速熟悉起數(shù)據(jù)分析的流程。知名的BI產(chǎn)品有Tableau,Power BI,還有國(guó)內(nèi)的FineBI,網(wǎng)上都有體驗(yàn)版和免費(fèi)版下載。處理好的數(shù)據(jù)拿來(lái)放BI分析,分分鐘就能出很漂亮的可視化,比Excel的圖表高級(jí)多了,而且絕大多數(shù)人都能輕松上手。

BI需要掌握數(shù)據(jù)的連接,連不上數(shù)據(jù)怎么分析。還有儀表盤(pán)Dashboard的概念,知道絕大多數(shù)圖表適用的場(chǎng)景和怎么繪制,維度和指標(biāo)的區(qū)分。

至于一些數(shù)據(jù)的清洗,如果BI掌握得透徹也可以放BI處理,但不熟悉還是用SQL處理吧。


第六周:數(shù)據(jù)可視化

可視化看似是簡(jiǎn)單的步驟,但也是有造詣的??梢暬f(shuō)白了是一種表達(dá),數(shù)據(jù)分析結(jié)果表達(dá)的是否到位,領(lǐng)導(dǎo)是否認(rèn)同,工資漲不漲,全靠這一紙dashboard(當(dāng)然還有你“講故事”的功力)。

如何選擇*佳的圖表類(lèi)型?趨勢(shì)性、相關(guān)性、分布性、周期性、布性……

顏色和字體等細(xì)節(jié)樣式方面,如何進(jìn)行更加美觀的調(diào)配?

布局設(shè)計(jì)原則,故事性布置可視化儀表板,報(bào)告的標(biāo)題和結(jié)論注釋?zhuān)约罢w展現(xiàn)的邏輯性。
還有很多可視化的陷阱,都是值得花一周探究的。


第七周:常見(jiàn)的業(yè)務(wù)分析模型

基于一些數(shù)據(jù)分析方法,如象限法、多維法、假設(shè)法、指數(shù)法、二八法、對(duì)比法、漏斗法,在特定業(yè)務(wù)場(chǎng)景下,還衍生了通用的業(yè)務(wù)分析模型,常用的有購(gòu)物籃分析模型,RFM模型,漏斗分析模型,客戶(hù)生命周期,以及預(yù)測(cè)、聚類(lèi)分析等挖掘模型。

這一周我們要掌握常用的分析模型,*好能有深刻的認(rèn)識(shí),直接套用到實(shí)際的業(yè)務(wù)場(chǎng)景中,活學(xué)活用。


第八周:Python/R語(yǔ)言掌握

到這一周,數(shù)據(jù)分析的入門(mén)之路基本上完成一大半。

本著提升自己,以及加大自己求職和面試的籌碼,掌握Python或R是加分項(xiàng)。

有關(guān)數(shù)據(jù)分析的編程語(yǔ)言有Python和R語(yǔ)言。R語(yǔ)言?xún)A向于統(tǒng)計(jì)分析、繪圖等。統(tǒng)計(jì)學(xué)家或者學(xué)統(tǒng)計(jì)學(xué)的喜歡用R語(yǔ)言,而我更青睞學(xué)習(xí)Python,因?yàn)镻ython是面向未來(lái)的語(yǔ)言,無(wú)論從流行度、可用性還是學(xué)習(xí)難度來(lái)講,Python都是*好的入門(mén)語(yǔ)言。

當(dāng)然,如果可以的話(huà),再掌握一下R語(yǔ)言是*好不過(guò)的,技多不壓身嘛。

Python有很多分支,但我們學(xué)習(xí)的主題是數(shù)據(jù)分析,入門(mén)推薦《深入淺出Python編程》
從code academy開(kāi)始學(xué)起,完成上面的所有練習(xí)。Code academy涵蓋了Python基本概念。當(dāng)完成了code academy練習(xí)之后,看看這個(gè)Ipython notebook:

其次,掌握三個(gè)庫(kù)Numpy、Pandas、Matplotlib

Numpy是利用Python科學(xué)計(jì)算的基礎(chǔ)包,對(duì)Numpy好的掌握將會(huì)幫助你有效地使用其他工具例如Pandas。包括N維數(shù)組,索引,數(shù)組切片,整數(shù)索引,數(shù)組轉(zhuǎn)換,通用函數(shù),使用數(shù)組處理數(shù)據(jù),常用的統(tǒng)計(jì)方法等等。

Numpy Basics Tutorial,Index Numpy 遇到Numpy陌生函數(shù),查詢(xún)用法,推薦!

Pandas包含了高級(jí)的數(shù)據(jù)結(jié)構(gòu)和操作工具,能使得Python數(shù)據(jù)分析更加快速和容易。包含series, data frams,從一個(gè)axis刪除數(shù)據(jù),缺失數(shù)據(jù)處理等等。

Pandas Basics Tutorial,Index Pandas 遇到陌生函數(shù),查詢(xún)用法,推薦!

Matplotlib是一個(gè)強(qiáng)大的Python可視化庫(kù)。幾行代碼就能繪制出散點(diǎn)圖、折線圖、直方圖、柱狀圖、箱線圖等。


第九周:業(yè)務(wù)理解和指標(biāo)設(shè)計(jì)

到了第九周,大家可以發(fā)現(xiàn),這個(gè)學(xué)習(xí)計(jì)劃更多是偏業(yè)務(wù)的數(shù)據(jù)分析,可見(jiàn)業(yè)務(wù)理解的重要性。但業(yè)務(wù)理解需要多年的積累,沒(méi)有掌握的捷徑。剛?cè)腴T(mén)也不會(huì)拷問(wèn)太多業(yè)務(wù)上的問(wèn)題,更多時(shí)候是考驗(yàn)?zāi)氵壿嬎季S能力和數(shù)據(jù)分析的方法。所以簡(jiǎn)單花一周時(shí)間了解各行業(yè)的業(yè)態(tài)和各業(yè)務(wù)的通用指標(biāo)。

其次,指標(biāo)體系。幾乎一個(gè)數(shù)據(jù)崗的崗位要求都會(huì)涉及這樣一句話(huà):“負(fù)責(zé)建立和優(yōu)化部門(mén)的數(shù)據(jù)指標(biāo)體系”。事實(shí)上目前大多的數(shù)據(jù)崗主要工作都是不斷完善與優(yōu)化數(shù)據(jù)指標(biāo)體系,而對(duì)層面的工作是比較少的,即使崗位叫做數(shù)據(jù)分析師 。一個(gè)優(yōu)秀的數(shù)據(jù)指標(biāo)體系,不僅能讓你快速解決數(shù)據(jù)需求,洞察出可能會(huì)被忽略的價(jià)值數(shù)據(jù),還能反映出你目前*需解決的業(yè)務(wù)問(wèn)題。所以,這一周還要掌握梳理業(yè)務(wù)指標(biāo)的思路。


*文章內(nèi)容和圖片均來(lái)源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系刪除。

查看剩余內(nèi)容
loading
Hi,我是教育寶平臺(tái)顧問(wèn) 添加我的微信,在查找或下載資料時(shí),有任何問(wèn)題,我會(huì)隨時(shí)為您解決~
loading
掃描二維碼 添加顧問(wèn)微信

點(diǎn)贊

收藏

資深學(xué)習(xí)規(guī)劃師,免費(fèi)幫您答疑解惑,定制學(xué)習(xí)方案
限時(shí)免費(fèi)咨詢(xún)
喜歡此內(nèi)容的人還喜歡
  1. 本文基于教育寶平臺(tái)175家全國(guó)大數(shù)據(jù)培訓(xùn)機(jī)構(gòu)信息整理分析,其中,機(jī)構(gòu)主要集中的城市是:北京(9家)、西安(7家)、上海(6家)、武漢(6家)、大連(5家)、深圳(5家);機(jī)構(gòu)主要集中的細(xì)分領(lǐng)域是:大數(shù)據(jù)分析培訓(xùn)(95家)、大數(shù)據(jù)挖掘培訓(xùn)(91家)、Hadoop認(rèn)證培訓(xùn)(49家)。
    攻略
    #大數(shù)據(jù)
  2. 速覽:本次盤(pán)點(diǎn)總計(jì)8家北京大數(shù)據(jù)培訓(xùn)機(jī)構(gòu),品牌名稱(chēng)包括北京C
    攻略
    #大數(shù)據(jù)
  3. 速覽:本次盤(pán)點(diǎn)總計(jì)5家上海大數(shù)據(jù)培訓(xùn)機(jī)構(gòu),分別為上海博為峰、
    攻略
    #大數(shù)據(jù)
  4. 大數(shù)據(jù)分析處理平臺(tái)是結(jié)合當(dāng)前主流的大數(shù)據(jù)處理分析框架和工具
    攻略
    # IT培訓(xùn) # 大數(shù)據(jù)
  5. 現(xiàn)在大家都在討論大數(shù)據(jù)前景如何好,大數(shù)據(jù)就業(yè)機(jī)會(huì)如何多
    就業(yè)
    # IT培訓(xùn) # 大數(shù)據(jù)
  6. 大數(shù)據(jù)(big data),IT行業(yè)術(shù)語(yǔ)
    科普
    # IT培訓(xùn) # 大數(shù)據(jù)
教育寶IT技術(shù)頻道
教育寶致力于打造中國(guó)最專(zhuān)業(yè)的IT技術(shù)學(xué)習(xí)平臺(tái),為IT技術(shù)學(xué)員、教育機(jī)構(gòu)、從業(yè)者和上下游搭建連接、互動(dòng)、交流和賦能平臺(tái)。