編者按:上MOOC、讀教科書(shū)、一遍又一遍地刷題……在畢業(yè)前,如果你對(duì)未來(lái)還是這樣一幅態(tài)度,那你幾乎就是在虛度光陰。雖然數(shù)據(jù)科學(xué)家是未來(lái)最“性感”的工作,但要成為“性感”的人,枯坐燈前當(dāng)個(gè)書(shū)呆子可不成……
在畢業(yè)前,也許你是個(gè)勤奮的人,一直很努力地自學(xué)教材,也會(huì)上在線(xiàn)課程充實(shí)自我,但臨近畢業(yè),現(xiàn)在的你在做些什么呢?數(shù)據(jù)科學(xué)家是一份令人望而生畏的工作,一方面,畢業(yè)生不知道自己水平是否足以勝任;另一方面,面試人員往往也很難從畢業(yè)生身上看出他們的全部實(shí)力。
但每個(gè)人都有走出象牙塔的一天,為了讓自己在社會(huì)上更有實(shí)力,你準(zhǔn)備好迎接挑戰(zhàn)了嗎?如果你的夢(mèng)想是當(dāng)一名數(shù)據(jù)科學(xué)家,下面是DataOptimal創(chuàng)始人John Sullivan給你的5項(xiàng)技能建議。實(shí)踐是進(jìn)入數(shù)據(jù)科學(xué)世界的最佳方式,而掌握熱門(mén)的必備技能將使你在職場(chǎng)上面面俱到。
1.數(shù)據(jù)清理
不要以為其他分析師會(huì)幫你處理好一切,作為一名數(shù)據(jù)科學(xué)家,如果你剛接手一個(gè)新項(xiàng)目,你可以把項(xiàng)目總用時(shí)里的80%用來(lái)做數(shù)據(jù)清理,這是科學(xué)的。無(wú)論是多高級(jí)的數(shù)據(jù)團(tuán)隊(duì),數(shù)據(jù)清理始終是從業(yè)人員心中的巨大痛點(diǎn),換個(gè)角度看,這也是你的機(jī)遇。如果你能證明自己在數(shù)據(jù)清理上面經(jīng)驗(yàn)豐富,那你的價(jià)值實(shí)現(xiàn)指日可待。
為了鍛煉這方面的能力,記得找一些混亂的數(shù)據(jù)集,多多練習(xí),多多積累。
如果你用的編程語(yǔ)言是Python,Pandas是個(gè)好庫(kù);如果是R語(yǔ)言,dplyr包也是個(gè)不錯(cuò)的選擇。換句話(huà)說(shuō),語(yǔ)言和庫(kù)只是工具,但你用它們做的事是一樣的:
導(dǎo)入數(shù)據(jù)
添加多個(gè)數(shù)據(jù)集
檢測(cè)缺失值
檢測(cè)異常值
填補(bǔ)缺失值
保證數(shù)據(jù)質(zhì)量
2.探索性數(shù)據(jù)分析
數(shù)據(jù)科學(xué)的另一個(gè)重要技能是探索性數(shù)據(jù)分析(EDA)。當(dāng)有人扔給你一份數(shù)據(jù)時(shí),你對(duì)這份數(shù)據(jù)完全陌生,又沒(méi)有足夠的業(yè)務(wù)背景,會(huì)不會(huì)感覺(jué)無(wú)從下手?如果你什么都不管,直接把數(shù)據(jù)喂給各種模型,卻發(fā)現(xiàn)效果不好,因?yàn)槟銢](méi)有好的特征,那么你可能需要的是數(shù)據(jù)探索。
EDA是對(duì)已有數(shù)據(jù)在盡可能少的假定下進(jìn)行探索,通過(guò)各種可視化方法探明數(shù)據(jù)結(jié)構(gòu)、規(guī)律的一種數(shù)據(jù)分析方法,它能讓你建立起對(duì)數(shù)據(jù)的直覺(jué)。從效果上來(lái)看,EDA允許分析師從數(shù)據(jù)中得出結(jié)論以推動(dòng)業(yè)務(wù)影響,這個(gè)影響可以是客戶(hù)群分析,也可以是季節(jié)性銷(xiāo)售趨勢(shì)。讓自己和公司獲得意料之外的驚喜,這是EDA的魅力。
對(duì)于EDA,Python用戶(hù)可以用Pandas和Matplotlib,R語(yǔ)言用戶(hù)可以用ggplot2包。一個(gè)精通EDA的人需要熟練這些技巧:
為數(shù)據(jù)分析制定問(wèn)題
表明趨勢(shì)
表明變量間的協(xié)變
用可視化結(jié)果(散點(diǎn)圖、直方圖等)有效地傳達(dá)結(jié)果
3.交互式數(shù)據(jù)可視化
交互式數(shù)據(jù)可視化包括儀表板等工具。這些工具對(duì)數(shù)據(jù)科學(xué)團(tuán)隊(duì)以及更多面向業(yè)務(wù)的終端用戶(hù)都很有用。儀表板允許數(shù)據(jù)科學(xué)團(tuán)隊(duì)進(jìn)行協(xié)作,并一起商議見(jiàn)解。更重要的是,它們?yōu)槊嫦驑I(yè)務(wù)的客戶(hù)提供了一種交互式工具,后者往往專(zhuān)注于戰(zhàn)略目標(biāo),而非技術(shù)細(xì)節(jié)。一般情況下,數(shù)據(jù)科學(xué)項(xiàng)目的最終呈現(xiàn)應(yīng)該是以?xún)x表板的形式出現(xiàn)的。
對(duì)于Python用戶(hù),Bokeh和Plotly庫(kù)非常適合創(chuàng)建儀表板。對(duì)于R用戶(hù),請(qǐng)務(wù)必查看RStudio的Shiny軟件包。無(wú)論是那種,你的儀表板上都要遵循:
包含和客戶(hù)需求相關(guān)的各項(xiàng)指標(biāo)
創(chuàng)建有用的feature
布局合理(如F-pattern可以在客戶(hù)掃視時(shí),讓他們記住大部分內(nèi)容)
切換演示文稿頻率合理
生成報(bào)告或其他自動(dòng)操作
機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的重要組成部分。當(dāng)然,這不是說(shuō)你現(xiàn)在就得開(kāi)始學(xué)習(xí)構(gòu)建復(fù)雜的深度學(xué)習(xí)模型,事實(shí)上,大多數(shù)工作都不需要你有太高的機(jī)器學(xué)習(xí)知識(shí)水平。線(xiàn)性回歸、邏輯回歸,會(huì)用這些簡(jiǎn)單算法就夠了,而且這些東西也更容易讓你的領(lǐng)導(dǎo)理解,理解是溝通的基礎(chǔ)。
如果要在這方面積累經(jīng)驗(yàn),記得做客戶(hù)留存預(yù)測(cè)、貸款預(yù)測(cè)、欺詐檢測(cè)這類(lèi)項(xiàng)目。這不是說(shuō)預(yù)測(cè)植物品種這類(lèi)問(wèn)題不好,只是前者能幫你積累更多業(yè)務(wù)常識(shí)。
如果你是Python用戶(hù),用Scikit-learn庫(kù)。對(duì)于R用戶(hù),用Caret包。同樣的,下面是必須要呈現(xiàn)的內(nèi)容:
為什么要選這個(gè)特定模型
把數(shù)據(jù)拆成訓(xùn)練集和測(cè)試集(k倍交叉驗(yàn)證),避免過(guò)擬合
選擇正確的評(píng)估指標(biāo)(AUC、adj-R2、混淆矩陣等)
調(diào)整超參數(shù)
5.溝通
溝通是所有工作的必備技能。優(yōu)秀數(shù)據(jù)科學(xué)家和普通數(shù)據(jù)科學(xué)家的區(qū)別在于前者能有效傳達(dá)結(jié)果,而后者不能。無(wú)論展示的模型有多花哨,如果你看到客戶(hù)后連嘴巴都張不開(kāi),他們又怎么會(huì)支持你的成果?PPT和筆記本電腦是溝通必備工具,你也可以用Jupyter Notebook或RMarkdown文件和客戶(hù)交流項(xiàng)目。
確保了解你的目標(biāo)聽(tīng)眾是誰(shuí),向高管們展示和向機(jī)器學(xué)習(xí)專(zhuān)家展示完全不是一碼事。一定要掌握這些技能:
了解目標(biāo)受眾
提供相關(guān)可視化
PPT不要過(guò)長(zhǎng)
PPT演示流暢
結(jié)果和業(yè)務(wù)影響緊密結(jié)合(降低成本?增加收入?)
辛辛苦苦做完項(xiàng)目后,不要把文件隨便亂丟,要養(yǎng)成收集、記錄的好習(xí)慣。你可以用Github Pages把文件免費(fèi)轉(zhuǎn)成靜態(tài)網(wǎng)頁(yè),為你的潛在雇主提供了解你的資料。
最后,只要是入了數(shù)據(jù)的門(mén),無(wú)論短時(shí)間內(nèi)崗位是不是稱(chēng)心如意,接受了這份工作就保持積極態(tài)度,繼續(xù)不斷嘗試項(xiàng)目,快樂(lè)工作,快樂(lè)找更好的工作!
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1473瀏覽量
35041 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
168瀏覽量
10489
原文標(biāo)題:想成為數(shù)據(jù)科學(xué)家?這是你必須重視5種技能
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
信息與計(jì)算科學(xué)專(zhuān)業(yè)實(shí)踐教學(xué)改革研究
PyODPS開(kāi)發(fā)中的最佳實(shí)踐
"AI+"進(jìn)入科學(xué)界:人工智能將主導(dǎo)原子世界的科學(xué)發(fā)現(xiàn)進(jìn)程
虛幻引擎的紋理最佳實(shí)踐
安捷倫LTE和WiMAX測(cè)試設(shè)備獲最佳實(shí)踐獎(jiǎng)
RE 'FLEKT獲得Frost Sullivan最佳實(shí)踐獎(jiǎng)
冰箱進(jìn)入“海爾時(shí)代” 這是海爾冰箱原創(chuàng)科技實(shí)力世界第一的最佳證明
什么是數(shù)據(jù)科學(xué)家的最佳編程語(yǔ)言?
數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)所需要的基本數(shù)學(xué)技能
部署Linux的最佳實(shí)踐探索
SAN設(shè)計(jì)和最佳實(shí)踐指南

評(píng)論