一年一度的秋招已經(jīng)打響了發(fā)令槍,從去年的薪酬排行來看,算法工程師和數(shù)據(jù)分析等工作排在前列,很多相關(guān)專業(yè)的學(xué)生一直在自學(xué)一些網(wǎng)絡(luò)上的公開課并閱讀一些專業(yè)書籍,比如“西瓜書”、“花書”等,如果你現(xiàn)在仍然什么也沒有準(zhǔn)備的話,然而還想從事數(shù)據(jù)科學(xué)領(lǐng)域這個(gè)似乎令人望而生畏的工作話,現(xiàn)在就要抓緊補(bǔ)補(bǔ)相關(guān)的知識了。在這里要提示一點(diǎn),自我完善的知識不要局限于數(shù)據(jù)分析相關(guān)的知識,還要額外補(bǔ)充下相關(guān)領(lǐng)域的知識。另外,簡歷上展示個(gè)人技能的最佳方式是使用技能組合的形式,這樣能讓雇主相信你可以使用你已經(jīng)學(xué)習(xí)的技能。為了展示這些技能,以下是你應(yīng)該著重補(bǔ)充的5種數(shù)據(jù)科學(xué)項(xiàng)目組合類型:
1.數(shù)據(jù)清理
數(shù)據(jù)科學(xué)家預(yù)計(jì)在一個(gè)新項(xiàng)目的清理數(shù)據(jù)處理上花費(fèi)多達(dá)80%的時(shí)間,這對于團(tuán)隊(duì)來說是一個(gè)巨大的代價(jià)。如果你可以證明你在數(shù)據(jù)清理方面經(jīng)驗(yàn)豐富,那么你將立即變得更有價(jià)值。練習(xí)這項(xiàng)能力的方法是創(chuàng)建一個(gè)數(shù)據(jù)清理項(xiàng)目,找到一些混亂的數(shù)據(jù)集并開始進(jìn)行清理。
如果你使用Python語言進(jìn)行編程,那么Pandas是一個(gè)很好用的庫,如果你使用R語言編程,那么你可以使用dplyr數(shù)據(jù)包。你實(shí)踐的數(shù)據(jù)清洗項(xiàng)目應(yīng)該確保展示以下技能:
導(dǎo)入數(shù)據(jù)
加入多個(gè)數(shù)據(jù)集
檢測缺失值
檢測異常
輸入缺失的值
數(shù)據(jù)質(zhì)量保證
2.探索性數(shù)據(jù)分析
數(shù)據(jù)科學(xué)的另一個(gè)重要方面是探索性數(shù)據(jù)分析(EDA),這是一個(gè)生成問題并用可視化方法對其進(jìn)行調(diào)查的過程。 EDA允許分析人員從數(shù)據(jù)中得出結(jié)論來推動業(yè)務(wù)影響,它可能包括基于客戶細(xì)分的有趣洞察,或基于季節(jié)效應(yīng)的銷售趨勢。通常你可以通過探索性數(shù)據(jù)分析來得到一些有趣的發(fā)現(xiàn)。
用于探索性分析的一些有用的Python庫有Pandas和Matplotlib。對于R用戶而言,ggplot2軟件包將會很有用。你實(shí)踐的EDA項(xiàng)目應(yīng)該顯示以下技能:
能夠制定相關(guān)的調(diào)查問題
識別趨勢
識別變量之間的協(xié)變
使用可視化有效地傳達(dá)結(jié)果(散點(diǎn)圖,直方圖,餅圖等)
3.交互式數(shù)據(jù)可視化
交互式數(shù)據(jù)可視化包括諸如儀表板之類的工具,這些工具對于數(shù)據(jù)科學(xué)團(tuán)隊(duì)以及更多面向業(yè)務(wù)的最終用戶都是很有用的。儀表盤允許數(shù)據(jù)科學(xué)團(tuán)隊(duì)進(jìn)行協(xié)作并共同繪制見解。更重要的是,它們?yōu)槊嫦蛏虡I(yè)的客戶提供了交互式工具,這些人專注于戰(zhàn)略目標(biāo)而不是技術(shù)細(xì)節(jié)。數(shù)據(jù)科學(xué)項(xiàng)目的交付成果往往以儀表板的形式出現(xiàn)。
對于Python用戶而言,Bokeh和Plotly庫是非常適合用來創(chuàng)建儀表板的。而對于R用戶,可以使用RStudio的Shiny軟件包。你實(shí)踐的儀表板項(xiàng)目應(yīng)該強(qiáng)調(diào)這些重要技能:
包括與客戶需求相關(guān)的指標(biāo)
創(chuàng)建有用的功能邏輯布局(易于掃描的“F模式”)
創(chuàng)建最佳刷新率
生成報(bào)告或其他自動操作
4.機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)項(xiàng)目是數(shù)據(jù)科學(xué)產(chǎn)品組合的另一個(gè)重要組成部分?,F(xiàn)在,在開始進(jìn)行一些深度學(xué)習(xí)項(xiàng)目之前,請保持耐心。不要一開始就構(gòu)建復(fù)雜的機(jī)器學(xué)習(xí)模型,而要堅(jiān)持從基礎(chǔ)知識開始學(xué)起。線性回歸和邏輯回歸是很好的開始,這些模型更容易解釋并能清晰地與上層管理人員溝通。此外,我還建議專注于具有業(yè)務(wù)影響的項(xiàng)目,例如預(yù)測客戶流失,欺詐檢測或貸款違約等,這些比預(yù)測花型更實(shí)用。
如果你是Python用戶,請使用Scikit-Learn學(xué)習(xí)庫。而對于R用戶,請使用Caret軟件包。你實(shí)踐的機(jī)器學(xué)習(xí)項(xiàng)目應(yīng)該傳達(dá)以下技能:
選擇使用某個(gè)具體機(jī)器學(xué)習(xí)模型的原因
將數(shù)據(jù)分成訓(xùn)練/測試集(k-fold交叉驗(yàn)證)以避免過度擬合
選擇正確的評估指標(biāo)(AUC、adj-R ^ 2、混淆矩陣等)
特征工程和選擇
超參數(shù)調(diào)整
5.溝通
溝通是數(shù)據(jù)科學(xué)的一個(gè)重要方面,對于工科人員而言這點(diǎn)尤其欠缺。能夠有效地傳達(dá)結(jié)果是區(qū)分優(yōu)秀的數(shù)據(jù)科學(xué)家與偉大的數(shù)據(jù)科學(xué)家的重要衡量標(biāo)準(zhǔn)之一。無論你的模型多么華麗,如果你不能向隊(duì)友或顧客解釋它,你都不會得到他們的支持,就如同對牛彈琴一般?;脽羝蚇otebook都是很好的溝通工具,可以將你的機(jī)器學(xué)習(xí)項(xiàng)目按照項(xiàng)目過程以PPT的形式展示,也可以使用Jupyter Notebook或RMarkdown文件進(jìn)行溝通。
確保了解你的目標(biāo)受眾是誰,向高管呈現(xiàn)的內(nèi)容與向機(jī)器學(xué)習(xí)專家呈現(xiàn)的內(nèi)容二者是完全不同的。確保具備這些技能:
了解目標(biāo)受眾
提供相關(guān)的可視化
幻燈片不要寫太多的內(nèi)容
確保演示文稿流暢
將結(jié)果與業(yè)務(wù)影響聯(lián)系起來(降低成本,增加收入)
確保在Jupyter筆記本或RMarkdown文件中記錄自己的項(xiàng)目。然后,也可以使用Github 免費(fèi)將這些Markdown文件轉(zhuǎn)換為靜態(tài)網(wǎng)站。這是向潛在雇主展示個(gè)人技能組合的好方法,即GitHub主頁或CSDN博客等。
最后,在求職的道路上請保持積極的態(tài)度,作為應(yīng)屆生,不要被一次次面試、筆試所擾亂心態(tài),請保持繼續(xù)補(bǔ)充知識、練習(xí)項(xiàng)目并參加一些競賽等。不要慌張,秋招過去,還有春招,春招過去還有社招,只要你一直努力提升自己,相信最終會有好的結(jié)果等著你,希望你能夠快樂求職,并且在數(shù)據(jù)科學(xué)領(lǐng)域工作順心。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7256瀏覽量
91820 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8501瀏覽量
134582 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1472瀏覽量
35028
發(fā)布評論請先 登錄
想要從事單片機(jī)行業(yè)!
5月份Github上最熱門的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)項(xiàng)目榜單概述
Windows -編程-數(shù)據(jù)類型
三種類型的軸承數(shù)據(jù)
WEBRTC有哪幾種類型
想要從事嵌入式開發(fā)需要掌握哪些技能呢?
嵌入式軟件工程師需要掌握哪些專業(yè)技能?
WEBRTC有哪幾種類型
HDMI常見的5種類型
人工智能需要哪些知識
常見的socket三種類型
C語言如何掌握強(qiáng)制類型轉(zhuǎn)換的精髓

評論