一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Kaggle大師訪談:他是怎么馳騁機器學習競賽的

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-11-16 09:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:早在90年代中期,國外一些論壇上就出現(xiàn)了一種另類訪談活動:Ask Me Anything(AMA)。發(fā)起AMA后,任何網(wǎng)友都能在留言中寫出自己想要對方回答的一個問題,之后接受采訪的對象會視情況作出解答。近日,Reddit、Kaggle和science.d3.ru三個論壇的網(wǎng)友對獲得Kaggle Grandmaster頭銜的Lyft計算機視覺工程師Vladimir Iglovikov發(fā)起了AMA,讓我們一起去探尋他是怎么馳騁機器學習競賽的。

Vladimir Iglovikov

大家好,我是Vladimir Iglovikov。

自從在大學拿到理論物理學的學位后,我就輾轉(zhuǎn)到硅谷想成為一名數(shù)據(jù)科學家。我現(xiàn)在任職于Lyft的自動駕駛汽車部門,主要從事計算機視覺方面的相關(guān)應(yīng)用。

在過去的幾年里,我在機器學習競賽中投入了大量時間。一方面,它非常有趣;另一方面,它也是提高個人數(shù)據(jù)科學水平的一種非常有效的方式。我不會說所有競賽都很簡單,也不會吹噓自己在所有競賽里都取得了不錯的成績。但有時候我也能觸及巔峰,這是我最終能得到“Kaggle Grandmaster”這個頭銜的原因。

在這里,我想感謝@Lasteg發(fā)起了這個AMA,并收集了Reddit、Kaggle和science.d3.ru(俄語)上的提問。大家的問題有很多,在下面,我會選擇性地盡力做一些回答。

以下是我(本人和團隊)曾參與過的一些名次還不錯的深度學習競賽:

第10名:Ultrasound Nerve Segmentation(超聲神經(jīng)分割)

第3名:Dstl Satellite Imagery Feature Detection(Dstl衛(wèi)星圖像特征檢測)

第2名:Safe passage: Detecting and classifying vehicles in aerial imagery(安全通道:航空影像中的車輛檢測與分類)

第7名:Kaggle: Planet: Understanding the Amazon from Space(Planet:從太空了解亞馬遜

第1名:MICCAI 2017: Gastrointestinal Image ANAlysis (GIANA)(胃腸內(nèi)窺鏡圖像分析)

第1名:MICCAI 2017: Robotic Instrument Segmentation(內(nèi)窺鏡視野內(nèi)機器人儀器分割)

第1名:Kaggle: Carvana Image Masking Challenge(自動識別圖像中汽車的邊界)

第9名:Kaggle: IEEE’s Signal Processing Society?—?Camera Model Identification(IEEE信號處理學會 - 相機模型識別)

第2名:CVPR 2018 Deepglobe. Road Extraction(道路提取)

第2名:CVPR 2018 Deepglobe. Building Detection(建筑提?。?/p>

第3名:CVPR 2018 Deepglobe. Land Cover Classification(土地覆被提?。?/p>

第3名:MICCAI 2018: Gastrointestinal Image ANAlysis (GIANA)(胃腸內(nèi)窺鏡圖像分析)

問:除了數(shù)據(jù),你有其他的生活嗎?

是的,我有。

我喜歡當背包客和攀巖。如果你早晨也去舊金山的Mission Cliffs室內(nèi)攀巖館攀巖,下次見面時我們可以打個招呼。我也喜歡和人一起跳舞伴舞,特別是Blues Fusion舞曲,我經(jīng)常光顧舊金山的Mission Fusion和South Bay Fusion。

旅游也是我生活中很重要的一部分。今年春天,我去了白俄羅斯、摩洛哥和約旦。9月,我又在芬蘭、德國和奧地利度過了三個星期。當然,今年最好的體驗還是黑石城的2018火人節(jié)。

問:你的身高和體重是多少?

6英尺(1米8),185磅(84公斤)。

我覺得這個問題的答案可能和鍛煉有關(guān),下面是我在校期間的一些力量舉重數(shù)據(jù):

最大臥推:225磅

最大深蹲:315磅

最大硬拉:405磅

問:你是怎么做到既擁有全職工作,又全天候參加Kaggle競賽的?

在我眼里,參加Kaggle競賽就是我的第二份全職工作(無償),這么做的理由很充分——Kaggle上的活躍用戶通常都在尋求轉(zhuǎn)變,我也不例外。當我從學術(shù)界轉(zhuǎn)向工業(yè)界時,我就開始參加競賽。我需要一種有效的方法來測試ML算法是否適合解決一些潛在問題,需要用它來提升自己的工具使用熟練度,需要把我的思維方式擴展到機器學習的新世界。

后來,當我在Bidgely找到第一份工作后,我更加注重Kaggle競賽的參與。那時我白天在做信號處理任務(wù),晚上則徹夜沉迷在表格數(shù)據(jù)的競爭中。我其實沒有很好地平衡工作和生活,但每分每秒獲得知識量告訴我:這么做是值得的。

等到某個時間點,我知道自己已經(jīng)準備好迎接新階段了,我就跳槽到了TrueAccord,在那里,我可以做很多傳統(tǒng)機器學習工作。但停止參加Kaggle還是不明智的。于是我把白天用來做傳統(tǒng)機器學習,把夜間和周末用來做深度學習,工作與生活的平衡更糟糕了。盡管如此,我還是學到了很多東西,也順勢成了Kaggle Master。當我能在Lyft獲得一份Level5的工作時,所有努力都得到了回報——對于深度學習而言,自動駕駛是一個非常重要的應(yīng)用領(lǐng)域。

最后,現(xiàn)在的我并沒有全天候參加Kaggle競賽,但我還在努力學習。我的工作中有許多令人興奮的計算機視覺問題,我正試圖在Kaggle未涵蓋的領(lǐng)域獲得更多知識。當然,我還是會向各種競賽提交自己的作品,但這主要是為了更好地理解參與者面臨的問題和挑戰(zhàn)。只有理解參賽者,我才能更深刻地從論壇分享的信息中汲取經(jīng)驗。

問:你覺得哪些日常安排可以幫你提升效率?你是怎么安排自己的一天的?

首先,我不確定自己是不是很有效率。:)我一直在尋找一種新的方法來優(yōu)化我的日程。

在日常生活中,一個人需要做的事總比他想做的事多得多,而且它們還不一定是有用的、令人愉快的。這意味著我總要先考慮該做什么。有幾本書對這個問題進行了很好的討論,這里我把它們推薦給想提高自己效率的人:

So Good They Can’t Ignore You: Why Skills Trump Passion in the Quest for Work You Love

Deep Work: Rules for Focused Success in a Distracted World

在工作日,我會在早上6點起床,然后去攀巖館攀巖,這有助于我保持身材和清醒頭腦。攀完巖我就開車去上班。公司的自動駕駛工程中心在Palo Alto,這讓喜歡住在城里的我有點憂傷。開車很有趣,但通勤很無聊。為了更有成效地度過通勤時間,我會在車上聽有聲讀物。這不是說我在上下班途中可以專注于閱讀,這些讀物往往包含有用的非技術(shù)技能和商業(yè)導(dǎo)向,非常適合開車時聽。

我也很想在工作和生活之間保持平衡,但目前還沒做到這點——盡管我還是會花很多時間和朋友聚會或參加其他活動,不過幸好它們中的大多數(shù)是在舊金山舉行的。與此同時,我還需要學習,需要保持在機器學習領(lǐng)域的競爭力。這不僅涉及我在辦公室的前途,也影響著更長遠的東西。所以我會在晚上花些時間閱讀技術(shù)論文,編寫競賽、業(yè)余項目和開源項目的代碼。

談到開源項目,我想借此機會推廣一個圖像增強庫。這是我和Alexander Buslaev、Alex Parinov、Eugene Khvedchenia從計算機視覺挑戰(zhàn)工作中總結(jié)出來的。

最后,為了回答這個問題,我想我還是得提供一些具體的技巧:

比起MacBook,我更喜歡Ubuntu + i3——個人表現(xiàn)加成10%。

我不常用Jupyter Notebook,只會在做EDA和可視化時偶爾用用。模型的幾乎所有代碼都是我自己編寫的,寫代碼工具是PyCharm,檢查代碼的工具是flake8,完成后再把代碼托管到GitHub上。很多機器學習問題其實很相似,所以投資一個沒有太多重復(fù)內(nèi)容、更優(yōu)質(zhì)的代碼庫會有助于加快項目進度,讓你贏在起點。

我會盡量手動編寫單元測試。很多人都認可單元測試在數(shù)據(jù)科學中的重要性,但并不是每個人都會花時間來編寫它們。關(guān)于這方面的內(nèi)容,Alex Parinov寫了一篇很好的文檔,詳細介紹了從簡單到復(fù)雜的入門方法。如果你準備參加Kaggle競賽,你可以先參考他的做法,在管道里添加更多測試。

目前我正在嘗試用DVC進行模型的版本控制,我希望這能讓模型管道和代碼更具重復(fù)利用性。

我會避免過多地使用鼠標,有時候,這也意味著我得把設(shè)置好的熱鍵寫在紙上,把紙放在面前,然后盡可能多地使用它們。

我不用社交網(wǎng)絡(luò)。

我每天只會查看幾次電子郵件。

每天早上,我都會用Trello為自己創(chuàng)建這一天里可以完成的任務(wù)列表,然后嘗試去完成它們。

我會避免讓自己的一天過于碎片化,因為許多任務(wù)需要專注投入,過于頻繁地轉(zhuǎn)換焦點沒有益處。

這些建議都很常規(guī),但我實在想不起來自己有什么“獨門”技巧:)

問:你是怎么追趕當前領(lǐng)域的技術(shù)前沿的?

我并不覺得自己趕上了前沿。如今機器學習領(lǐng)域正值蓬勃發(fā)展,我們有讀不盡的論文、競賽、博客文章和書籍。每當我遇到一個新問題,我就會專注于查看它的最新進展并進行深入研究。讀懂解答后,我就會切換到下一個。因此,我在自己沒有上手經(jīng)驗的東西上反而更貼近前沿,我個人覺得這一點倒是可以接受的。

與此同時,對于那些需要深厚專業(yè)背景且我有實踐經(jīng)驗的地方,我也有一張問題清單,只是這份清單太長了,而且正在變得越來越長。這個事實讓我感到安心,因為我的私人repo就像一個代碼“百寶箱”,能讓我在開始任何新機器學習任務(wù)時輕松上手。而且這也意味著對于許多問題,我已經(jīng)實現(xiàn)了非常強大的管道,可以在下次遇到類似問題時加快進度。

我也參加NIPS、CVPR等會議,大會上展示的結(jié)果是對我們現(xiàn)在可以做什么、不可以做什么的風向指引。

問:幾年前(比如4-5年前),非ML領(lǐng)域的Ph.D(如物理、機械工程等)在求職市場上可能有很大優(yōu)勢,但現(xiàn)在情況好像不一樣了,如果一個ML工程/開發(fā)崗?fù)瑫r有兩個人來應(yīng)聘,一個是非ML方向的Ph.D,一個是ML方向的碩士,IT/ML行業(yè)似乎都更喜歡后者。你本人是物理學的Ph.D,之后轉(zhuǎn)行到了機器學習,也許在這個問題上有更深刻的認識。

所以你對非ML方向的Ph.D轉(zhuǎn)行機器學習這件事怎么看?他的學位有助于求職嗎?和ML方向的碩士相比,這些Ph.D在求職中會有哪些優(yōu)勢?

這是個難題,我并不知道具體答案,但我會盡力說出自己的想法。

物理學是一門偉大的專業(yè)。即便我現(xiàn)在可以回到過去,在物理和CS之間重新做出選擇,我還是會在明知自己會轉(zhuǎn)行CS的情況下繼續(xù)選擇讀物理。

當然,這么做的主要原因是我對物理學和自然科學很感興趣。機器學習能告訴你我們身邊這個浩瀚無垠、豐富多彩、趣味無窮的宇宙是怎么運轉(zhuǎn)的嗎?顯然不行,但物理可以!而且它能做的不止于此!我從物理學轉(zhuǎn)行機器學習的一個理由是門檻不高,因為物理作為一門專業(yè),它教授的不只是量子力學、相對論、量子場論和其他高度專業(yè)化的知識,它也涉及數(shù)學、統(tǒng)計學和編程技能。這些知識是我輕松轉(zhuǎn)到其他領(lǐng)域的重要橋梁。

物理能教會你以有條理的方式在嚴謹?shù)睦碚摵蛯嶒炛g進行操作,這也應(yīng)該是機器學習從業(yè)者的基本素養(yǎng)。如果一個人上不了大學,他是幾乎不可能以自學的方式學會物理和高等數(shù)學的。這也使我堅信,深度學習的下一個重大突破將是機器學習與高等數(shù)學、物理、化學及其他前沿領(lǐng)域高度融合后的產(chǎn)物。畢竟現(xiàn)在計算機視覺任務(wù)要用到的數(shù)學只是大一水平。

以上這些都說明,數(shù)學并不是入門機器學習的門檻,從業(yè)者的過分“偏科”也正是數(shù)學、物理、化學和其他STEM學科的知識幾乎無法被用于解決業(yè)務(wù)問題的原因,是這些專業(yè)的畢業(yè)生感到自己被背叛了的原因。他們都具備很多專業(yè)知識,甚至有博士學位,他們在學術(shù)界度過了很多年,但是都得不到一份有意義的高薪工作。

另一方面,現(xiàn)在編程技能在任何地方都必不可少,這也是當一個精通數(shù)學的人和一個會寫代碼的人同時求職時,雇主更喜歡選第二個人的原因。

但我相信情況會發(fā)生變化。不是現(xiàn)在,而在未來的某個時間點。重要的是大家需要先認清一個現(xiàn)實,就是你在大學里讀的論文、上的課和你在工作中會用到技能可能不會直接相關(guān)。但這不會是一個大問題。通常情況下,你需要先了解工業(yè)界數(shù)據(jù)科學家/軟件開發(fā)者的工作內(nèi)容,如果實在沒法在大學進修,你可以自學。很多從業(yè)者其實都是在工作后才學到那么多東西的。

就我個人經(jīng)歷而言,當我在研究數(shù)據(jù)科學的同時準備理論物理學論文時,找工作確實給了我不小的壓力。我沒有數(shù)據(jù)科學家這個崗位所必需的知識,也不懂硅谷的工作流程,更不了解企業(yè)對我的期望。就是這樣一個一無所知的我,堅持不停把自己的簡歷一次次投遞給不同的公司,經(jīng)歷了一輪又一輪的面試失敗,并從每一次失敗中學習經(jīng)驗,直至通過面試。

我記得有一次被問到論文寫了什么,當時我用到了量子蒙特卡洛方法,于是試圖向面試官解釋它是什么、為什么要用它。聽完我的敘述,面試官看著我問道:“這種技術(shù)能怎么幫助我們提高客戶參與度呢?”

所以對于那些非CS專業(yè)人士來說,最有希望的方法是去旁聽計算機系的數(shù)據(jù)科學課程,并在空閑時間自學數(shù)據(jù)科學和機器學習。幸運的是,現(xiàn)在有很多這方面的優(yōu)秀資源。比如你可以在自己專業(yè)內(nèi)找一個想在研究里采用機器學習方法的教授,或是去科技公司申請ML相關(guān)的實習崗,獲得實習機會比直接拿到全職offer容易多了,也更容易轉(zhuǎn)正。

一般來說,你不應(yīng)該高估專業(yè)、大學對自己就業(yè)的影響。當一家公司雇用你時,他們的設(shè)想就是付給你錢讓你幫他們解決所面臨的問題。你的學位和專業(yè)只是評估你個人能力的一個指標。當然,如果HR沒能從你的簡歷里看到想要的東西,你就很容易被篩掉,你可能建立的人脈網(wǎng)絡(luò)——對求職很重要——也會出現(xiàn)斷裂。但是,這不應(yīng)該影響你選擇什么專業(yè)。

也許我還是太天真了,但是一個人之所以會選擇這個專業(yè),不是因為它有高薪就業(yè)前景,而是因為你對這個領(lǐng)域充滿激情。

問:你覺得數(shù)據(jù)科學/機器學習領(lǐng)域最有趣的問題在哪一方面?我已經(jīng)完成了近半碩士學習,但卻發(fā)現(xiàn)自己還沒想好要深入哪一個子領(lǐng)域。我之前和人聊過這個問題,他斷言未來最有前景的會是算法開發(fā)和scaling(剛好和數(shù)據(jù)科學/機器學習這種調(diào)用庫的不同)。你對此有什么看法?或者你有什么關(guān)于靈活就業(yè)的建議?

我想說數(shù)據(jù)科學/機器學習領(lǐng)域中最有趣的問題遠不是今天的主流問題。主流問題研究現(xiàn)在已經(jīng)人滿為患了——把機器學習用于信用評分、推薦系統(tǒng)、零售和其他任務(wù)——我們已經(jīng)受夠了把數(shù)據(jù)映射到資金。試想一下,如果你能把機器學習用于數(shù)學、物理學、生物學、化學、歷史、考古學、地質(zhì)學或任何其他人沒有嘗試過的領(lǐng)域,那么你可能就會發(fā)現(xiàn)自己的那一頭Purple Cow(Yahoo前營銷總監(jiān)Seth Godin提出的概念)。

關(guān)于職業(yè)選擇,和生物學、物理學不同,你在數(shù)據(jù)科學/機器學習領(lǐng)域?qū)W到的技能允許你輕松從一個領(lǐng)域轉(zhuǎn)移到另一個領(lǐng)域。當然,開發(fā)銀行/對沖基金的交易算法和開發(fā)自動駕駛汽車的算法不一樣,但它們的差別也不是很大,只要基礎(chǔ)過硬,你就能很快掌握必需技巧。

問:30歲非數(shù)學/CS背景的人搞機器學習是不是太晚了?還是剛好能趕上末班車?如果能趕上,你覺得最低要求是什么?

當然為時不晚。機器學習里有近90%的技術(shù)只要求大一的數(shù)學知識,所以你不需要多精通數(shù)學。數(shù)據(jù)科學中使用最廣泛的語言是Python和R,它們都是高級語言,可以輕松上手。

我建議你可以適當上一些在線課程,并開始研究Kaggle競賽。雖然很多概念聽上去很陌生,但只要你有足夠的恒心和決心,一切都會水到渠成。

和年齡相關(guān)的兩個典例:

Kaggle Grandmaster Evgeny Patekha:四十歲才開始數(shù)據(jù)科學生涯

Kaggle Grandmaster Alexander Larko:五十五歲才開始參加Kaggle競賽

問:你覺得技術(shù)領(lǐng)域的正規(guī)基礎(chǔ)教育對于在數(shù)據(jù)科學和Kaggle競賽里取得成功很重要嗎?你有沒有遇到過反例?

有用是肯定有用的,但也有很多人雖然沒怎么接受過基礎(chǔ)教育,在競賽里仍然取得了好成績。一個典型的例子是Mikel Bober-Irizar,他是Kaggle Grandmaster,但還在念高中。

另一個值得關(guān)注的點是,你在Kaggle上學到的技能只是你在工業(yè)界、學術(shù)界工作時所需技能的一小部分。對于那些沒有涉及的知識,基礎(chǔ)教育可以為你提供。

總而言之,即便你高中肄業(yè),你也可以橫行Kaggle。

問:在不租用云服務(wù)器的情況下,我能用家里的電腦訓(xùn)練出高分競賽模型嗎?

我從不在競賽里用云服務(wù),但我家里確實有兩臺性能相對較好的電腦。其中一臺裝了4塊GPU,另一臺裝了2塊。雖然沒有好的硬件條件也能在Kaggle上取得好成績,但缺乏算力會限制你檢驗想法的次數(shù)。檢驗的想法越多,最終成績可能會越好。所以如果你得用每周7天、每天24小時訓(xùn)練模型,我還是建議你投資一下硬件。

同時,擁有一臺功能強大的機器是不夠的,你也需要會編寫可以充分利用它的代碼。

我從Keras換到Pytorch的原因之一是PyTorch中的DataLoader在當時更好用

由于imgaug(圖像增強Python庫)太慢了,我們寫了albumentations,把CPU利用率提到了100%,同時GPU還有富余空間

為了加快硬盤上jpeg圖像的I/O,我沒有用PIL、skimage和OpenCV,而是用了libjpeg-turbo和PyVips

問:你對數(shù)據(jù)科學新手參加Kaggle有什么建議嗎?你覺得哪種競賽更適合他們?

參加Kaggle的入門教程有很多,但據(jù)我所知,其中最有效的應(yīng)該遵循以下流程:

觀看一些涵蓋python編程和機器學習基礎(chǔ)知識的在線課程。

在Kaggle上挑選一個競賽,如果你能寫一個端到端的管道進行數(shù)據(jù)映射,那再好不過。但這對新手來說可能有點難,所以你也可以照搬別人共享的kernel。

在PC上運行模型,生成提交,并在Kaggle排行榜上找到自己的排名。在進行這些步驟時,你可能會第一次感受到操作系統(tǒng)、驅(qū)動程序、庫版本、I/O問題給你造成的困擾,你得盡早開始習慣它。如果這時你還不了解kernel是什么,沒關(guān)系。

調(diào)參(盲目也行),重新訓(xùn)練模型并提交預(yù)測結(jié)果。不要擔心,你的競爭者們都在對模型進行反復(fù)優(yōu)化,期望得到更好的結(jié)果。

接著就是學會有技巧地調(diào)參,在這個階段,你就要開始掌握機器學習的工作原理和基礎(chǔ)知識,把研究添加進實驗中。學習的方向有很多,其中第一種是上mlcourse.ai、CS231n這樣的在線免費課程,閱讀書籍,學習高等數(shù)學、統(tǒng)計學,學會如何編寫更好的代碼。第二種是盡快掌握和你想要解決的問題相關(guān)的術(shù)語,專注于它們,更高的Kaggle排名就是你最好的動力。但是切記不要在研究與實驗之間做出選擇——它們必須同步進行。機器學習是一門應(yīng)用學科,不要把它當成純粹的課本知識:沒有實踐的理論是愚蠢的,沒有理論的實踐是盲目的。

比賽結(jié)束后,盡管你付出了很多努力,但最終結(jié)果可能并不好。不要氣餒,這是意料之中的。你應(yīng)該多看看論壇,閱讀獲獎?wù)叻窒淼慕鉀Q方案,嘗試著讓自己有所提到。等下次再遇到相似問題時,你的起點會更高。

在其它競賽中重復(fù)上述過程,你就可以獲得高分,更重要的是,你積累到了任務(wù)、競賽經(jīng)驗和大量代碼和管道。

問:你對Kaggle有些競賽發(fā)生數(shù)據(jù)泄漏有何看法?你覺得利用這個漏洞合乎道德嗎?

我得承認,組織比賽是一件非常困難的事,所以當泄漏被發(fā)現(xiàn)時,我不會苛責組織者。而且對于參賽者利用數(shù)據(jù)泄露這種行為,我覺得可以接受。雖然數(shù)據(jù)泄露會有損競賽的公平性,但它對我個人的影響只是我不能把這個競賽中學到的東西放到類似問題中。我認為Kaggle的管理人員需要創(chuàng)建一個可能會發(fā)生數(shù)據(jù)泄漏的競賽清單,并在競賽開始前認真檢查數(shù)據(jù),防止同樣的問題一次又一次地發(fā)生,我相信他們正在努力解決這個問題。

問:作為數(shù)據(jù)科學工程師,你覺得參加Kaggle競賽有多大用處?

這很難說。參加Kaggle競賽能在一些關(guān)鍵但非常狹窄的領(lǐng)域提升你的技術(shù)水平。它往往考量多種技術(shù)的組合使用,所以對一些崗位可能是非常有益的。但它不是萬金油,就我現(xiàn)在從事的自動駕駛汽車領(lǐng)域而言,我從Kaggle上學到的東西只能作為從其他渠道學到的技能的一種有力補充。

同樣的,也許你的競賽技術(shù)水平扎實,但那還遠遠不夠。很多東西你需要在行業(yè)內(nèi)實踐過才會懂。

成為Kaggle Master并不是必要的,這個頭銜也沒法證明你會在工作中表現(xiàn)出色。但與此同時,我相信如果一個人是Kaggle Master,他應(yīng)該能通過HR篩選,得到一個面試機會。

問:如果一個人沒有數(shù)學/CS或其他涉及高等數(shù)學學科的教育背景,他在Kaggle競賽中的上限是多少(以及更廣泛的數(shù)據(jù)科學領(lǐng)域)?激情和欲望能讓一個人走多遠?

如果你目標明確而且有很強的學習意識,那無論是Kaggle競賽還是數(shù)據(jù)科學領(lǐng)域,你一定會到達頂尖水平。最艱難的一步始終是第一步,今天,現(xiàn)在,馬上去做!不要說明天,因為明日復(fù)明日,那意味著永遠不會行動。

我看了所有問題,沒有人問我該怎么找到一個可以幫助自己取得更高排名的人,但我認為這一點很重要。解決這個問題最常見的方法是找一些同樣對這個競賽感興趣的朋友/同事,大家一起討論、開會、分享問題甚至組成團隊。然后有些人要忙這個,有些人得忙那個,雖然團隊成績也許還挺好,但它肯定也就止步于此了。

我有一種更有效、更好的辦法:

編寫自己的管道,或是直接復(fù)制粘貼論壇上共享的管道

讓管道以適當?shù)母袷桨演斎霐?shù)據(jù)映射到提交的文件中,并生成交叉驗證得分

驗證交叉驗證帶來的得分變化是否和排行榜上的排名變化一致

進行探索性數(shù)據(jù)分析,閱讀論壇帖子、論文、書籍和以前類似競賽的解決方案,所有這些工作都要獨立完成

在某個時間點,比如競賽結(jié)束前的2-4周,這時你會被卡住。你嘗試了所有可以想到的辦法,但始終提高不了排行榜名次。你需要一個新的想法來源

這時你可以在自己的“分段”找一些比較活躍的參賽者,和他們交流

首先,哪怕只是上漲了一點點預(yù)測平均得分,那都可能帶來名次上的顯著提升;其次,你和別人用的方法可能不一樣,分享一些已經(jīng)嘗試的、未曾嘗試的方法很有幫助;第三,因為競爭最初是針對每個人單獨進行的,所有人都看了數(shù)據(jù)、編寫了管道,所有人都把競賽置于其他活動之上,此時大家的競爭意識更強,也更可能刷新排行榜。

但更重要的是,人們往往會高估他們在競賽上的付出,低估他們在擁有穩(wěn)定的管道前會出現(xiàn)的問題數(shù)。排行榜就是一個篩選同伴的過濾器,能讓你和你的潛在隊友處于同一位置。

在一些競賽中,特定領(lǐng)域的知識也對良好結(jié)果有很大作用,比如有時如果團隊里有一個不太懂數(shù)據(jù)科學,但是能看懂醫(yī)學成像的人,他也能發(fā)揮很大作用。但這種情況相當罕見。

在這里,我想感謝所有我有幸結(jié)識并成為隊友的人們,你們在競賽中讓我領(lǐng)悟頗多:

Artem Sanakoeu,Alexander Buslaev,Sergey Mushinskiy, Evgeny Nizhibitsky,Konstantin Lopuhin,Alexey Noskov,Artur Kuzin,Ruslan Baikulov,Pavel Nesterov,Arseny Kravchenko,Eugene Babakhin,Dmitry Pranchuk,Artur Fattakhov,Ilya Kibardin,Liam Damewood,Alexey Shvets,Anton Dobrenkii ,Selim Seferbekov,Alexandr Kalinin,Alexander Rakhlin。

如果你還有其他問題,歡迎在原文下留言評論(需翻墻)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1708

    瀏覽量

    46771
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8502

    瀏覽量

    134588
  • 數(shù)據(jù)科學
    +關(guān)注

    關(guān)注

    0

    文章

    168

    瀏覽量

    10485

原文標題:Kaggle大師訪談:我的ML競賽之旅

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    FPGA在機器學習中的具體應(yīng)用

    隨著機器學習和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?111次閱讀

    任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進來呢?

    ,TensorFlow、PyTorch用于構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)。以Python為例,通過編寫簡單的程序來處理數(shù)據(jù),如讀取數(shù)據(jù)集、進行數(shù)據(jù)清洗和預(yù)處理,這是進入AI領(lǐng)域的基本技能。 學習機器學習和深度學習
    發(fā)表于 07-08 17:44

    機器學習模型市場前景如何

    當今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學習模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?359次閱讀

    嵌入式機器學習的應(yīng)用特性與軟件開發(fā)環(huán)境

    作者:DigiKey Editor 在許多嵌入式系統(tǒng)中,必須采用嵌入式機器學習(Embedded Machine Learning)技術(shù),這是指將機器學習模型部署在資源受限的設(shè)備(如微
    的頭像 發(fā)表于 01-25 17:05 ?658次閱讀
    嵌入式<b class='flag-5'>機器</b><b class='flag-5'>學習</b>的應(yīng)用特性與軟件開發(fā)環(huán)境

    傳統(tǒng)機器學習方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機器學習的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機器學習的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機器
    的頭像 發(fā)表于 12-30 09:16 ?1183次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應(yīng)用指導(dǎo)

    如何選擇云原生機器學習平臺

    當今,云原生機器學習平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機器學習應(yīng)用的首選。然而,市場上的云原生機器
    的頭像 發(fā)表于 12-25 11:54 ?452次閱讀

    什么是機器學習?通過機器學習方法能解決哪些問題?

    來源:Master編程樹“機器學習”最初的研究動機是讓計算機系統(tǒng)具有人的學習能力以便實現(xiàn)人工智能。因為沒有學習能力的系統(tǒng)很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?963次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關(guān)系

    在人工智能領(lǐng)域,機器學習算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習機器
    的頭像 發(fā)表于 11-15 09:19 ?1212次閱讀

    電子設(shè)計競賽準備經(jīng)歷分享

    在我大學生涯中,參加電子設(shè)計競賽無疑是一段難忘且充滿挑戰(zhàn)的經(jīng)歷。從最初的迷茫與不安,到最終的收獲與成長,這段旅程讓我深刻體會到了團隊合作的力量,以及不斷學習與探索的重要性。以下是我個人參加電子設(shè)計競賽的準備經(jīng)歷,希望能為即將參賽
    的頭像 發(fā)表于 11-06 10:49 ?608次閱讀
    電子設(shè)計<b class='flag-5'>競賽</b>準備經(jīng)歷分享

    具身智能與機器學習的關(guān)系

    具身智能(Embodied Intelligence)和機器學習(Machine Learning)是人工智能領(lǐng)域的兩個重要概念,它們之間存在著密切的關(guān)系。 1. 具身智能的定義 具身智能是指智能體
    的頭像 發(fā)表于 10-27 10:33 ?1047次閱讀

    人工智能、機器學習和深度學習存在什么區(qū)別

    人工智能指的是在某種程度上顯示出類似人類智能的設(shè)備。AI有很多技術(shù),但其中一個很大的子集是機器學習——讓算法從數(shù)據(jù)中學習。
    發(fā)表于 10-24 17:22 ?2974次閱讀
    人工智能、<b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>存在什么區(qū)別

    入門?畢設(shè)?競賽?項目練手?STM32/嵌入式/物聯(lián)網(wǎng)學習,有這幾款開發(fā)板就夠了!

    、項目練手、創(chuàng)新競賽、技能認證等。01STM32入門+項目進階學習適用場合高校教學、學生畢設(shè)、個人學習、項目練手、創(chuàng)新競賽、技術(shù)認證可學習
    的頭像 發(fā)表于 10-10 16:31 ?1113次閱讀
    入門?畢設(shè)?<b class='flag-5'>競賽</b>?項目練手?STM32/嵌入式/物聯(lián)網(wǎng)<b class='flag-5'>學習</b>,有這幾款開發(fā)板就夠了!

    AMD贊助多支FIRST機器競賽團隊

    AMD 在 2024 賽季贊助了多支 FIRST 機器競賽團隊。FIRST 機器競賽旨在教導(dǎo)高中生如何構(gòu)建能夠執(zhí)行特定任務(wù)的機器人,同時
    的頭像 發(fā)表于 09-18 09:45 ?870次閱讀

    【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取

    之前對《時間序列與機器學習》一書進行了整體瀏覽,并且非常輕松愉快的完成了第一章的學習,今天開始學習第二章“時間序列的信息提取”。 先粗略的翻閱第二章,內(nèi)容復(fù)雜,充斥了大量的定義、推導(dǎo)計
    發(fā)表于 08-14 18:00

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學習融合應(yīng)用的宏偉藍圖。作者不僅扎實地構(gòu)建了時間序列分析的基礎(chǔ)知識,更巧妙地展示了機器學習如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21