數(shù)據(jù)分析和機器學(xué)習(xí)
如果你認(rèn)為大數(shù)據(jù)僅僅是關(guān)于SQL語句查詢和海量的數(shù)據(jù)的話,那么別人也會理解你的,但是大數(shù)據(jù)真正的目的是通過對數(shù)據(jù)的推斷,從數(shù)據(jù)中獲取價值、從數(shù)據(jù)中發(fā)現(xiàn)有用的東西。例如,“如果我降低5%的價格,我將增加10%的銷售量?!?/p>
數(shù)據(jù)分析是重要的技術(shù),包括如下方面:
描述性分析:確定所發(fā)生的事情。這通常涉及到描述發(fā)生了什么現(xiàn)象的報告。例如,用這個月的銷售額與去年同期進(jìn)行比較的結(jié)果。
特征性分析:解釋現(xiàn)象發(fā)生的原因,這通常涉及使用帶有OLAP技術(shù)的控制臺用以分析和研究數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘技術(shù)來找到數(shù)據(jù)之間的相關(guān)性。
預(yù)測性分析:評估可能發(fā)生的事情的概率。這可能是預(yù)測性分析被用來根據(jù)你的工作性質(zhì)、個人興趣愛好,認(rèn)為你是一個潛在的讀者,以便能夠鏈接到其他的人。
機器學(xué)習(xí)適合于預(yù)測性分析。
什么是機器學(xué)習(xí)
機器學(xué)習(xí)是人工智能的一個子集,即用機器去學(xué)習(xí)以前的經(jīng)驗。與傳統(tǒng)的編程不同,開發(fā)人員需要預(yù)測每一個潛在的條件進(jìn)行編程,一個機器學(xué)習(xí)的解決方案可以有效地基于數(shù)據(jù)來適應(yīng)輸出的結(jié)果。
一個機器學(xué)習(xí)的算法并沒有真正地編寫代碼,但它建立了一個關(guān)于真實世界的計算機模型,然后通過數(shù)據(jù)訓(xùn)練模型。
機器學(xué)習(xí)如何工作?
垃圾郵件過濾是一個很好的例子,它利用機器學(xué)習(xí)技術(shù)來學(xué)習(xí)如何從數(shù)百萬封郵件中識別垃圾郵件,其中就用到了統(tǒng)計學(xué)技術(shù)。
例如,如果每100個電子郵件中的85個,其中包括“便宜”和“ *哥”這兩個詞的郵件被認(rèn)為是垃圾郵件,我們可以說有85%的概率,確定它是垃圾郵件。并通過其它幾個指標(biāo)(例如,從來沒給你發(fā)送過郵件的人)結(jié)合起來,利用數(shù)十億個電子郵件進(jìn)行算法測試,隨著訓(xùn)練次數(shù)不斷增加來提升準(zhǔn)確率。
事實上,谷歌表示它現(xiàn)在已經(jīng)可以攔截99.99%左右的垃圾郵件。
機器學(xué)習(xí)實例
一般包括以下幾個方面:
目標(biāo)影響:主要針對Google和Facebook的目標(biāo)廣告,基于個人興趣愛好,并通過Netflix推薦電影,還通過亞馬遜推薦購物;
信用評分:銀行使用收入數(shù)據(jù),從你的居住地、你的年齡和婚姻狀況來預(yù)測你是否會拖欠貸款;
信用卡欺詐檢測:用于根據(jù)你之前一些可能的消費習(xí)慣,在線禁止具有欺詐行為的信用卡或借記卡的使用;
購物籃分析:根據(jù)數(shù)以百萬個類似顧客的消費習(xí)慣,用來預(yù)測你更可能使用哪些特殊優(yōu)惠政策;
在一個有爭議的案例:美國零售商對使用了25種不同的健康和化妝品產(chǎn)品的顧客的購物籃進(jìn)行分析,來成功地預(yù)測婦女懷孕,包括非常準(zhǔn)確的預(yù)產(chǎn)期。然而卻事與愿違,當(dāng)一個年輕女孩的父親抱怨說,在女兒被懷孕相關(guān)的特殊優(yōu)惠轟炸后,目的就變成了鼓勵未成年少女懷孕。
你需要什么
事實上,你是在尋找數(shù)據(jù)中的關(guān)聯(lián)性,但你需要一些領(lǐng)域的專業(yè)知識來驗證結(jié)果。計算機可以找到一個模式,但是只有專家才能驗證它是否具有關(guān)聯(lián)性。
總之,以下是你所需要的:
目標(biāo).你正在試圖解決的問題。例如,信用卡被盜了嗎?股票價格會上漲還是下跌?用戶近期最喜歡哪部電影?
大量數(shù)據(jù). 例如,為了準(zhǔn)確預(yù)測房屋的價格,你需要詳細(xì)列出的歷史價格。
專家.你需要一個知道正確答案的領(lǐng)域?qū)<襾眚炞C所產(chǎn)生的結(jié)果,并確認(rèn)什么時候模型足夠精確。
模式.你在尋找數(shù)據(jù)中的模式。如果沒有模式,你可能會有錯誤的或者不完整的數(shù)據(jù)。
機器學(xué)習(xí)的類型
預(yù)測性分析試圖基于歷史數(shù)據(jù)來預(yù)測未來的結(jié)果,最常用的方法被稱為監(jiān)督學(xué)習(xí)。
機器學(xué)習(xí)的類型有:
監(jiān)督學(xué)習(xí):當(dāng)我們需要從過去的數(shù)據(jù)中知道正確答案的時候,但是還需要預(yù)測未來的結(jié)果。例如,利用過去的房價來預(yù)測當(dāng)前和未來的價格。有效地使用基于試錯的統(tǒng)計改進(jìn)過程,機器依靠對監(jiān)督者提供的一組值的測試結(jié)果來逐步提高準(zhǔn)確性。
無監(jiān)督學(xué)習(xí):這里沒有明確的正確答案,但我們想從數(shù)據(jù)中有新的發(fā)現(xiàn)。最常用于對數(shù)據(jù)進(jìn)行分類或分組,例如,在Spotify上對音樂分類,來幫助推薦你可能想聽的歌曲或是專輯。然后,他們將聽眾分類,看他們是否更可能愿意聽Radiohead或Justin Bieber。
強化學(xué)習(xí):不需要一個領(lǐng)域?qū)<?,但需要不斷地向預(yù)定目標(biāo)前進(jìn)。這是一種經(jīng)常部署神經(jīng)網(wǎng)絡(luò)的技術(shù),例如, AphaGo在DeepMind中跟自己打了一百萬場比賽,最終成為了世界冠軍。
機器學(xué)習(xí)過程
不同于未來通過機器學(xué)習(xí)下象棋的場景,目前大多數(shù)機器學(xué)習(xí)是相當(dāng)麻煩的,在下面的圖表中進(jìn)行了說明:
在未來很可能機器學(xué)習(xí)將會被應(yīng)用到幫助加快過程,特別是在數(shù)據(jù)收集和清洗領(lǐng)域,但主要步驟仍然存在以下方面:
定義問題:正如我在另一篇文章中所指出的那樣,機器學(xué)習(xí)總是從一個明確的問題和目標(biāo)開始;
收集數(shù)據(jù):適合的數(shù)據(jù)的數(shù)量和種類越多,機器學(xué)習(xí)模型就會變得越精確。這些數(shù)據(jù)可以來自電子表格、文本文件和數(shù)據(jù)庫,除了商業(yè)上可用的數(shù)據(jù)源之外;
準(zhǔn)備數(shù)據(jù):這包括數(shù)據(jù)的清理和解析。刪除或糾正異常值(失控的錯誤值);這經(jīng)常占用總的時間和工作量的60%以上,然后將數(shù)據(jù)分成兩個不同的部分,即練數(shù)據(jù)和測試數(shù)據(jù);
訓(xùn)練模型:針對一組訓(xùn)練數(shù)據(jù)—用于識別數(shù)據(jù)中的模式或相關(guān)性,或者用于做預(yù)測,同時使用重復(fù)的測試和誤差改進(jìn)方法來逐步地提高模型的精度;
評估模型:通過比較結(jié)果與測試數(shù)據(jù)集的準(zhǔn)確度來評估模型。重要的是不要對用于訓(xùn)練系統(tǒng)的數(shù)據(jù)進(jìn)行模型評估,以確保無偏差的和獨立的測試;
部署和改進(jìn):這可以涉及到嘗試完全不同的算法或者收集更多種類或更大數(shù)量的數(shù)據(jù)。例如,你可以通過使用房屋所有者提供的數(shù)據(jù)來預(yù)估今后的房屋升值空間,從而提高房價預(yù)測的準(zhǔn)確度;
綜上所述,大多數(shù)機器學(xué)習(xí)過程實際上是循環(huán)的和連續(xù)的,因為更多的數(shù)據(jù)被添加或者情況會有所變化,因為世界從來不會靜止不動,并且總是有改進(jìn)和提高的空間。
總結(jié)
下圖說明了機器學(xué)習(xí)系統(tǒng)所使用的關(guān)鍵策略:
總之,任何機器學(xué)習(xí)系統(tǒng)的關(guān)鍵部分就是數(shù)據(jù)??紤]到額外的算法、巧妙的編程和大量的更精確的數(shù)據(jù)的選擇,大數(shù)據(jù)每次都是勝利者。
-
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8499瀏覽量
134341
原文標(biāo)題:通俗的機器學(xué)習(xí)介紹
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
一文詳解機器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別

一文詳解機器學(xué)習(xí)工程師必知的10大算法

一文詳解藍(lán)牙模塊原理與結(jié)構(gòu)
機器學(xué)習(xí)步驟詳解,一文了解全過程

一文詳解機器學(xué)習(xí)中的梯度提升機

評論