日韩无码全黄色毛大片,九九九九九九九成人影视,情无码一区二区三区

數(shù)據(jù)分析和機器學(xué)習(xí)

如果你認(rèn)為大數(shù)據(jù)僅僅是關(guān)于SQL語句查詢和海量的數(shù)據(jù)的話，那么別人也會理解你的，但是大數(shù)據(jù)真正的目的是通過對數(shù)據(jù)的推斷，從數(shù)據(jù)中獲取價值、從數(shù)據(jù)中發(fā)現(xiàn)有用的東西。例如，“如果我降低5%的價格，我將增加10%的銷售量?！?/p>

數(shù)據(jù)分析是重要的技術(shù)，包括如下方面：

描述性分析：確定所發(fā)生的事情。這通常涉及到描述發(fā)生了什么現(xiàn)象的報告。例如，用這個月的銷售額與去年同期進(jìn)行比較的結(jié)果。

特征性分析：解釋現(xiàn)象發(fā)生的原因，這通常涉及使用帶有OLAP技術(shù)的控制臺用以分析和研究數(shù)據(jù)，根據(jù)數(shù)據(jù)挖掘技術(shù)來找到數(shù)據(jù)之間的相關(guān)性。

預(yù)測性分析：評估可能發(fā)生的事情的概率。這可能是預(yù)測性分析被用來根據(jù)你的工作性質(zhì)、個人興趣愛好，認(rèn)為你是一個潛在的讀者，以便能夠鏈接到其他的人。

機器學(xué)習(xí)適合于預(yù)測性分析。

什么是機器學(xué)習(xí)

機器學(xué)習(xí)是人工智能的一個子集，即用機器去學(xué)習(xí)以前的經(jīng)驗。與傳統(tǒng)的編程不同，開發(fā)人員需要預(yù)測每一個潛在的條件進(jìn)行編程，一個機器學(xué)習(xí)的解決方案可以有效地基于數(shù)據(jù)來適應(yīng)輸出的結(jié)果。

一個機器學(xué)習(xí)的算法并沒有真正地編寫代碼，但它建立了一個關(guān)于真實世界的計算機模型，然后通過數(shù)據(jù)訓(xùn)練模型。

機器學(xué)習(xí)如何工作？

垃圾郵件過濾是一個很好的例子，它利用機器學(xué)習(xí)技術(shù)來學(xué)習(xí)如何從數(shù)百萬封郵件中識別垃圾郵件，其中就用到了統(tǒng)計學(xué)技術(shù)。

例如，如果每100個電子郵件中的85個，其中包括“便宜”和“ *哥”這兩個詞的郵件被認(rèn)為是垃圾郵件，我們可以說有85%的概率，確定它是垃圾郵件。并通過其它幾個指標(biāo)（例如，從來沒給你發(fā)送過郵件的人）結(jié)合起來，利用數(shù)十億個電子郵件進(jìn)行算法測試，隨著訓(xùn)練次數(shù)不斷增加來提升準(zhǔn)確率。

事實上，谷歌表示它現(xiàn)在已經(jīng)可以攔截99.99%左右的垃圾郵件。

機器學(xué)習(xí)實例

一般包括以下幾個方面:

目標(biāo)影響：主要針對Google和Facebook的目標(biāo)廣告，基于個人興趣愛好，并通過Netflix推薦電影，還通過亞馬遜推薦購物；

信用評分：銀行使用收入數(shù)據(jù)，從你的居住地、你的年齡和婚姻狀況來預(yù)測你是否會拖欠貸款；

信用卡欺詐檢測：用于根據(jù)你之前一些可能的消費習(xí)慣，在線禁止具有欺詐行為的信用卡或借記卡的使用；

購物籃分析：根據(jù)數(shù)以百萬個類似顧客的消費習(xí)慣，用來預(yù)測你更可能使用哪些特殊優(yōu)惠政策；

在一個有爭議的案例：美國零售商對使用了25種不同的健康和化妝品產(chǎn)品的顧客的購物籃進(jìn)行分析，來成功地預(yù)測婦女懷孕，包括非常準(zhǔn)確的預(yù)產(chǎn)期。然而卻事與愿違，當(dāng)一個年輕女孩的父親抱怨說，在女兒被懷孕相關(guān)的特殊優(yōu)惠轟炸后，目的就變成了鼓勵未成年少女懷孕。

你需要什么

事實上，你是在尋找數(shù)據(jù)中的關(guān)聯(lián)性，但你需要一些領(lǐng)域的專業(yè)知識來驗證結(jié)果。計算機可以找到一個模式，但是只有專家才能驗證它是否具有關(guān)聯(lián)性。

總之，以下是你所需要的：

目標(biāo).你正在試圖解決的問題。例如，信用卡被盜了嗎？股票價格會上漲還是下跌？用戶近期最喜歡哪部電影？

大量數(shù)據(jù). 例如，為了準(zhǔn)確預(yù)測房屋的價格，你需要詳細(xì)列出的歷史價格。

專家.你需要一個知道正確答案的領(lǐng)域?qū)＜襾眚炞C所產(chǎn)生的結(jié)果，并確認(rèn)什么時候模型足夠精確。

模式.你在尋找數(shù)據(jù)中的模式。如果沒有模式，你可能會有錯誤的或者不完整的數(shù)據(jù)。

機器學(xué)習(xí)的類型

預(yù)測性分析試圖基于歷史數(shù)據(jù)來預(yù)測未來的結(jié)果，最常用的方法被稱為監(jiān)督學(xué)習(xí)。

機器學(xué)習(xí)的類型有：

監(jiān)督學(xué)習(xí)：當(dāng)我們需要從過去的數(shù)據(jù)中知道正確答案的時候，但是還需要預(yù)測未來的結(jié)果。例如，利用過去的房價來預(yù)測當(dāng)前和未來的價格。有效地使用基于試錯的統(tǒng)計改進(jìn)過程，機器依靠對監(jiān)督者提供的一組值的測試結(jié)果來逐步提高準(zhǔn)確性。

無監(jiān)督學(xué)習(xí)：這里沒有明確的正確答案，但我們想從數(shù)據(jù)中有新的發(fā)現(xiàn)。最常用于對數(shù)據(jù)進(jìn)行分類或分組，例如，在Spotify上對音樂分類，來幫助推薦你可能想聽的歌曲或是專輯。然后，他們將聽眾分類，看他們是否更可能愿意聽Radiohead或Justin Bieber。

強化學(xué)習(xí)：不需要一個領(lǐng)域?qū)＜?，但需要不斷地向預(yù)定目標(biāo)前進(jìn)。這是一種經(jīng)常部署神經(jīng)網(wǎng)絡(luò)的技術(shù)，例如， AphaGo在DeepMind中跟自己打了一百萬場比賽，最終成為了世界冠軍。

機器學(xué)習(xí)過程

不同于未來通過機器學(xué)習(xí)下象棋的場景，目前大多數(shù)機器學(xué)習(xí)是相當(dāng)麻煩的，在下面的圖表中進(jìn)行了說明：

在未來很可能機器學(xué)習(xí)將會被應(yīng)用到幫助加快過程，特別是在數(shù)據(jù)收集和清洗領(lǐng)域，但主要步驟仍然存在以下方面：

定義問題：正如我在另一篇文章中所指出的那樣，機器學(xué)習(xí)總是從一個明確的問題和目標(biāo)開始；

收集數(shù)據(jù)：適合的數(shù)據(jù)的數(shù)量和種類越多，機器學(xué)習(xí)模型就會變得越精確。這些數(shù)據(jù)可以來自電子表格、文本文件和數(shù)據(jù)庫，除了商業(yè)上可用的數(shù)據(jù)源之外；

準(zhǔn)備數(shù)據(jù)：這包括數(shù)據(jù)的清理和解析。刪除或糾正異常值（失控的錯誤值）；這經(jīng)常占用總的時間和工作量的60%以上，然后將數(shù)據(jù)分成兩個不同的部分，即練數(shù)據(jù)和測試數(shù)據(jù)；

訓(xùn)練模型：針對一組訓(xùn)練數(shù)據(jù)—用于識別數(shù)據(jù)中的模式或相關(guān)性，或者用于做預(yù)測，同時使用重復(fù)的測試和誤差改進(jìn)方法來逐步地提高模型的精度；

評估模型：通過比較結(jié)果與測試數(shù)據(jù)集的準(zhǔn)確度來評估模型。重要的是不要對用于訓(xùn)練系統(tǒng)的數(shù)據(jù)進(jìn)行模型評估，以確保無偏差的和獨立的測試；

部署和改進(jìn)：這可以涉及到嘗試完全不同的算法或者收集更多種類或更大數(shù)量的數(shù)據(jù)。例如，你可以通過使用房屋所有者提供的數(shù)據(jù)來預(yù)估今后的房屋升值空間，從而提高房價預(yù)測的準(zhǔn)確度；

綜上所述，大多數(shù)機器學(xué)習(xí)過程實際上是循環(huán)的和連續(xù)的，因為更多的數(shù)據(jù)被添加或者情況會有所變化，因為世界從來不會靜止不動，并且總是有改進(jìn)和提高的空間。

總結(jié)

下圖說明了機器學(xué)習(xí)系統(tǒng)所使用的關(guān)鍵策略：

總之，任何機器學(xué)習(xí)系統(tǒng)的關(guān)鍵部分就是數(shù)據(jù)?？紤]到額外的算法、巧妙的編程和大量的更精確的數(shù)據(jù)的選擇，大數(shù)據(jù)每次都是勝利者。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴