一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機器學(xué)習(xí)全面解析

倩倩 ? 來源:人人都是產(chǎn)品經(jīng)理 ? 2020-04-15 17:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

說到人工智能必然要了解機器學(xué)習(xí),從信息化軟件,到電子商務(wù),然后到高速發(fā)展互聯(lián)網(wǎng)時代,到至今的云計算、大數(shù)據(jù)等,滲透到我們的生活、工作之中,在互聯(lián)網(wǎng)的驅(qū)動下,人們更清晰的認識和使用數(shù)據(jù),不僅僅是數(shù)據(jù)統(tǒng)計、分析,我們還強調(diào)數(shù)據(jù)挖掘、預(yù)測。

一、什么是機器學(xué)習(xí)

1. 機器學(xué)習(xí)概念

機器學(xué)習(xí)就是對計算機一部分數(shù)據(jù)進行學(xué)習(xí),然后對另外一些數(shù)據(jù)進行預(yù)測與判斷。

機器學(xué)習(xí)的核心是“使用算法解析數(shù)據(jù),從中學(xué)習(xí),然后對新數(shù)據(jù)做出決定或預(yù)測”。也就是說計算機利用以獲取的數(shù)據(jù)得出某一模型,然后利用此模型進行預(yù)測的一種方法,這個過程跟人的學(xué)習(xí)過程有些類似,比如人獲取一定的經(jīng)驗,可以對新問題進行預(yù)測。

我們舉個例子,我們都知道支付寶春節(jié)的“集五福”活動,我們用手機掃“?!弊终掌R別福字,這個就是用了機器學(xué)習(xí)的方法。我們可以為計算機提供“?!弊值恼掌瑪?shù)據(jù),通過算法模型機型訓(xùn)練,系統(tǒng)不斷更新學(xué)習(xí),然后輸入一張新的福字照片,機器自動識別這張照片上是否有福字。

機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、計算機科學(xué)等多門學(xué)科。機器學(xué)習(xí)的概念就是通過輸入海量訓(xùn)練數(shù)據(jù)對模型進行訓(xùn)練,使模型掌握數(shù)據(jù)所蘊含的潛在規(guī)律,進而對新輸入的數(shù)據(jù)進行準(zhǔn)確的分類或預(yù)測。如下圖所示:

2. 機器學(xué)習(xí)分類

我們了解了機器學(xué)習(xí)的概念,通過建立模型進行自我學(xué)習(xí),那么學(xué)習(xí)方法有哪些呢?

(1)監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)就是訓(xùn)練機器學(xué)習(xí)的模型的訓(xùn)練樣本數(shù)據(jù)有對應(yīng)的目標(biāo)值,監(jiān)督學(xué)習(xí)就是通過對數(shù)據(jù)樣本因子和已知的結(jié)果建立聯(lián)系,提取特征值和映射關(guān)系,通過已知的結(jié)果,已知數(shù)據(jù)樣本不斷的學(xué)習(xí)和訓(xùn)練,對新的數(shù)據(jù)進行結(jié)果的預(yù)測。

監(jiān)督學(xué)習(xí)通常用在分類和回歸。比如手機識別垃圾短信,電子郵箱識別垃圾郵件,都是通過對一些歷史短信、歷史郵件做垃圾分類的標(biāo)記,對這些帶有標(biāo)記的數(shù)據(jù)進行模型訓(xùn)練,然后獲取到新的短信或是新的郵件時,進行模型匹配,來識別此郵件是或是不是,這就是監(jiān)督學(xué)習(xí)下分類的預(yù)測。

再舉一個回歸的例子,比如我們要預(yù)測公司凈利潤的數(shù)據(jù),我們可以通過歷史上公司利潤(目標(biāo)值),以及跟利潤相關(guān)的指標(biāo),比如營業(yè)收入、資產(chǎn)負債情況、管理費用等數(shù)據(jù),通過回歸的方式我們回到的一個回歸方程,建立公司利潤與相關(guān)因此的方程式,通過輸入因子數(shù)據(jù),來預(yù)測公司利潤。

監(jiān)督學(xué)習(xí)難點是獲取具有目標(biāo)值的樣本數(shù)據(jù)成本較高,成本高的原因在于這些訓(xùn)練集的要依賴人工標(biāo)注工作。

(2)無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)跟監(jiān)督學(xué)習(xí)的區(qū)別就是選取的樣本數(shù)據(jù)無需有目標(biāo)值,我們無需分析這些數(shù)據(jù)對某些結(jié)果的影響,只是分析這些數(shù)據(jù)內(nèi)在的規(guī)律。

無監(jiān)督學(xué)習(xí)常用在聚類分析上面。比如客戶分群、因子降維等。比如RFM模型的使用,通過客戶的銷售行為(消費次數(shù)、最近消費時間、消費金額)指標(biāo),來對客戶數(shù)據(jù)進行聚類:

重要價值客戶:最近消費時間近、消費頻次和消費金額都很高;

重要保持客戶:最近消費時間較遠,但消費頻次和金額都很高,說明這是個一段時間沒來的忠誠客戶,我們需要主動和他保持聯(lián)系;

重要發(fā)展客戶:最近消費時間較近、消費金額高,但頻次不高,忠誠度不高,很有潛力的用戶,必須重點發(fā)展;

重要挽留客戶:最近消費時間較遠、消費頻次不高,但消費金額高的用戶,可能是將要流失或者已經(jīng)要流失的用戶,應(yīng)當(dāng)基于挽留措施。

除此之外,無監(jiān)督學(xué)習(xí)也適用于降維,無監(jiān)督學(xué)習(xí)比監(jiān)督學(xué)習(xí)好處是數(shù)據(jù)不需要人工打標(biāo)記,數(shù)據(jù)獲取成本低。

(3)半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相互結(jié)合的一種學(xué)習(xí)方法,通過半監(jiān)督學(xué)習(xí)的方法可以實現(xiàn)分類、回歸、聚類的結(jié)合使用。

半監(jiān)督分類:是在無類標(biāo)簽的樣例的幫助下訓(xùn)練有類標(biāo)簽的樣本,獲得比只用有類標(biāo)簽的樣本訓(xùn)練得到更優(yōu)的分類;

半監(jiān)督回歸:在無輸出的輸入的幫助下訓(xùn)練有輸出的輸入,獲得比只用有輸出的輸入訓(xùn)練得到的回歸器性能更好的回歸;

半監(jiān)督聚類:在有類標(biāo)簽的樣本的信息幫助下獲得比只用無類標(biāo)簽的樣例得到的結(jié)果更好的簇,提高聚類方法的精度;

半監(jiān)督降維:在有類標(biāo)簽的樣本的信息幫助下找到高維輸入數(shù)據(jù)的低維結(jié)構(gòu),同時保持原始高維數(shù)據(jù)和成對約束的結(jié)構(gòu)不變。

半監(jiān)督學(xué)習(xí)是最近比較流行的方法。

(4)強化學(xué)習(xí)

強化學(xué)習(xí)是一種比較復(fù)雜的機器學(xué)習(xí)方法,強調(diào)系統(tǒng)與外界不斷的交互反饋,它主要是針對流程中不斷需要推理的場景,比如無人汽車駕駛,它更多關(guān)注性能。它是機器學(xué)習(xí)中的熱點學(xué)習(xí)方法。

3. 關(guān)于深度學(xué)習(xí)

深度學(xué)習(xí)是目前關(guān)注度很高的一類算法,深度學(xué)習(xí)(DeepLearning,DL)屬于機器學(xué)習(xí)的子類。它的靈感來源于人類大腦的工作方式,是利用深度神經(jīng)網(wǎng)絡(luò)來解決特征表達的一種學(xué)習(xí)過程。

人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)關(guān)系如下圖所示:

深度學(xué)習(xí)歸根結(jié)底也是機器學(xué)習(xí),不過它不同于監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)的這種分類方法,它是另一種分類方法,基于算法神經(jīng)網(wǎng)絡(luò)的深度,可以分成淺層學(xué)習(xí)算法和深度學(xué)習(xí)算法。

淺層學(xué)習(xí)算法主要是對一些結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)一些場景的預(yù)測,深度學(xué)習(xí)主要解決復(fù)雜的場景,比如圖像、文本、語音識別與分析等。

4. 了解機器學(xué)習(xí)概念對產(chǎn)品經(jīng)理意義

本節(jié)主要在于理清一些機器學(xué)習(xí)基本概念,簡單介紹一下應(yīng)用場景,重點在于理解機器學(xué)習(xí)本質(zhì)上還是對于數(shù)據(jù)的的一種處理方式,數(shù)據(jù)的使用方式,通過數(shù)據(jù)解析其中的規(guī)律,來預(yù)測未來數(shù)據(jù)結(jié)果。

二、機器學(xué)習(xí)的應(yīng)用

我們在說機器學(xué)習(xí)分類的時候,簡單介紹了一下不同機器學(xué)習(xí)方法,主要是解決是什么問題,在本節(jié)中具體介紹一些常用的應(yīng)用場景,主要說明這些應(yīng)用到底怎么用,不對其中的算法以及原理做深入的介紹。

1. 分類和聚類

分類和聚類機器學(xué)習(xí)最常用的應(yīng)用場景,分類和聚類都是對數(shù)據(jù)的分組,我們剛接觸的時候,很容易混淆這兩個應(yīng)用的概念,覺得分類就是聚類,其實他們有很多的不同。

分類是我們知道有哪些組,然后對數(shù)據(jù)進行判斷,判斷這些數(shù)據(jù)到底是預(yù)先知道的那些組。舉個很簡單的例子,比如我們在軍訓(xùn)排隊時要求男生一組,女生一組,這就是一種分類,我們提前知道要分那些組,然后通過一種算法對輸入的數(shù)據(jù)判定,來分類到已知的類別下,這個就是分類。

分類從數(shù)學(xué)函數(shù)角度來說:分類任務(wù)就是通過學(xué)習(xí)得到一個目標(biāo)函數(shù)f,把每個屬性集x映射到一個預(yù)先定義的類標(biāo)號y中。就是我們根據(jù)已知的一些樣本(包括屬性與類標(biāo)號)來得到分類模型(即得到樣本屬性與類標(biāo)號之間的函數(shù)),然后通過此目標(biāo)函數(shù)來對只包含屬性的樣本數(shù)據(jù)進行分類。

所以分類屬于監(jiān)督學(xué)習(xí)方法,比如圖像識別,比如我們從一些圖像中識別是貓還是狗的照片等,它解決的是“是或否”的問題,就是將需要被分析的數(shù)據(jù)跟已知的類別結(jié)果做判斷,看這些數(shù)據(jù)到底是那個類別數(shù)據(jù)。

在分類中,對于目標(biāo)數(shù)據(jù)中存在哪些類是知道的,要做的就是將每一條記錄分別屬于哪一類標(biāo)記出來。但是聚類解決的就是在不知道類的情況下,如何把數(shù)據(jù)參數(shù)做一個劃分。

聚類是實現(xiàn)不知道這批數(shù)據(jù)有哪些類別或標(biāo)簽,然后通過算法的選擇,分析數(shù)據(jù)參數(shù)的特征值,然后進行機器的數(shù)據(jù)劃分,把相似的數(shù)據(jù)聚到一起,所以它是無監(jiān)督學(xué)習(xí);

比如RFM模型中我們通過客戶銷售數(shù)據(jù),通過這些數(shù)據(jù)對客戶分群,然后通過聚類的方法,將相似度高的數(shù)據(jù)聚類到一起,通過分析出來的數(shù)據(jù)我們可以對數(shù)據(jù)特性在定義標(biāo)簽,它解決的是相似度的問題,將相似度高的聚集到一起。

我們舉個例子來總結(jié)一下分類和聚類都是什么用途:

比如我們有1000張照片,假設(shè)我們之前已經(jīng)定義好貓、狗的照片,做了訓(xùn)練,如果從這1000張照片中區(qū)分出來貓、狗的照片,那么這就是分類;

假設(shè)我們沒做過貓狗的照片,我們只是對1000張照片的數(shù)據(jù)做一個歸類,看看那些照片相似度高,分類完成后,在通過相似度比較高的幾類,我們再定義這些類別的是貓、狗或是其他圖片什么的。

2. 回歸

回歸在統(tǒng)計學(xué)角度,指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法?;貧w分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。

在大數(shù)據(jù)分析中,回歸分析是一種預(yù)測性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測器)之間的關(guān)系。這種技術(shù)通常用于預(yù)測分析,時間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系。

回歸從數(shù)學(xué)角度來看是一種方程式,是一種解題方法,一種通過一些函數(shù)因子的關(guān)系的一種學(xué)習(xí)方法。比如以下簡單的一個函數(shù):

回歸從算法角度來說,它是對有監(jiān)督的連續(xù)數(shù)據(jù)結(jié)果的預(yù)測,比如通過一個人過去年份工資收入相關(guān)的影響參數(shù),建立回歸模型,然后通過相關(guān)的參數(shù)的變更來預(yù)測他未來工資收入。

當(dāng)然通過建立回歸模型,再結(jié)合數(shù)學(xué)上對方程式的解析,我們也可以倒退出來為了一個預(yù)定的結(jié)果我們需要對那些參數(shù)值做優(yōu)化。回歸最終要的是得到相關(guān)的參數(shù)和參數(shù)的特征值,因此我們通常在做回歸分析時通常會做目標(biāo)參數(shù)相關(guān)性分析。

只要我們有足夠的數(shù)據(jù),都可以做一些回歸分析幫助我們做預(yù)測與決策。比如我們上線了一些功能,可以通過點擊率、打開率、分享情況等等跟產(chǎn)生的業(yè)務(wù)結(jié)果做回歸分析,如果建立了函數(shù)關(guān)系,我們就可以預(yù)測一些結(jié)果,再比如我們通過歷史上年齡、體重、血壓指標(biāo)、血脂指標(biāo)、是否抽煙、是否喝酒等指標(biāo)跟某種疾病做回歸分析,可以預(yù)測某一名人員是否有此疾病的風(fēng)險等。

所以回歸的主要目的在于對連續(xù)數(shù)據(jù)產(chǎn)生的規(guī)律之后對新數(shù)據(jù)可能產(chǎn)生某種結(jié)果的預(yù)測。

3. 降維

降維就是去除冗余的特征,降低特征參數(shù)的維度降低,用更加少的維度來表示特征,比如圖像識別中將一幅圖像轉(zhuǎn)換成高緯度的數(shù)據(jù)集合,因為高緯度數(shù)據(jù)處理復(fù)雜度很高,我們就需要進行降維處理,降低了計算機處理高維度的圖像數(shù)據(jù)的復(fù)雜性,減少了冗余數(shù)據(jù)造成的識別誤差,提高識別經(jīng)度。

我們從統(tǒng)計學(xué)角度在理解一下機器學(xué)習(xí)的這四大應(yīng)用,如果我們有一批樣本,希望能夠預(yù)測是都屬于某相關(guān)屬性,如果樣本值是離散的,我們就可以使用分類的方法,如果是連續(xù)的我們就可以使用回歸的方法,如果我們這批樣本沒有對應(yīng)的屬性,而是想挖掘其中的相關(guān)性,那么就用聚類的方式。

如果我們涉及到的參數(shù)很多,維度很多,我們就可以用降維的方法去尋找更精準(zhǔn)的參數(shù),不管是做分類、聚類還是回歸,都能達到更精確的判斷和預(yù)測。

除此之外,語音識別、圖像識別、文本識別、語義分析等都是通過機器學(xué)習(xí)基本方法的綜合利用。

4. 不同應(yīng)用場景算法舉例

下圖中針對不同應(yīng)用場景做的算法舉例,大家感興趣可自行了解各個算法的原理。

5. 理解機器學(xué)習(xí)應(yīng)用對產(chǎn)品經(jīng)理的意義

理解機器學(xué)習(xí)應(yīng)用對產(chǎn)品經(jīng)理非常有意義:

一方面產(chǎn)品經(jīng)理需要理解機器學(xué)習(xí)到底能解決什么問題,面對我們的業(yè)務(wù)需求,是否可以通過機器學(xué)習(xí)的方式去滿足我們的需求;同時理解了機器學(xué)習(xí)的應(yīng)用也就是理解AI為什么中臺作用這么明顯。

比如我們在面臨的人群劃分、或是商品標(biāo)簽劃分,可以考慮一下聚類方法;在面對APP功能點擊預(yù)測、分享預(yù)測我們可以考慮一下分類方法;面對商品購買預(yù)測我們可以考慮回歸的方法等;

另一方面通過機器學(xué)習(xí)應(yīng)用我們可以看到數(shù)據(jù)的重要性,要求我們產(chǎn)品經(jīng)理能更好的利用數(shù)據(jù),數(shù)據(jù)可以通過一些算法來解決一些預(yù)測、判斷的問題。

三、機器學(xué)習(xí)流程

人們在使用機器學(xué)習(xí)的時候,把很大的精力放在了選擇算法、優(yōu)化算法上面,其實算法的選擇只是機器學(xué)習(xí)其中的一個步驟,但是機器學(xué)習(xí)其他的步驟也是很關(guān)鍵的,尤其是作為產(chǎn)品經(jīng)理,了解這個機器學(xué)習(xí)流程也是至關(guān)重要的。

機器學(xué)習(xí)的流程本質(zhì)上就是數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、數(shù)據(jù)處理、結(jié)果反饋的過程,按照這個思路,我們可以把機器學(xué)習(xí)分為如下步驟:業(yè)務(wù)場景分析、數(shù)據(jù)處理、特征工程、算法模型訓(xùn)練、應(yīng)用服務(wù)。下面具體介紹一下這幾個步驟。

1. 業(yè)務(wù)場景分析

業(yè)務(wù)場景分析就是將我們的業(yè)務(wù)需求、使用場景轉(zhuǎn)換成機器學(xué)習(xí)的需求語言,然后分析數(shù)據(jù),選擇算法的過程。這個是機器學(xué)習(xí)的準(zhǔn)備階段,主要包括以下3點:業(yè)務(wù)抽象、數(shù)據(jù)準(zhǔn)備、選擇算法。

(1)業(yè)務(wù)抽象

業(yè)務(wù)抽象說白了就是針對于業(yè)務(wù)需求,抽象成機器學(xué)習(xí)的應(yīng)用場景的問題,我們上節(jié)中講了機器學(xué)習(xí)的分類、聚類、回歸、降維的應(yīng)用場景,其實業(yè)務(wù)抽象就是把我們遇到的業(yè)務(wù)需求抽象成上述應(yīng)用場景。

比如我們要做產(chǎn)品推薦的需求,我們要把指定的產(chǎn)品推薦給相應(yīng)的用戶,也就是如何精準(zhǔn)營銷,給用戶推薦是合適的產(chǎn)品。

我們抽象成機器學(xué)習(xí)的語言就是一個產(chǎn)品A是否要推薦給用戶a,這就是一個是或者否的問題,也就是一個分類應(yīng)用場景。這就是業(yè)務(wù)抽象,就是把業(yè)務(wù)需求抽象成機器學(xué)習(xí)的應(yīng)用場景。

(2)數(shù)據(jù)準(zhǔn)備

機器學(xué)習(xí)的基礎(chǔ)就是數(shù)據(jù),沒有數(shù)據(jù)是無法訓(xùn)練模型,也就是機器是無法學(xué)習(xí)的,所以數(shù)據(jù)準(zhǔn)備就是識別、收集、加工數(shù)據(jù)階段。

通過圖譜我們了解到,我們能獲取到的數(shù)據(jù)有機構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),機器學(xué)習(xí)同樣的是這些數(shù)據(jù),這些數(shù)據(jù)類型在知識圖譜有講解,不在贅述,這里主要講一下作為產(chǎn)品經(jīng)理進行數(shù)據(jù)準(zhǔn)備時需要考慮的因素。

1)數(shù)據(jù)字段的考慮

關(guān)于數(shù)據(jù)字段考慮就是說我們在準(zhǔn)備數(shù)據(jù)時,無論是結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)話數(shù)據(jù),我們都要抽象成一個二維表,二維表表頭就是這些數(shù)據(jù)的表示或是數(shù)據(jù)的名稱,這個就是數(shù)據(jù)字段。

對于數(shù)據(jù)字段涉及到兩方面:

一方面就是數(shù)據(jù)字段范圍,也就是我們在做業(yè)務(wù)需求的時候需要哪些字段作為機器學(xué)習(xí)參數(shù),這跟我們做后臺產(chǎn)品經(jīng)理類似。

做后臺涉及需要進行數(shù)據(jù)項字段的設(shè)計,這些字段有業(yè)務(wù)字段、邏輯字段、系統(tǒng)字段等,對于機器學(xué)習(xí)字段考慮要比后臺設(shè)計的字段考慮更深一些,他不僅僅是后臺產(chǎn)生的這寫數(shù)據(jù),還包括一些過程數(shù)據(jù)、結(jié)果數(shù)據(jù)、埋點數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)(定性轉(zhuǎn)定量)等,具體我們可以參考一些統(tǒng)計學(xué)的方法,去收集、制定機器學(xué)習(xí)的字段。

一方面就是字段類型的判定,比如到底是字符串型的還是數(shù)值型的。

我們做回歸分析,需要的必須是數(shù)值型的,因為回歸是連續(xù)變量的分析,假如你要分析性別這個字段,那么必須把他的字段值定義成數(shù)值型的,例如0和1,這樣才算是連續(xù)變量,才能做回歸分析,假如要做分類,我們就可以把性別的字段設(shè)定成字符串,例如男和女。

2)數(shù)據(jù)的考慮

關(guān)于數(shù)據(jù)的考慮就是你能獲取到的數(shù)據(jù)案例,就是二維表中除了表頭數(shù)據(jù)字段名稱剩下的真實數(shù)據(jù)了,對于數(shù)據(jù)考慮,作為產(chǎn)品經(jīng)理我們要考慮兩點:

一個是數(shù)據(jù)量,在機器學(xué)習(xí)中,數(shù)據(jù)需要一定的量,希望可以盡可能的大;

一個是數(shù)據(jù)的缺省,這個是數(shù)據(jù)質(zhì)量問題,要求我們盡可能完善的收集數(shù)據(jù),如果數(shù)據(jù)缺失比較多或者數(shù)據(jù)亂碼比較多的字段,可以不參與模型測算,否則會影響結(jié)果,

(3)算法選擇

算法選擇確定了機器學(xué)習(xí)的需求、確定了數(shù)據(jù)項,選擇何種算法模型的問題,此階段由算法工程師主導(dǎo)的,我們知道機器學(xué)習(xí)有很多的算法,所以算法選擇也具有多樣性;

同樣一個問題可以多種算法解決,隨著計算機科學(xué)的發(fā)展,為了也會有更多的算法支持,同時同一種算法也可以通過調(diào)參進行優(yōu)化。

2. 數(shù)據(jù)處理

數(shù)據(jù)處理就是數(shù)據(jù)的選擇和清洗的過程,數(shù)據(jù)準(zhǔn)備好后,確定了算法,確定了需求,就需要對數(shù)據(jù)進行處理,數(shù)據(jù)處理的目的就是盡可能降低對算法的干擾。在數(shù)據(jù)處理中我們會經(jīng)常用到“去噪”和“歸一”。

去噪就是去除數(shù)中干擾的數(shù)據(jù),也就是說你的數(shù)據(jù)案例中存在特別情況的,或者是不正常的數(shù)據(jù),一方面要求我們產(chǎn)品經(jīng)理拿到的數(shù)據(jù)是反映真實世界的數(shù)據(jù),一方面我們通過算法可以識別干擾的數(shù)據(jù),比如對于數(shù)據(jù)有正態(tài)分布效果的我們可以通過3標(biāo)準(zhǔn)差去噪,因此去噪的目的就是去除掉數(shù)據(jù)中異常的數(shù)據(jù)。

歸一就是將數(shù)據(jù)進行簡化,一般將數(shù)據(jù)簡化在【0,1】,數(shù)據(jù)歸一化主要是幫助算法能夠很好的尋找最優(yōu)解。

一方面解決的是對于一個數(shù)據(jù)字段可有多重標(biāo)示方式,然后數(shù)據(jù)拿到的多重標(biāo)示方式的時候,比如一群羊有30只羊,然后你那到的數(shù)據(jù)有以群為單位的,有以只為單位的,那么著數(shù)據(jù)必然有誤差;

再比如形容一個小時,我們可以以小時單位,也可以以分鐘為單位,也可以以秒單位,因為數(shù)據(jù)分析是不分析單位的,就需要歸一化處理,這也就是歸一化解決的第一個問題“去量綱”這需要產(chǎn)品經(jīng)理在獲取數(shù)據(jù)的時候,統(tǒng)一數(shù)據(jù)計量單位;

歸一化另外一個問題就是解決算法“收斂”的問題,這個需要算法去實現(xiàn),比如你要分析X和Y,X的數(shù)據(jù)范圍是【0-10】,Y的數(shù)據(jù)范圍是【0-100000】算法在處理時考慮到數(shù)據(jù)收斂問題,會對數(shù)據(jù)標(biāo)準(zhǔn)化處理。

當(dāng)然在數(shù)據(jù)處理中有很多手段,并且有很多算法協(xié)助去處理,數(shù)據(jù)梳理的目的就是按照業(yè)務(wù)場景將數(shù)據(jù)優(yōu)化成對算法模型干擾最小的階段。

3. 特征工程

在機器學(xué)習(xí)中有這么一種說法,數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,模型和算法只是逼近這個上限,數(shù)據(jù)和特征是算法模型的基礎(chǔ),所謂特征工程就是對處理完成后的數(shù)據(jù)進行特征提取,轉(zhuǎn)換成算法模型可以使用的數(shù)據(jù)。

特征功能的目的有以下幾個方面:

從數(shù)據(jù)抽取出對預(yù)測結(jié)果有用的數(shù)據(jù);

從數(shù)據(jù)中構(gòu)建衍生出對結(jié)果有用的信息;

尋找更好的特征提高算法高效性;

尋找更好的特征可以選擇簡單的模型就能出具更好的擬合效果。

一般情況下在數(shù)據(jù)處理過程中就可以進行特征工程的工作,比如歸一化處理,我們可能在進行特征發(fā)現(xiàn)的時候,還需要進一步進行數(shù)據(jù)處理。

什么是特征?特征就是在原始數(shù)據(jù)可測量的屬性,可測量可以理解成這個數(shù)據(jù)指標(biāo)可以被統(tǒng)計,可以被運算或是計算,比如時間戳數(shù)據(jù),我們通常獲取的數(shù)據(jù)就是年月日時分秒的結(jié)構(gòu),比如2019-01-09;12:30:45,這樣一個數(shù)據(jù)是無法被機器學(xué)習(xí)所運算的,所以需要對這個數(shù)進行特征轉(zhuǎn)換,轉(zhuǎn)換成一些數(shù)值的表達式,以便于算法理解。

特征工程處理過程包括特征的抽象、特征的評估與選擇(同一數(shù)據(jù)可以抽象成多種特征,對多種特征進行評估和選擇)、特征的衍生(特征與特征之間進行組合使用)。特征工程是特征業(yè)務(wù)定義、算法、數(shù)據(jù)處理綜合的應(yīng)用。

作為產(chǎn)品經(jīng)理,我們重點說明一下特征的抽象。特征的抽象就是對原數(shù)據(jù)轉(zhuǎn)換成特征數(shù)據(jù)的過程。

我們舉幾個例子來說明一下:比如你收集到的數(shù)據(jù)值字符型的數(shù)據(jù),比如你收集到的數(shù)據(jù)是“是和否”型的數(shù)據(jù),這種數(shù)據(jù)機器是無法運算的,那么我們可以轉(zhuǎn)換成“0和1”這樣講數(shù)據(jù)進行特征抽象后就可以機器學(xué)習(xí)了。

特征工程是機器學(xué)習(xí)很重要的一環(huán),特征的好壞直接影響了機器學(xué)些的結(jié)果,對于同一組數(shù)據(jù),我們可能用了相同的算法,但是因為特征選擇的不同,我們最終得出的質(zhì)量也會有很大的差別。所以對特征工程有興趣的可以參考相關(guān)其他相關(guān)更詳細的資料。

4. 模型訓(xùn)練與應(yīng)用服務(wù)

模型訓(xùn)練就是經(jīng)歷了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理、特征工程之后,根據(jù)選擇好的算法,進行訓(xùn)練與評估,通過算法訓(xùn)練得到算法模型,通過新數(shù)據(jù)測試完成模型質(zhì)量的評估,這款主要工作在算法工程師這里,產(chǎn)品經(jīng)理重點關(guān)注模型在新數(shù)據(jù)不斷注入的情況下是可以反復(fù)訓(xùn)練的。

應(yīng)用服務(wù)就是說模型訓(xùn)練好了,如何輸出的問題,以及如何快速訓(xùn)練模型、配置模型相關(guān)參數(shù)的問題,對于模型的應(yīng)用可以通過API的方式供應(yīng)用層調(diào)用,應(yīng)用層也可以通過配置頁面來配置模型相關(guān)參數(shù),比如置信度等。

5. 了解機器學(xué)習(xí)流程對產(chǎn)品經(jīng)理意義

通過簡單直白的介紹機器學(xué)習(xí)流程,對我們產(chǎn)品經(jīng)理有以下意義:

機器學(xué)習(xí)過程,不是一個簡單的過程,不是說定好了需求,直接交給算法工程師就可以了,產(chǎn)品經(jīng)理要把握機器學(xué)習(xí)業(yè)務(wù)場景抽象;要對原始數(shù)據(jù)質(zhì)量、數(shù)量有很好的把控;對特征的抽象需要有深入的了解;

機器學(xué)習(xí)的基礎(chǔ)是數(shù)據(jù)、以及數(shù)據(jù)特征的轉(zhuǎn)換,需要我們對處理的處理過程有更深層次的了解與掌握,需要多學(xué)一些數(shù)據(jù)、統(tǒng)計學(xué)、計量學(xué)相關(guān)知識;

機器學(xué)習(xí)的需求也不僅僅是通過原型、文檔就能解決的,需要產(chǎn)品經(jīng)理與工程師深度的合作,參與到機器學(xué)習(xí)的過程中。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7256

    瀏覽量

    91910
  • 互聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    55

    文章

    11251

    瀏覽量

    106485
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134646
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機場保障能力評估系統(tǒng)軟件全面解析

    機場保障能力評估系統(tǒng)軟件全面解析
    的頭像 發(fā)表于 07-17 22:06 ?44次閱讀
    機場保障能力評估系統(tǒng)軟件<b class='flag-5'>全面</b><b class='flag-5'>解析</b>

    電磁數(shù)據(jù)展示系統(tǒng)軟件平臺全面解析

    電磁數(shù)據(jù)展示系統(tǒng)軟件平臺全面解析
    的頭像 發(fā)表于 05-13 10:13 ?178次閱讀
    電磁數(shù)據(jù)展示系統(tǒng)軟件平臺<b class='flag-5'>全面</b><b class='flag-5'>解析</b>

    電磁兼容與雷達隱身技術(shù)測試系統(tǒng)平臺全面解析

    電磁兼容與雷達隱身技術(shù)測試系統(tǒng)平臺全面解析
    的頭像 發(fā)表于 04-28 17:10 ?222次閱讀
    電磁兼容與雷達隱身技術(shù)測試系統(tǒng)平臺<b class='flag-5'>全面</b><b class='flag-5'>解析</b>

    電磁環(huán)境動態(tài)監(jiān)測與分析平臺軟件全面解析

    電磁環(huán)境動態(tài)監(jiān)測與分析平臺軟件全面解析
    的頭像 發(fā)表于 04-28 16:28 ?254次閱讀
    電磁環(huán)境動態(tài)監(jiān)測與分析平臺軟件<b class='flag-5'>全面</b><b class='flag-5'>解析</b>

    電磁脈沖防護系統(tǒng)平臺全面解析

    電磁脈沖防護系統(tǒng)平臺全面解析
    的頭像 發(fā)表于 04-27 16:57 ?253次閱讀
    電磁脈沖防護系統(tǒng)平臺<b class='flag-5'>全面</b><b class='flag-5'>解析</b>

    別再傻傻分不清!USB和TYPE-C的全面解析

    別再傻傻分不清!USB和TYPE-C的全面解析
    的頭像 發(fā)表于 04-26 15:51 ?4380次閱讀

    機器學(xué)習(xí)模型市場前景如何

    當(dāng)今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學(xué)習(xí)模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學(xué)習(xí)模型市場的未來發(fā)展。
    的頭像 發(fā)表于 02-13 09:39 ?365次閱讀

    國產(chǎn)舜銘存儲SF25C20對標(biāo)MB85RS2MT性能、優(yōu)勢全面解析

    國產(chǎn)舜銘存儲SF25C20對標(biāo)MB85RS2MT性能、優(yōu)勢全面解析
    的頭像 發(fā)表于 01-06 10:20 ?534次閱讀
    國產(chǎn)舜銘存儲SF25C20對標(biāo)MB85RS2MT性能、優(yōu)勢<b class='flag-5'>全面</b><b class='flag-5'>解析</b>

    傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    在上一篇文章中,我們介紹了機器學(xué)習(xí)的關(guān)鍵概念術(shù)語。在本文中,我們會介紹傳統(tǒng)機器學(xué)習(xí)的基礎(chǔ)知識和多種算法特征,供各位老師選擇。 01 傳統(tǒng)機器
    的頭像 發(fā)表于 12-30 09:16 ?1194次閱讀
    傳統(tǒng)<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    如何選擇云原生機器學(xué)習(xí)平臺

    當(dāng)今,云原生機器學(xué)習(xí)平臺因其彈性擴展、高效部署、低成本運營等優(yōu)勢,逐漸成為企業(yè)構(gòu)建和部署機器學(xué)習(xí)應(yīng)用的首選。然而,市場上的云原生機器
    的頭像 發(fā)表于 12-25 11:54 ?459次閱讀

    什么是機器學(xué)習(xí)?通過機器學(xué)習(xí)方法能解決哪些問題?

    來源:Master編程樹“機器學(xué)習(xí)”最初的研究動機是讓計算機系統(tǒng)具有人的學(xué)習(xí)能力以便實現(xiàn)人工智能。因為沒有學(xué)習(xí)能力的系統(tǒng)很難被認為是具有智能的。目前被廣泛采用的
    的頭像 發(fā)表于 11-16 01:07 ?967次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法能解決哪些問題?

    NPU與機器學(xué)習(xí)算法的關(guān)系

    在人工智能領(lǐng)域,機器學(xué)習(xí)算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學(xué)習(xí)機器
    的頭像 發(fā)表于 11-15 09:19 ?1230次閱讀

    【「時間序列與機器學(xué)習(xí)」閱讀體驗】時間序列的信息提取

    個重要環(huán)節(jié),目標(biāo)是從給定的時間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預(yù)測任務(wù)。 特征工程(Feature Engineering)是將數(shù)據(jù)轉(zhuǎn)換為更好地表示潛在問題的特征,從而提高機器學(xué)習(xí)
    發(fā)表于 08-17 21:12

    【「時間序列與機器學(xué)習(xí)」閱讀體驗】+ 鳥瞰這本書

    清晰,從時間序列分析的基礎(chǔ)理論出發(fā),逐步深入到機器學(xué)習(xí)算法在時間序列預(yù)測中的應(yīng)用,內(nèi)容全面,循序漸進。每一章都經(jīng)過精心設(shè)計,對理論知識進行了詳細的闡述,對實際案例進行了生動的展示,使讀者在理論與實踐
    發(fā)表于 08-12 11:28

    【「時間序列與機器學(xué)習(xí)」閱讀體驗】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學(xué)習(xí)融合應(yīng)用的宏偉藍圖。作者不僅扎實地構(gòu)建了時間序列分析的基礎(chǔ)知識,更巧妙地展示了機器學(xué)習(xí)如何在這一領(lǐng)域發(fā)揮巨
    發(fā)表于 08-12 11:21