一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

最基礎(chǔ)的半監(jiān)督學(xué)習(xí)

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:Neeraj varshney ? 2020-11-02 16:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀

最基礎(chǔ)的半監(jiān)督學(xué)習(xí)的概念,給大家一個感性的認識。

半監(jiān)督學(xué)習(xí)(SSL)是一種機器學(xué)習(xí)技術(shù),其中任務(wù)是從一個小的帶標簽的數(shù)據(jù)集和相對較大的未帶標簽的數(shù)據(jù)中學(xué)習(xí)得到的。SSL的目標是要比單獨使用有標記數(shù)據(jù)訓(xùn)練的監(jiān)督學(xué)習(xí)技術(shù)得到更好的結(jié)果。這是半監(jiān)督學(xué)習(xí)系列文章的第1部分,對這個機器學(xué)習(xí)的重要子領(lǐng)域進行了簡要的介紹。

區(qū)分半監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)

整個數(shù)據(jù)集中可用于訓(xùn)練的有標記數(shù)據(jù)的范圍區(qū)分了機器學(xué)習(xí)的這三個相關(guān)領(lǐng)域。

監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)中最流行的模式,在這種模式中,可以通過標簽的形式獲得完整的監(jiān)督。整個數(shù)據(jù)集都有標記,即一個標簽與訓(xùn)練數(shù)據(jù)集中的每個樣本相關(guān)聯(lián)。機器學(xué)習(xí)模型使用這個標簽數(shù)據(jù)集訓(xùn)練,并期望對新的樣本預(yù)測一個標簽。監(jiān)督學(xué)習(xí)主要包括兩類任務(wù):分類和回歸。分類問題要求算法預(yù)測一個離散值,而回歸任務(wù)是需要從輸入變量(X)逼近一個映射函數(shù)(f)到連續(xù)輸出變量(y)。

手寫數(shù)字識別使用(MNIST)數(shù)據(jù)集。每個樣本都有一個圖像和對應(yīng)的數(shù)字作為標簽。任務(wù)是學(xué)習(xí)從圖像中預(yù)測標簽(即數(shù)字)。

另一個例子是情感分類,使用IMDB數(shù)據(jù)集。每條記錄都包含一個評論和一個相應(yīng)的標簽(正面的或負面的)。這里的任務(wù)是預(yù)測給定評論的情緒。

房價預(yù)測是一個回歸任務(wù),其中標簽(房價)是一個連續(xù)變量。

在無監(jiān)督學(xué)習(xí)中,沒有標記數(shù)據(jù)可用。訓(xùn)練數(shù)據(jù)集包含樣本,但沒有特定的期望結(jié)果或標簽。機器學(xué)習(xí)模型試圖通過提取有用的特征并對其進行分析來自動地在數(shù)據(jù)中找到結(jié)構(gòu)。像聚類、異常檢測、關(guān)聯(lián)等任務(wù)屬于無監(jiān)督學(xué)習(xí)。

聚類是將數(shù)據(jù)集劃分為多個簇,使同一簇中的數(shù)據(jù)點與同一簇中的其他數(shù)據(jù)點更相似,與其他簇中的數(shù)據(jù)點不相似。例如,下圖(左)中的數(shù)據(jù)點可以分成3個簇,如圖(右)所示。注意,簇可以是任何形狀。

半監(jiān)督式學(xué)習(xí)(SSL),正如其名稱所示,介于兩個極端之間(監(jiān)督式是指整個數(shù)據(jù)集被標記,而非監(jiān)督式是指沒有標記)。半監(jiān)督學(xué)習(xí)任務(wù)具有一個標記和一個未標記的數(shù)據(jù)集。它使用未標記的數(shù)據(jù)來獲得對數(shù)據(jù)結(jié)構(gòu)的更多理解。通常,SSL使用小的帶標簽數(shù)據(jù)集和較大的未帶標簽數(shù)據(jù)集來進行學(xué)習(xí)。

我們的目標是學(xué)習(xí)一個預(yù)測器來預(yù)測未來的測試數(shù)據(jù),這個預(yù)測器比單獨從有標記的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的預(yù)測器更好。

監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)在標記數(shù)據(jù)上的差別可視化

為什么要關(guān)注半監(jiān)督學(xué)習(xí)

在許多實際應(yīng)用中,收集大的有標簽數(shù)據(jù)集太昂貴或者不可行,但是有大量的無標簽數(shù)據(jù)可用。對于這種情況,半監(jiān)督學(xué)習(xí)是一個完美的方案。SSL技術(shù)可以利用帶標簽的數(shù)據(jù),也可以從未帶標簽的數(shù)據(jù)派生結(jié)構(gòu),從而更好地解決總體任務(wù)。

典型的監(jiān)督學(xué)習(xí)算法在標記數(shù)據(jù)集較小的情況下,容易出現(xiàn)過擬合問題。SSL通過在訓(xùn)練過程中理解未標記數(shù)據(jù)的結(jié)構(gòu)來緩解這個問題。

此外,這種學(xué)習(xí)技術(shù)減輕了構(gòu)建大量標記數(shù)據(jù)集來學(xué)習(xí)任務(wù)的負擔(dān)。SSL方法更接近我們?nèi)祟惖膶W(xué)習(xí)方式。

讓我們舉個例子來直觀地看看半監(jiān)督學(xué)習(xí)的效果。在下面的圖中,當只對標記數(shù)據(jù)(大的黑點和白點)進行訓(xùn)練(即對標記數(shù)據(jù)進行監(jiān)督學(xué)習(xí))時,決策邊界(虛線)并不遵循數(shù)據(jù)“流形”的輪廓,這可以由額外的未標記數(shù)據(jù)(小灰點)來表示。

因此,SSL的目標是利用未標記數(shù)據(jù)來生成決策邊界,從而更好地反映數(shù)據(jù)的底層結(jié)構(gòu)。

由不同的半監(jiān)督學(xué)習(xí)方法生成的決策邊界

半監(jiān)督學(xué)習(xí)的任務(wù)舉例

CIFAR-10— 它是由10個類的32×32像素的RGB圖像組成的數(shù)據(jù)集,任務(wù)是圖像分類。通常使用Tiny Images數(shù)據(jù)集中的隨機圖像來形成未標記數(shù)據(jù)集。

SVHN— 街景門牌號數(shù)據(jù)集由真實門牌號的32×32像素的RGB圖像組成,任務(wù)是分類最中間的數(shù)字。它附帶一個“SVHN-extra”數(shù)據(jù)集,該數(shù)據(jù)集由531,131個額外的數(shù)字圖像組成,可以用作未標記數(shù)據(jù)。

Text-Classification Tasks— 亞馬遜評論數(shù)據(jù)庫,Yelp評論數(shù)據(jù)集。

總結(jié)

半監(jiān)督學(xué)習(xí)是一種有趣的方法,用于解決機器學(xué)習(xí)中缺乏標記數(shù)據(jù)的問題。SSL算法還利用未標記數(shù)據(jù)來提高監(jiān)督學(xué)習(xí)算法的性能。SSL算法通常提供了一種從無標簽示例中了解數(shù)據(jù)結(jié)構(gòu)的方法,減輕了對標簽的需求。

本系列的第2部分會介紹了一些具體的SSL技術(shù),未完待續(xù)。

責(zé)任編輯:xj

原文標題:半監(jiān)督學(xué)習(xí)入門基礎(chǔ)(一)

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SSL
    SSL
    +關(guān)注

    關(guān)注

    0

    文章

    130

    瀏覽量

    26192
  • 半監(jiān)督
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6396
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8501

    瀏覽量

    134534
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5560

    瀏覽量

    122762

原文標題:半監(jiān)督學(xué)習(xí)入門基礎(chǔ)(一)

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進來呢?

    的基本理論。了解監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的基本原理。例如,在監(jiān)督學(xué)習(xí)中,理解如何通過標注數(shù)據(jù)來訓(xùn)練模型進行分類或回歸任務(wù),像通過大量的貓和狗的圖片標注數(shù)據(jù)來訓(xùn)練一個圖像分類模型,
    發(fā)表于 07-08 17:44

    機器學(xué)習(xí)異常檢測實戰(zhàn):用Isolation Forest快速構(gòu)建無標簽異常檢測系統(tǒng)

    本文轉(zhuǎn)自:DeepHubIMBA無監(jiān)督異常檢測作為機器學(xué)習(xí)領(lǐng)域的重要分支,專門用于在缺乏標記數(shù)據(jù)的環(huán)境中識別異常事件。本文深入探討異常檢測技術(shù)的理論基礎(chǔ)與實踐應(yīng)用,通過IsolationForest
    的頭像 發(fā)表于 06-24 11:40 ?614次閱讀
    機器<b class='flag-5'>學(xué)習(xí)</b>異常檢測實戰(zhàn):用Isolation Forest快速構(gòu)建無標簽異常檢測系統(tǒng)

    使用MATLAB進行無監(jiān)督學(xué)習(xí)

    監(jiān)督學(xué)習(xí)是一種根據(jù)未標注數(shù)據(jù)進行推斷的機器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)旨在識別數(shù)據(jù)中隱藏的模式和關(guān)系,無需任何監(jiān)督或關(guān)于結(jié)果的先驗知識。
    的頭像 發(fā)表于 05-16 14:48 ?662次閱讀
    使用MATLAB進行無<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>

    橋LLC諧振電路的工作原理與模態(tài)分析

    前言:本文參考橋LLC諧振轉(zhuǎn)換器工作原理并結(jié)合自己想法整理而成,本人在查找一些AC-DC開關(guān)電源方面的知識時,沒有在國內(nèi)網(wǎng)站找到很詳細的介紹全橋的拓撲以及工作原理介紹,于是打算自己在學(xué)習(xí)過程中
    的頭像 發(fā)表于 02-12 11:03 ?3294次閱讀
    <b class='flag-5'>半</b>橋LLC諧振電路的工作原理與模態(tài)分析

    使用卷積神經(jīng)網(wǎng)絡(luò)進行圖像分類的步驟

    (例如,高分辨率、不同光照條件等)。 2. 數(shù)據(jù)收集 獲取數(shù)據(jù)集 :收集或購買一個包含你想要分類的圖像的數(shù)據(jù)集。 數(shù)據(jù)標注 :確保所有圖像都被正確標注,這對于監(jiān)督學(xué)習(xí)是必要的。 3. 數(shù)據(jù)預(yù)處理 圖像尺寸標準化 :將所有圖像調(diào)整為相同的尺寸,
    的頭像 發(fā)表于 11-15 15:01 ?832次閱讀

    時空引導(dǎo)下的時間序列自監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個組織聯(lián)合發(fā)布了一篇時間序列無監(jiān)督預(yù)訓(xùn)練的文章,相比原來的TS2Vec等時間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)訓(xùn)練階段,即在預(yù)訓(xùn)練階段
    的頭像 發(fā)表于 11-15 11:41 ?755次閱讀
    時空引導(dǎo)下的時間序列自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>框架

    曙光公司成都云中心助力提升監(jiān)督質(zhì)效

    數(shù)字化時代,用好大數(shù)據(jù),推動數(shù)字技術(shù)深度融入紀檢監(jiān)察各項業(yè)務(wù),是大勢所趨。當前,各地正在探索推進大數(shù)據(jù)監(jiān)督,借助海量數(shù)據(jù)、算力、算法,不斷延伸監(jiān)督的觸角,拓展發(fā)現(xiàn)問題的渠道。以“算力”補“人力”,“人去看”加“云端算”,大數(shù)據(jù)在類案分析、預(yù)警糾治、溯源治理等方面,正發(fā)揮越
    的頭像 發(fā)表于 11-05 10:05 ?522次閱讀

    加器和全加器的功能特點

    加器和全加器是數(shù)字電路中的基本組件,用于執(zhí)行二進制數(shù)的加法運算。它們在計算機、微處理器和其他數(shù)字系統(tǒng)中扮演著重要角色。 加器的功能特點 加器是一種簡單的數(shù)字電路,它能夠?qū)崿F(xiàn)兩個一位二進制數(shù)
    的頭像 發(fā)表于 10-18 11:10 ?3653次閱讀

    展會回顧 | 阿丘科技亮相斯圖加特國際機器視覺展,并發(fā)表主題演講

    阿丘科技攜四大核心展品驚艷亮相:工業(yè)視覺大模型、非監(jiān)督學(xué)習(xí)技術(shù)、生成式AI技術(shù)以及電池行業(yè)檢測解決方案。這些展品全面展示了阿丘科技在工業(yè)AI視覺領(lǐng)域的深厚積累與卓
    的頭像 發(fā)表于 10-16 08:07 ?720次閱讀
    展會回顧 | 阿丘科技亮相斯圖加特國際機器視覺展,并發(fā)表主題演講

    哈爾濱工業(yè)大學(xué)在超分辨顯微成像技術(shù)領(lǐng)域取得突破性進展

    近日,哈爾濱工業(yè)大學(xué)儀器學(xué)院先進光電成像技術(shù)研究室(IPIC)李浩宇教授團隊在生物醫(yī)學(xué)超分辨顯微成像技術(shù)領(lǐng)域取得突破性進展。針對目前活體細胞超分辨成像領(lǐng)域中光子效率不足的難題,團隊提出一種基于無監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 09-27 06:33 ?576次閱讀
    哈爾濱工業(yè)大學(xué)在超分辨顯微成像技術(shù)領(lǐng)域取得突破性進展

    電容補償和全補償?shù)膮^(qū)別

    電容補償和全補償是兩種不同的無功補償方式,主要區(qū)別在于補償?shù)某潭群托Ч?。以下是它們的具體區(qū)別: 1、補償程度 : 補償 :電容補償只補償一部分無功功率。通常設(shè)計為補償?shù)焦β室驍?shù)達到0.9左右
    的頭像 發(fā)表于 08-14 14:08 ?1721次閱讀
    電容<b class='flag-5'>半</b>補償和全補償?shù)膮^(qū)別

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自監(jiān)督學(xué)習(xí)策略,在大量無標簽文本數(shù)據(jù)上學(xué)習(xí)
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)篇

    章節(jié)最后總結(jié)了機器學(xué)習(xí)的分類:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和強化
    發(fā)表于 07-25 14:33

    旗晟機器人人員行為監(jiān)督AI智慧算法

    ,以實現(xiàn)對工業(yè)場景巡檢運維的高效化目標。那么,下面我們來談?wù)勂礻蓹C器人AI智慧算法之一——人員行為監(jiān)督AI智慧算法。 旗晟人員行為監(jiān)督AI智慧算法是通過各類采集設(shè)備與AI服務(wù)器,結(jié)合行業(yè)大數(shù)據(jù)庫積累以及自研AI深度學(xué)習(xí)算法模
    的頭像 發(fā)表于 07-24 17:05 ?518次閱讀
    旗晟機器人人員行為<b class='flag-5'>監(jiān)督</b>AI智慧算法

    三位和四位萬用表的區(qū)別

    三位和四位萬用表是電子測量領(lǐng)域中常用的兩種數(shù)字萬用表,它們在測量精度、顯示方式、應(yīng)用范圍等方面存在一定的差異。本文將從多個方面詳細分析這兩種萬用表的區(qū)別。 一、基本概念 三位萬用表 三位
    的頭像 發(fā)表于 07-14 14:23 ?1w次閱讀