一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決長(zhǎng)尾和冷啟動(dòng)問(wèn)題的基本方法

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:圓圓的算法筆記 ? 作者:圓圓的算法筆記 ? 2022-09-05 14:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1什么是長(zhǎng)尾問(wèn)題

長(zhǎng)尾問(wèn)題一直是很多場(chǎng)景中最難優(yōu)化的問(wèn)題,特別是在推薦系統(tǒng)領(lǐng)域,長(zhǎng)尾問(wèn)題十分常見(jiàn),卻很難優(yōu)化。在推薦系統(tǒng)中,長(zhǎng)尾問(wèn)題指的是,某些實(shí)體在訓(xùn)練數(shù)據(jù)中出現(xiàn)次數(shù)非常少,導(dǎo)致模型對(duì)這部分樣本打分效果很差。典型的場(chǎng)景包括,新用戶沒(méi)有幾條瀏覽行為,如何準(zhǔn)確推薦用戶感興趣的內(nèi)容;一些商品非常小眾,用戶反饋很少,如何對(duì)這些商品進(jìn)行推薦等等。長(zhǎng)尾在一個(gè)成熟的系統(tǒng)中往往服從二八定律,即20%的頭部實(shí)體貢獻(xiàn)了80%的數(shù)據(jù),而剩余80%的實(shí)體只有20%的數(shù)據(jù),實(shí)際場(chǎng)景中甚至比二八還要長(zhǎng)尾。

長(zhǎng)尾問(wèn)題的難點(diǎn)主要體現(xiàn)在以下2點(diǎn)。首先,長(zhǎng)尾實(shí)體的樣本量太少,模型很難學(xué)習(xí)這部分樣本的規(guī)律,例如用戶的embedding、商品的embedding等,都是需要大量數(shù)據(jù)學(xué)習(xí)的。其次,頭部樣本在數(shù)量上占絕對(duì)優(yōu)勢(shì),導(dǎo)致模型偏向擬合頭部樣本的規(guī)律,而尾部樣本的規(guī)律和頭部樣本可能有較大差異,導(dǎo)致模型在尾部樣本效果不好。

2如何解決長(zhǎng)尾問(wèn)題

那么,如何解決長(zhǎng)尾問(wèn)題呢?業(yè)內(nèi)工作主要包括兩種核心優(yōu)化方法。第一種方法是基于meta-learning解決長(zhǎng)尾問(wèn)題。剛才我們說(shuō)到,長(zhǎng)尾用戶或商品的數(shù)據(jù)量少,模型難學(xué)習(xí),那么我們就讓模型具備在少量樣本上能學(xué)的比較好的能力就可以了。而meta-learning正是讓模型實(shí)現(xiàn)上述能力的方法。我在之前的文章Meta-learning核心思想及近年頂會(huì)3個(gè)優(yōu)化方向中對(duì)meta-learning的核心思路進(jìn)行了詳細(xì)介紹,感興趣的同學(xué)可以進(jìn)一步深入閱讀。第二種方法是基于圖學(xué)習(xí)解決長(zhǎng)尾問(wèn)題。長(zhǎng)尾部分的由于數(shù)據(jù)少無(wú)法學(xué)到良好的embedding,在圖學(xué)習(xí)中,可以利用豐富的鄰居節(jié)點(diǎn)信息對(duì)長(zhǎng)尾實(shí)體的信息進(jìn)行補(bǔ)充,進(jìn)而學(xué)到更好的embedding。

下面,我們分別來(lái)看看基于meta-learning的方法和基于圖學(xué)習(xí)的方法解決長(zhǎng)尾問(wèn)題的典型工作。

3基于meta-learning的方法

基于meta-learning的長(zhǎng)尾問(wèn)題解決方法又可以分為兩種思路,一種是利用meta-learning生成長(zhǎng)尾用戶或商品的良好embedding,另一種是利用meta-learning讓模型獲得在小樣本上的快速學(xué)習(xí)能力。這里分別介紹兩個(gè)思路的兩篇經(jīng)典文章。

第一篇文章是Improving ctr predictions via learning to learn id embeddings(SIGIR 2019)。這篇文章主要場(chǎng)景是廣告的ctr預(yù)估,解決的問(wèn)題是如何提升冷啟動(dòng)廣告的預(yù)測(cè)效果。本文提出了基于meta-learning的冷啟動(dòng)廣告embedding學(xué)習(xí)方法。首先將每個(gè)ad的ctr預(yù)測(cè)看成是meta-learning中一個(gè)獨(dú)立的任務(wù)。然后學(xué)習(xí)一個(gè)embedding生成器,生成器的輸入是廣告的特征,輸出embedding。整個(gè)過(guò)程利用meta-learning的思路進(jìn)行學(xué)習(xí),利用meta-learning中的support set和query set模擬一個(gè)冷啟動(dòng)廣告生成embedding和使用embedding預(yù)測(cè),進(jìn)而優(yōu)化embedding生成器。

b9d71712-2cd9-11ed-ba43-dac502259ad0.png

整個(gè)meta-learning的過(guò)程如下所示,在一個(gè)預(yù)訓(xùn)練好的模型基礎(chǔ)上進(jìn)行。隨機(jī)選擇一些廣告,生成兩個(gè)batch的數(shù)據(jù)。使用embedding生成器生成embedding后使用第一個(gè)batch計(jì)算loss,再利用這個(gè)loss更新一步生成器(內(nèi)循環(huán));然后使用更新后的生成器計(jì)算另一個(gè)batch上的loss(外循環(huán)),并更新最終參數(shù)。

b9ee5b16-2cd9-11ed-ba43-dac502259ad0.png

第二篇文章是MeLU: meta-learned user preference estimator for cold-start recommendation(KDD 2019)。這篇文章主要也是借助了meta-learning讓模型具有快速學(xué)習(xí)能力,讓模型能夠在冷啟動(dòng)樣本上,只看到少數(shù)幾個(gè)item就能進(jìn)行快速的更新參數(shù)。

ba01e0aa-2cd9-11ed-ba43-dac502259ad0.png

這篇文章重點(diǎn)解決的是user側(cè)的冷啟動(dòng)問(wèn)題,對(duì)于一個(gè)user的數(shù)據(jù)分成support set和query set,在support set內(nèi)循環(huán)后在queryset評(píng)估效果并進(jìn)行全局更新。embedding層不使用meta-learning,只在全連接層進(jìn)行meta-learning。

ba18ba14-2cd9-11ed-ba43-dac502259ad0.png

4基于圖學(xué)習(xí)的方法

基于圖的學(xué)習(xí)方法通過(guò)圖建立不同實(shí)體之間的關(guān)系,進(jìn)而可以用其他實(shí)體的信息豐富長(zhǎng)尾實(shí)體的信息,緩解由于長(zhǎng)尾導(dǎo)致的樣本不充分無(wú)法學(xué)習(xí)良好表示的問(wèn)題。

Learning Graph Meta Embeddings for Cold-Start Ads in Click-Through Rate Prediction(SIGIR 2021)利用圖學(xué)習(xí)解決新ad的embedding生成問(wèn)題。對(duì)于新ad,使用屬性特征和圖學(xué)習(xí)生成一個(gè)合理的embedding。根據(jù)屬性重合度構(gòu)造新ad的相似鄰居,并按照屬性的重合度排序,得到最相似的幾個(gè)ad。然后利用GAT進(jìn)行new ad和其鄰居的信息融合,再用全連接生成新ad的向量表示,作為id embedding。這個(gè)過(guò)程相當(dāng)于根據(jù)屬性找到與新ad最相似的舊ad,用舊ad的信息豐富新ad的embedding。在訓(xùn)練方法上,先用舊ad訓(xùn)練一個(gè)正常的ctr預(yù)估模型,然后固定ctr模型的參數(shù),單獨(dú)訓(xùn)練新ad表示生成部分的參數(shù),利用meta-learning的方法更新模型參數(shù)。

ba3e8a78-2cd9-11ed-ba43-dac502259ad0.png

Graph Intention Network for Click-through Rate Prediction in Sponsored Search(SIGIR 2019)也是一篇比較有代表性的工作。CTR預(yù)估中經(jīng)常需要對(duì)歷史行為建模提升效果(比如用戶歷史點(diǎn)擊過(guò)的商品),但是長(zhǎng)尾用戶的歷史行為比較稀疏。因此這篇文章提出,利用點(diǎn)擊行為構(gòu)造商品和商品之間的圖,利用這個(gè)圖補(bǔ)充歷史行為信息。通過(guò)商品-商品圖,可以挖掘出和當(dāng)前商品高度相關(guān)的其他商品,這些商品雖然沒(méi)有直接的點(diǎn)擊行為,但由于和點(diǎn)擊過(guò)的商品高度相關(guān),因此用戶點(diǎn)擊這些商品的概率可能也很高。通過(guò)這種基于圖擴(kuò)展信息的方法,解決長(zhǎng)尾用戶歷史行為稀疏的問(wèn)題。

ba529e64-2cd9-11ed-ba43-dac502259ad0.png

5總結(jié)

本文為大家介紹了解決長(zhǎng)尾和冷啟動(dòng)問(wèn)題的基本方法,主要包括meta-learning和圖學(xué)習(xí)兩個(gè)路線。Meta-learning更側(cè)重于讓模型具有在小樣本上快速學(xué)習(xí)的能力;而圖學(xué)習(xí)更側(cè)重于挖掘和長(zhǎng)尾實(shí)體相關(guān)的鄰居,用鄰居信息補(bǔ)充長(zhǎng)尾實(shí)體的信息。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7256

    瀏覽量

    91830
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3519

    瀏覽量

    50407
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    322

    瀏覽量

    21889

原文標(biāo)題:長(zhǎng)尾預(yù)測(cè)效果不好怎么辦?試試這兩種思路

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    無(wú)位置傳感器無(wú)刷直流電機(jī)啟動(dòng)的新方法研究

    摘 要:針對(duì)無(wú)位置傳感器無(wú)刷直流電機(jī)的啟動(dòng)問(wèn)題,提出了對(duì)三段式閉環(huán)啟動(dòng)中的預(yù)定位,外加速過(guò)程的改進(jìn)方法。在轉(zhuǎn)子定位階段采用基于空間電壓矢量調(diào)制的短時(shí)脈沖來(lái)獲得轉(zhuǎn)子初始位置,精度可達(dá)15”。加速階段
    發(fā)表于 07-10 16:37

    【HarmonyOS 5】鴻蒙中的UIAbility詳解(三)

    詳解系列的最終章。主要針對(duì)UIAbility的冷啟動(dòng)和熱啟動(dòng),對(duì)于want數(shù)據(jù)的處理。UIAbility的備份恢復(fù),UIAbility的接續(xù)等高級(jí)功能的概念和使用講解。 二、UIAbility啟動(dòng)模式
    的頭像 發(fā)表于 06-14 22:32 ?40次閱讀

    鴻蒙5開(kāi)發(fā)寶藏案例分享---冷啟動(dòng)優(yōu)化案例分享

    程 ?非必要資源延遲加載 ?首屏數(shù)據(jù)本地緩存優(yōu)先 優(yōu)化后我們的應(yīng)用冷啟動(dòng)速度提升300%+!這些寶藏案例都在官方性能優(yōu)化文檔中,強(qiáng)烈建議大家仔細(xì)研究。 最后送大家一句話 :性能優(yōu)化不是玄學(xué),用對(duì)工具+用對(duì)方法=用戶體驗(yàn)飆升!遇到坑點(diǎn)歡迎在評(píng)論區(qū)交流討論? **覺(jué)得有用記得
    發(fā)表于 06-12 17:22

    電機(jī)常見(jiàn)的噪音、振動(dòng)問(wèn)題及解決方法

    ,甚至引發(fā)安全隱患。本文將系統(tǒng)分析電機(jī)常見(jiàn)的噪音和振動(dòng)問(wèn)題,并提供切實(shí)可行的解決方法。 ? 一、電機(jī)噪音問(wèn)題及解決方法 電機(jī)噪音主要來(lái)源于電磁噪音、機(jī)械噪音和空氣動(dòng)力噪音三個(gè)方面。 1. 電磁噪音 電磁噪音是由于電機(jī)內(nèi)部
    的頭像 發(fā)表于 06-08 10:25 ?826次閱讀

    電機(jī)重啟動(dòng)的控制策略

    為了解決高壓大容量變頻器調(diào)速異步電機(jī)失電后的重啟動(dòng)問(wèn)題,本文作者曾經(jīng)采用過(guò)直流側(cè)最小電流法、交流側(cè)最小電流法等多種控制方法檢測(cè)轉(zhuǎn)子轉(zhuǎn)速。在現(xiàn)場(chǎng)應(yīng)用中,發(fā)現(xiàn)這些方法存在提取信號(hào)困難、數(shù)據(jù)量大以及穩(wěn)定性
    發(fā)表于 05-27 16:23

    拯救你的樹(shù)莓派!無(wú)法啟動(dòng)不用慌!

    當(dāng)你的樹(shù)莓派無(wú)法啟動(dòng)時(shí),是不是很苦惱呢?別擔(dān)心,今天我就來(lái)給大家分享一個(gè)超實(shí)用的解決方法。這篇文章提供了詳細(xì)的解決方案,讓你的樹(shù)莓派重新煥發(fā)生機(jī)。無(wú)論是硬件問(wèn)題還是軟件故障,都能在這里找到對(duì)應(yīng)
    的頭像 發(fā)表于 03-25 09:34 ?2688次閱讀
    拯救你的樹(shù)莓派!無(wú)法<b class='flag-5'>啟動(dòng)</b>不用慌!

    如何降低半導(dǎo)體制造無(wú)塵車間設(shè)備振動(dòng)問(wèn)題的影響?

    要降低無(wú)塵車間設(shè)備振動(dòng)問(wèn)題的影響,需要從設(shè)備選型與安裝、振動(dòng)監(jiān)測(cè)與控制、車間環(huán)境管理等方面綜合采取措施,以下是具體方法
    的頭像 發(fā)表于 01-02 15:23 ?1156次閱讀
    如何降低半導(dǎo)體制造無(wú)塵車間設(shè)備振<b class='flag-5'>動(dòng)問(wèn)</b>題的影響?

    USB驅(qū)動(dòng)問(wèn)題:設(shè)備無(wú)法識(shí)別的全面指南!

    今天我把USB驅(qū)動(dòng)問(wèn)題,關(guān)于設(shè)備無(wú)法識(shí)別方面做一個(gè)全面指南供大家參考。連接USB無(wú)法識(shí)別模組設(shè)備,是不是驅(qū)動(dòng)問(wèn)題?今天就一起來(lái)聊聊如何排查解決。
    的頭像 發(fā)表于 11-26 12:35 ?1267次閱讀
    USB驅(qū)<b class='flag-5'>動(dòng)問(wèn)</b>題:設(shè)備無(wú)法識(shí)別的全面指南!

    增加電容器設(shè)備是否可以解決電壓波動(dòng)問(wèn)

    增加電容器設(shè)備通常 不能直接解決電壓波動(dòng)問(wèn)題 ,但它在特定情況下可能對(duì)改善電壓質(zhì)量和穩(wěn)定性產(chǎn)生間接影響。電壓波動(dòng)一般與以下幾個(gè)因素有關(guān): 一、電壓波動(dòng)的常見(jiàn)原因: 1、負(fù)載波動(dòng) : 當(dāng)負(fù)載變化較大
    的頭像 發(fā)表于 11-07 14:30 ?1350次閱讀
    增加電容器設(shè)備是否可以解決電壓波<b class='flag-5'>動(dòng)問(wèn)</b>題

    AIC3254啟動(dòng)過(guò)程是怎樣的?需要功能調(diào)節(jié)延時(shí),請(qǐng)問(wèn)怎么實(shí)現(xiàn)?

    AIC3254 啟動(dòng)問(wèn)題 :沒(méi)有IIS,時(shí)鐘是用MSP430產(chǎn)生的8M給AIC3254工作時(shí)鐘的,但是每次啟動(dòng)要用手摸一下MCLK才能啟動(dòng),什么原因呢!大俠們能否說(shuō)明一下AIC3254啟動(dòng)
    發(fā)表于 11-07 07:28

    基于DPU的容器冷啟動(dòng)加速解決方案

    (Serverless)計(jì)算方式,極大地簡(jiǎn)化了開(kāi)發(fā)人員的工作,使他們能夠?qū)W⒂趹?yīng)用的構(gòu)建與運(yùn)行,而不再需要承擔(dān)服務(wù)器管理的負(fù)擔(dān)。 然而,F(xiàn)aaS模式也并非沒(méi)有缺陷,其中最為人詬病的便是“冷啟動(dòng)”問(wèn)題。所謂冷啟動(dòng),是指當(dāng)請(qǐng)求被調(diào)度到某個(gè)函數(shù)實(shí)例時(shí),如果該實(shí)例在上次執(zhí)行完代碼
    的頭像 發(fā)表于 09-13 11:50 ?866次閱讀
    基于DPU的容器<b class='flag-5'>冷啟動(dòng)</b>加速解決方案

    鼠籠式三相異步電動(dòng)機(jī)啟動(dòng)方法有什么啟動(dòng)

    鼠籠式三相異步電動(dòng)機(jī)是一種常見(jiàn)的電動(dòng)機(jī)類型,廣泛應(yīng)用于工業(yè)和民用領(lǐng)域。其啟動(dòng)方法主要有以下幾種: 直接啟動(dòng):直接啟動(dòng)是最簡(jiǎn)單的啟動(dòng)方式,將電
    的頭像 發(fā)表于 08-23 15:18 ?2354次閱讀

    如何選擇合適的電動(dòng)機(jī)降壓啟動(dòng)方法

    在選擇合適的電動(dòng)機(jī)降壓啟動(dòng)方法時(shí),細(xì)致的考慮和分析至關(guān)重要。不同的啟動(dòng)方法對(duì)電動(dòng)機(jī)的性能、成本及系統(tǒng)的穩(wěn)定性都有直接的影響。以下是如何根據(jù)特定的應(yīng)用需求和條件,合理選擇降壓
    的頭像 發(fā)表于 08-19 11:32 ?1052次閱讀

    電動(dòng)機(jī)降壓啟動(dòng)方法有哪幾種

    在處理大功率電動(dòng)機(jī)啟動(dòng)的過(guò)程中,降壓啟動(dòng)方法顯示了其重要性和實(shí)用性。以下是一些常見(jiàn)的降壓啟動(dòng)方法的討論,包括它們的工作原理及優(yōu)缺點(diǎn)分析。 1
    的頭像 發(fā)表于 08-19 11:14 ?2761次閱讀

    bq05504冷啟動(dòng)電壓600mV,在微弱光線下小型太陽(yáng)能板達(dá)不到這么大怎么辦?

    bq05504管理芯片數(shù)據(jù)手冊(cè)顯示冷啟動(dòng)電壓600mV,在微弱光線下小型太陽(yáng)能板達(dá)不到這么大怎么辦,那就是啟動(dòng)不了,那還怎么收集uW級(jí)~mW的電能?
    發(fā)表于 08-13 07:28