一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

打破"沙漏“現(xiàn)象→提高生成式搜索/推薦的上限

京東云 ? 來源:王彗木 ? 作者:王彗木 ? 2025-04-27 11:23 ? 次閱讀

作者:京東零售 王彗木

wKgZPGgNoxGAPfM7AARAb_hzKvY454.png

東方若曉,莫道君行早

EMNLP 2024: Breaking the Hourglass Phenomenon of Residual Quantization: Enhancing the Upper Bound of Generative Retrieval

paper鏈接: https://arxiv.org/abs/2407.21488v1

0 摘要

生成式搜索/推薦在搜索和推薦系統(tǒng)中已經成為一種創(chuàng)新的范式,它通過使用基于數(shù)值的標識符來提升效率和泛化能力。特別是在電子商務領域,像TIGER這樣的方法使用基于殘差量化的語義標識符(RQ-SID),表現(xiàn)出了很大的潛力。然而,RQ-SID面臨一個被稱為“沙漏”現(xiàn)象的問題,即中間碼本令牌過于集中,限制了生成式搜索/推薦方法的全面發(fā)揮。本文通過研究發(fā)現(xiàn),路徑稀疏和長尾分布是造成這一問題的主要原因。我們通過一系列詳細的實驗和消融研究,分析了這些因素對碼本利用率和數(shù)據(jù)分布的影響。結果表明,“沙漏”現(xiàn)象對RQ-SID的性能有顯著影響。我們提出了一些有效的解決方案,成功改善了生成式任務在實際電子商務應用中的效果。

1 背景

在生成式搜索/推薦中,基于數(shù)值的標識符表示方法因其簡單、高效和強大的泛化能力而在行業(yè)中被廣泛采用,特別是在長行為序列推薦中。這些方法顯著縮短了序列長度并加快了推理過程。值得注意的方法包括DSI、NCI、TIGER、GDR和GenRet。其中,TIGER方法通過殘差量化(RQ)(Lee等,2022;Zeghidour等,2021)生成語義標識符(SID),有效捕捉了語義信息和層次結構。這種方法在以商品為主的電子商務場景中特別有優(yōu)勢,能夠準確反映電子商務數(shù)據(jù)中固有的復雜層次關系和語義特征,從而顯著提升推薦性能。

需要強調的是,基于RQ的方法的性能上限在很大程度上依賴于SID的生成,這也是本文分析和討論的核心重點。

2 任務定義

wKgZO2gNoxKAcOOHAAA8UnM1Y78100.png

?

基于現(xiàn)有常見的任務場景,定義如下任務【注意:任務形式不限于下列任務,只要是含有SID的任務均可】:該用戶信息:年齡:age_2;性別:男性;會員狀態(tài):非會員。該用戶的歷史交互行為有:,……。該用戶本次搜索的關鍵詞為“XX鼠標”。請根據(jù)該用戶信息、歷史交互行為和本次搜索關鍵詞,預測該用戶接下來最可能購買的商品

3 RQ-VAE SID生成

wKgZPGgNoxKAOqZLAADLYbH755Q847.png

?

SID生成,谷歌的TIGER方法用的比較廣泛。它通過殘差量化RQ生成語義標識符(SID),能夠有效捕捉語義信息和層次結構。這種方法在以商品為主的電商場景中尤其有優(yōu)勢,因為它能夠準確反映電商數(shù)據(jù)中的復雜層次關系和語義特征,從而顯著提升推薦性能。

4 沙漏現(xiàn)象

wKgZO2gNoxOARZFhAAJB_gVKVCE874.png

?

在通過殘差量化(RQ)生成的SID中,我們觀察到了一種顯著的“沙漏”現(xiàn)象。具體而言,中間層的碼本過于集中,導致了一對多和多對一的映射結構。這種集中現(xiàn)象引發(fā)了路徑的稀疏性和長尾分布問題。路徑稀疏性是指匹配路徑僅占總路徑空間的一小部分,而長尾分布則意味著大多數(shù)SID集中在少數(shù)的頭部標記上,中間層標記的分布呈現(xiàn)長尾特征。在具有長尾特征的數(shù)據(jù)集中,這種“沙漏”效應尤為明顯,顯著限制了生成式搜索推薦方法的表示能力。問題的根源在于逐步量化高維向量殘差的內在特性?;诖耍覀儗υ摤F(xiàn)象進行了深入的理論與實驗分析,并提出了相應的解決方案。

4.1 沙漏現(xiàn)象可視化

為了生成語義ID,我們首先利用公司內部數(shù)十億條搜索日志中的查詢-商品數(shù)據(jù),訓練了雙塔模型(如DSSM和BERT等)。接著,通過商品塔獲取了數(shù)億商品的嵌入向量,最終采用殘差量化(RQ)方法為所有商品生成了語義ID。

wKgZPGgNoxWAGqkDAAxNG4Cnsgg269.png

?

生成語義ID后,對所有商品進行了聚合,并計算了三層分布圖。如上圖所示,可以看到第二層集中有大量路由節(jié)點,整體分布呈現(xiàn)“沙漏”現(xiàn)象。為了驗證這一現(xiàn)象的普遍性,我們在不同參數(shù)組合下進行了多次可視化實驗,沙漏效應非常顯著,三層代碼表中token的路徑分布相對稀疏。

wKgZO2gNoxWAEu1BAACxKzIYEtA336.png

?

此外,基于上述實驗,我們使用三個指標對第二層的標記分布進行了統(tǒng)計分析:熵、基尼系數(shù)和標準差,如圖所示。結果表明,第二層的標記分布表現(xiàn)出低熵、高基尼系數(shù)和大標準差,表明該分布具有顯著的不均勻性。

總體而言,這種沙漏現(xiàn)象在代碼表中通過路徑稀疏性和token的長尾分布得到了統(tǒng)計數(shù)據(jù)支持。其中,

路徑稀疏性:語義ID結構導致代碼表利用率低。

長尾分布:在中間層,大多數(shù)路徑集中到單個token上

4.2 現(xiàn)象分析

為了探討“沙漏”現(xiàn)象的成因,將基于殘差量化(RQ)的運行機制進行深入分析和討論。為了便于理解,考慮兩種原始嵌入的分布:非均勻分布和均勻分布。接下來,使用RQ為數(shù)據(jù)X生成語義ID。

wKgZPGgNoxaAKyhOAASZUApUGy4079.png

?

可以看到,第一層,候選點被分成M個聚類桶,token的入度相等。輸入分布均勻。第二層輸入為第一層的殘差,分布非均勻。小殘差點靠近聚類中心,異常值較大。聚類更關注異常值,形成長尾現(xiàn)象。第三層殘差值變得一致且均勻。類似第一層的均勻分布。第二層大路由節(jié)點分散成多個小節(jié)點。整體趨勢隨層數(shù)增加,殘差減小,聚類效應減弱。形成沙漏狀結構:數(shù)據(jù)壓縮再擴展,最終均勻分布。語義ID構建后,RQ量化方法的影響,加上中間層頭部token的主導地位,自然導致了路徑的稀疏性。類似地,對于非均勻分布(如長尾分布),殘差分布變得更加不均勻,導致現(xiàn)象更加嚴重。

4.3 實際影響

wKgZO2gNoxeATaQ5AAMGb0qRsfw485.png

為了評估這種現(xiàn)象的影響,我們進行了多項實驗。首先,在評估過程中,我們根據(jù)第二層標記的分布將測試集分為兩組:頭部標記測試集和尾部標記測試集。如表所示,頭部標記測試集的性能顯著提升,而尾部標記測試集的性能則明顯較差。這種性能差異可以歸因于先前分析的路徑稀疏性和標記的長尾分布,導致了結果的偏差。這一現(xiàn)象在不同規(guī)模的模型(如LLaMA2、Baichuan2和Qwen1.5)以及不同參數(shù)的殘差量化(RQ)中均有觀察到,突顯出長尾標記分布和路徑稀疏性對模型性能的廣泛影響。

此外,為了進一步探討“沙漏”現(xiàn)象對模型性能的影響,我們進行了兩個關鍵實驗:1)交換第一層和第二層的標記,2)將交換序列的第一個標記作為輸入。

在僅交換第一層和第二層標記的情況下,第一層出現(xiàn)顯著的長尾分布,導致模型難以擬合,從而效果較差。由于逐標記錯誤的累計,交換后的效果甚至比不交換更差。然而,當交換后給定第一個標記時,輸出任務變?yōu)轭A測第二或第三層的SID,這使得任務變得更簡單,并且長尾分布不再影響結果(因為給定了真實的SID1),因此效果顯著提升。此外,在不交換第一層和第二層的條件下,給定第一個標記(第二層SID依舊是長尾分布),其結果高于基線,但低于交換后給出第一個標記的情況(如表所示)。

這一發(fā)現(xiàn)表明,“沙漏”現(xiàn)象對模型性能有著實質性的負面影響。通過上述實驗,不僅確認了“沙漏”效應的存在,還闡明了其對模型性能的具體影響,從而為未來的優(yōu)化提供了堅實的基礎。

5 解決方法

wKgZPGgNoxiAYUutAALWuLNwVrM708.png

?

解決沙漏現(xiàn)象的方法有多種,在此簡單的從分布角度提出兩種簡單易行的方法:一種啟發(fā)式的方法是直接移除第二層,從而消除長尾效應的影響。然而,這可能導致空間容量不足。需要注意的是,這里首先要生成一個L層的語義ID(SID),然后再移除第二層,這與直接生成一個兩層的SID不同,因為后者可能仍然存在大的路由節(jié)點。另一種簡單的方法是自適應地移除第二層的頂部tokens,使語義ID成為一個可變長度的結構。這里使用了top@K策略,并設定一個閾值p。這種方法確保了分布保持不變,同時有選擇地減少了“沙漏”效應的影響。

為了進一步驗證該方法的有效性,在LLaMA模型上進行了實驗。結果表明,通過應用自適應token移除策略,模型性能得到了提升,同時計算成本與基礎模型相近,并且在一些客觀優(yōu)化(如Focal Loss和Mile Loss)方面也表現(xiàn)出色。

具體來說,實驗結果顯示,使用top@400 token移除策略的模型在大多數(shù)評估指標上都優(yōu)于基線模型。這表明該方法有效地減少了長尾效應的影響。隨著移除的tokens數(shù)量增加,模型性能的提升會遇到瓶頸。特別是當所有tokens都被移除時,這種限制尤為明顯,這可能是由于缺少長尾tokens,導致召回率下降。同時,直接移除第二層會導致一個SID對應多個項目。這種細粒度的分析為所提出方法的有效性提供了有力證據(jù)。該方法在選擇性移除不太重要的tokens的同時,保留了最有信息量的tokens,即使在移除大量數(shù)據(jù)的情況下,也能提升模型性能。

6 結論

本研究系統(tǒng)地探討了RQ-SID在生成式搜索/推薦的局限性,特別是發(fā)現(xiàn)了中間層tokens過度集中導致數(shù)據(jù)稀疏和長尾分布的“沙漏”現(xiàn)象。通過廣泛的實驗和消融研究,證明了這一現(xiàn)象,并分析了其根本原因在于殘差特性。為了解決這個問題,提出了兩種方法:移除第二層的啟發(fā)式方法和自適應調整token分布的可變長度token策略。實驗結果顯示,兩種方法都有效緩解了瓶頸效應,其中自適應token分布調整策略效果最佳。這是首次系統(tǒng)性地探討RQ-SID在生成式搜索/推薦中缺陷的研究,為未來的模型優(yōu)化提供了堅實的基礎,并顯著提升了模型性能。

7 未來規(guī)劃

1、 優(yōu)化SID的生產與表征方式,通過引入時效、統(tǒng)計類特征來輔助額外表征,讓其能滿足對特征極為看重的排序需求;

2、 統(tǒng)一稀疏表征(SID)與密集表征,讓LLM可以顯示的建模密集特征變化趨勢,而不是稀疏表征的映射

3、 保證鏈路無損失實現(xiàn)一段式搜索。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SID
    SID
    +關注

    關注

    0

    文章

    16

    瀏覽量

    3117
收藏 人收藏

    評論

    相關推薦

    LED電子沙漏

    沒有什么區(qū)別; 二也能代表愛情,藍色沙漏有代表"我愛你"的意思,聯(lián)想到黃色絲巾之意,可能黃色沙漏能代表友愛之情吧。送沙漏
    發(fā)表于 11-08 12:49

    時間沙漏分享

    。 電子沙漏用LED發(fā)光代替沙子。用起來其實也很簡單,位于中部的金屬刻度就是時間,您只要扭動到您所需要的時間,電子沙漏就開始計時漏沙。這是一個慢慢的過度過程,"沙子&quot
    發(fā)表于 07-19 13:11

    提高數(shù)字萬用表電阻測量上限的技巧

    提高數(shù)字萬用表電阻測量上限的技巧 以DT-830數(shù)字萬用表為例,它的最大可測量
    發(fā)表于 09-11 15:30 ?1117次閱讀

    如何制作發(fā)光二極電子沙漏

    如何制作發(fā)光二極電子沙漏 一、電路整體分析1 電路結構。    電子沙漏是一個級聯(lián)運用移位寄存器的典型實例,電路圖如圖1
    發(fā)表于 05-28 16:06 ?3335次閱讀
    如何制作發(fā)光二極電子<b class='flag-5'>沙漏</b>

    &quot;STM32F0 Error: Flash Download failed - &quot;&quot;Cortex-M0&quot;&quot;解決&quot;

    開發(fā)工具CUbemx + Keil uVision5(MDK V5)錯誤現(xiàn)象在STM32F0燒錄程序是出現(xiàn)了Error: Flash Download failed - &amp;quot
    發(fā)表于 12-01 12:06 ?33次下載
    &<b class='flag-5'>quot</b>;STM32F0 Error: Flash Download failed  -  &<b class='flag-5'>quot</b>;&<b class='flag-5'>quot</b>;Cortex-M0&<b class='flag-5'>quot</b>;&<b class='flag-5'>quot</b>;解決&<b class='flag-5'>quot</b>;

    鑒源論壇 · 觀模丨基于搜索的測試生成

    基于搜索的測試生成將測試生成問題建模為最優(yōu)化問題,其核心思想是針對期望達到的測試目標,以相關目標(成本)函數(shù)為指引,使用搜索算法在輸入域中尋找最優(yōu)解作為測試用例。
    的頭像 發(fā)表于 12-02 16:25 ?1137次閱讀
    鑒源論壇 · 觀模丨基于<b class='flag-5'>搜索</b>的測試<b class='flag-5'>生成</b>

    DIY Arduino電子沙漏

    電子發(fā)燒友網(wǎng)站提供《DIY Arduino電子沙漏.zip》資料免費下載
    發(fā)表于 02-06 11:09 ?10次下載
    DIY Arduino電子<b class='flag-5'>沙漏</b>

    Arduino沙漏計時器

    電子發(fā)燒友網(wǎng)站提供《Arduino沙漏計時器.zip》資料免費下載
    發(fā)表于 07-06 10:05 ?3次下載
    Arduino<b class='flag-5'>沙漏</b>計時器

    芯片工藝的&amp;quot;7nm&amp;quot; 、&amp;quot;5nm&amp;quot;到底指什么?

    近幾年,芯片產業(yè)越來越火熱,一些行業(yè)內的術語大家也聽得比較多了。那么工藝節(jié)點、制程是什么,&quot;7nm&quot; 、&quot;5nm&quot;又是指什么?
    的頭像 發(fā)表于 07-28 17:34 ?1w次閱讀
    芯片工藝的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;7nm&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>; 、&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;5nm&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;到底指什么?

    生成AI恐使搜索引擎衰退,預計2026年搜索量將下滑25%

    據(jù)市場分析機構Gartner報道,生成AI對傳統(tǒng)搜索引擎構成重大威脅,預計至2026年搜索量將降低25%。為此,企業(yè)需調整營銷策略。
    的頭像 發(fā)表于 02-20 10:04 ?890次閱讀

    谷歌搜索引擎添加&amp;quot;Web&amp;quot;過濾器,僅展示文本鏈接

    啟用“Web”過濾器后,搜索結果將避免包括論壇、視頻、新聞、圖片等各類鏈接,僅呈現(xiàn)傳統(tǒng)的藍色鏈接,仿佛回到了2007年之前的通用搜索模式。
    的頭像 發(fā)表于 05-16 11:21 ?590次閱讀

    IBM 發(fā)布光學技術關鍵突破,生成AI迎來&amp;quot;光速時代&amp;quot;

    方面的突破性研究成果,有望顯著提高數(shù)據(jù)中心訓練和運行生成 AI 模型的效率。IBM研究人員開發(fā)的新一代光電共封裝?(co-packaged optics,CPO) 工藝,通過光學技術實現(xiàn)數(shù)據(jù)中心內部的光速連接,為現(xiàn)有的短距離光
    的頭像 發(fā)表于 12-12 15:53 ?395次閱讀

    EAM 與 MES 深度融合:智能工廠的 &amp;amp;quot;雙引擎&amp;amp;quot; 如何打破生產瓶頸?

    中國制造業(yè)正經歷數(shù)字化轉型陣痛,設備聯(lián)網(wǎng)率雖高但產能利用率低,導致設備維修記錄與生產排程數(shù)據(jù)割裂,隱性損失嚴重。企業(yè)需要進行雙系統(tǒng)融合,打破虛實界限,構建數(shù)字孿生體,實現(xiàn)設備綜合效率的提升。
    的頭像 發(fā)表于 04-01 10:13 ?160次閱讀
    EAM 與 MES 深度融合:智能工廠的 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;雙引擎&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>; 如何<b class='flag-5'>打破</b>生產瓶頸?

    煉油廠開閉所局放監(jiān)測:為能源樞紐裝上&amp;amp;quot;智能安全閥&amp;amp;quot;

    文章由山東華科信息技術有限公司提供在煉油廠的能源樞紐——開閉所中,高壓設備如同&quot;電力心臟&quot;晝夜不息地運轉。這個布滿油氣管道的復雜環(huán)境里,局部放電現(xiàn)象如同潛伏的&quot
    的頭像 發(fā)表于 04-09 16:41 ?164次閱讀
    煉油廠開閉所局放監(jiān)測:為能源樞紐裝上&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;智能安全閥&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    電纜局部放電在線監(jiān)測:守護電網(wǎng)安全的&amp;amp;quot;黑科技&amp;amp;quot;

    文章由山東華科信息技術有限公司提供在萬家燈火的背后,有一張覆蓋全國的&quot;能源神經網(wǎng)絡&quot;晝夜不息地運轉。電纜作為電力輸送的&quot;主動脈&quot;,其健康狀況直接
    的頭像 發(fā)表于 04-14 18:12 ?105次閱讀
    電纜局部放電在線監(jiān)測:守護電網(wǎng)安全的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;黑科技&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;