一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從BERT得到最強(qiáng)句子Embedding的打開(kāi)方式

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:夕小瑤的賣(mài)萌屋 ? 作者:夕小瑤的賣(mài)萌屋 ? 2020-12-31 10:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

你有嘗試從 BERT 提取編碼后的 sentence embedding 嗎?很多小伙伴的第一反應(yīng)是:不就是直接取頂層的[CLS] token的embedding作為句子表示嘛,難道還有其他套路不成?

nono,你知道這樣得到的句子表示捕捉到的語(yǔ)義信息其實(shí)很弱嗎?今天向大家介紹一篇來(lái)自于 CMU 和字節(jié)跳動(dòng)合作,發(fā)表在 EMNLP2020 的 paper, 詳盡地分析了從預(yù)訓(xùn)練模型得到 sentence embedding 的常規(guī)方式的缺陷和最佳打開(kāi)方式,是一篇非常實(shí)用、輕松幫助大家用BERT刷分的文章。論文質(zhì)量蠻高,分析和發(fā)現(xiàn)很有趣,通讀之后感覺(jué)收獲多多。

自2018年BERT驚艷眾人之后,基于預(yù)訓(xùn)練模型對(duì)下游任務(wù)進(jìn)行微調(diào)已成為煉丹的標(biāo)配。然而近兩年的研究卻發(fā)現(xiàn),沒(méi)有經(jīng)過(guò)微調(diào),直接由BERT得到的句子表示在語(yǔ)義文本相似性方面明顯薄弱,甚至?xí)跤贕loVe得到的表示。此篇論文中首先從理論上探索了masked language model 跟語(yǔ)義相似性任務(wù)上的聯(lián)系,并通過(guò)實(shí)驗(yàn)分析了BERT的句子表示,最后提出了BERT-Flow來(lái)解決上述問(wèn)題。

為什么BERT的句子Embeddings表現(xiàn)弱?

由于Reimers等人之前已實(shí)驗(yàn)證明 context embeddings 取平均要優(yōu)于[CLS] token的embedding。因而在文章中,作者都以最后幾層文本嵌入向量的平均值來(lái)作為BERT句子的表示向量。

語(yǔ)義相似性與BERT預(yù)訓(xùn)練的聯(lián)系

為了探究上述問(wèn)題,作者首先將語(yǔ)言模型(LM)與掩蓋語(yǔ)言模型(MLM) 統(tǒng)一為: 給定context(c)預(yù)測(cè)得到 token(x) 的概率分布,即

這里 是context的embedding, 表示 的word embedding。進(jìn)一步,由于將 embedding 正則化到單位超球面時(shí),兩個(gè)向量的點(diǎn)積等價(jià)于它們的cosine 相似度,我們便可以將BERT句子表示的相似度簡(jiǎn)化為文本表示的相似度,即 。

另外,考慮到在訓(xùn)練中,當(dāng) c 與 w 同時(shí)出現(xiàn)時(shí),它們對(duì)應(yīng)的向量表示也會(huì)更接近。換句話說(shuō),context-context 的相似度可以通過(guò) context-words 之間的相似度推出或加強(qiáng)。

各向異性嵌入空間

Jun Gao, Lingxiao Wang 等人在近幾年的ICLR paper中有提到語(yǔ)言模型中最大似然目標(biāo)的訓(xùn)練會(huì)產(chǎn)生各向異性的詞向量空間,即向量各個(gè)方向分布并不均勻,并且在向量空間中占據(jù)了一個(gè)狹窄的圓錐體,如下圖所示~

這種情況同樣也存在于預(yù)訓(xùn)練好的基于Transformer的模型中,比如BERT,GPT-2。而在這篇paper中,作者通過(guò)實(shí)驗(yàn)得到以下兩個(gè)發(fā)現(xiàn):

詞頻率影響詞向量空間的分布:文中通過(guò)度量BERT詞向量表示與原點(diǎn) l_2 距離的均值得到以下的圖表。我們可以看到高頻的詞更接近原點(diǎn)。由于word embedding在訓(xùn)練過(guò)程中起到連接文本embedding的作用,我們所需的句子表示向量可能會(huì)相應(yīng)地被單詞頻率信息誤導(dǎo),且其保留的語(yǔ)義信息可能會(huì)被破壞。

2c10abf8-4a92-11eb-8b86-12bb97331649.png

低頻詞分布偏向稀疏:文中度量了詞向量空間中與K近鄰單詞的 l_2 距離的均值。我們可以看到高頻詞分布更集中,而低頻詞分布則偏向稀疏。然而稀疏性的分布會(huì)導(dǎo)致表示空間中存在很多“洞”,這些洞會(huì)破壞向量空間的“凸性”??紤]到BERT句子向量的產(chǎn)生保留了凸性,因而直接使用其句子embeddings會(huì)存在問(wèn)題。

Flow-based 生成模型

那么,如何無(wú)監(jiān)督情況下充分利用BERT表示中的語(yǔ)義信息?為了解決上述存在的問(wèn)題,作者提出了一種將BERT embedding空間映射到一個(gè)標(biāo)準(zhǔn)高斯隱空間的方法(如下圖所示),并稱(chēng)之為“BERT-flow”。而選擇 Gaussian 空間的動(dòng)機(jī)也是因?yàn)槠渥陨淼奶攸c(diǎn):

標(biāo)準(zhǔn)高斯分布滿(mǎn)足各向同性

高斯分布區(qū)域沒(méi)有“洞”,即不存在破壞“凸性”的情況

上圖中 表示隱空間, 表示觀測(cè)到的空間,f: 是可逆的變換。根據(jù)概率密度函數(shù)中變量替換的定理,我們可以得到觀測(cè)變量的概率密度函數(shù)如下:

進(jìn)一步,作者通過(guò)最大化BERT句子表示的邊緣似然函數(shù)來(lái)學(xué)習(xí)基于流的生成模型,即通過(guò)如下的公式來(lái)訓(xùn)練flow的參數(shù):

其中 表示數(shù)據(jù)集分布, 為神經(jīng)網(wǎng)絡(luò)。需要注意的是,在訓(xùn)練中,不需要任何人工標(biāo)注!另外,BERT的參數(shù)保持不變,僅有流的參數(shù)進(jìn)行優(yōu)化更新。其次,在實(shí)驗(yàn)中,作者基于Glow (Dinh et al., 2015)的設(shè)計(jì)(多個(gè)可逆變換組合)進(jìn)行改動(dòng),比如將仿射耦合(affine coupling)替換為了加法耦合(additive coupling)。

實(shí)驗(yàn)及結(jié)果

論文的實(shí)驗(yàn)部分在7個(gè)數(shù)據(jù)集上進(jìn)行衡量語(yǔ)義文本相似性任務(wù)的效果。

實(shí)驗(yàn)步驟:

通過(guò)句子encoder得到每個(gè)句子的向量表示。

計(jì)算句子之間的cosine similarity 作為模型預(yù)測(cè)的相似度。

計(jì)算Spearman系數(shù)。

實(shí)驗(yàn)結(jié)果:

2f9febe4-4a92-11eb-8b86-12bb97331649.png

上圖匯報(bào)了sentence embeddings的余弦相似度同多個(gè)數(shù)據(jù)集上真實(shí)標(biāo)簽之間的Spearman等級(jí)相關(guān)性得分(),其中flow-target 表示在完整的目標(biāo)數(shù)據(jù)集(train+validation+test)上進(jìn)行學(xué)習(xí),flow-NLI 表示模型在NLI(natual language inference)任務(wù)的測(cè)試,綠色箭頭表示相對(duì)于BERT的baseline,模型的效果有提升,紅色反之。

我們可以注意到模型的改進(jìn)對(duì)于效果的提升還是很顯著滴!文章同樣還在無(wú)監(jiān)督問(wèn)答任務(wù)證明模型的有效性,并將BERT-flow得到的語(yǔ)義相似度同詞法相似度(通過(guò)編輯距離來(lái)衡量)進(jìn)行對(duì)比,結(jié)果同樣證明模型在引入流的可逆映射后減弱了語(yǔ)義相似性與詞法相似性之間的聯(lián)系!具體信息大家可查閱paper~

小結(jié)

總之,這篇paper探究了BERT句子表示對(duì)于語(yǔ)義相似性上潛在的問(wèn)題,并提出了基于流的可逆映射來(lái)改進(jìn)在對(duì)應(yīng)任務(wù)上的表現(xiàn)。想多了解的童鞋可以看看原文,相信你們也會(huì)喜歡上這篇paper!

原文標(biāo)題:還在用[CLS]?從BERT得到最強(qiáng)句子Embedding的打開(kāi)方式!

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7663

    瀏覽量

    90825
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3521

    瀏覽量

    50437

原文標(biāo)題:還在用[CLS]?從BERT得到最強(qiáng)句子Embedding的打開(kāi)方式!

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    短距離不用加?加了總沒(méi)錯(cuò)?終端電阻的正確“打開(kāi)方式

    前言 RS-485作為一種廣泛應(yīng)用于工業(yè)場(chǎng)景的差分信號(hào)通信標(biāo)準(zhǔn),其通信效果的升級(jí)始終是工控領(lǐng)域人士不斷探索的重要課題。 在RS-485通信系統(tǒng)的實(shí)際應(yīng)用中,一個(gè)備受關(guān)注且極具探討價(jià)值的問(wèn)題是:是否需要使用終端電阻?今天,我們就圍繞這一話題展開(kāi)交流。 想象一下,你在一條長(zhǎng)長(zhǎng)的走廊里大聲喊話,如果沒(méi)有任何緩沖,聲音會(huì)在兩端來(lái)回反射,變成一片嘈雜的回音。這就是沒(méi)有終端電阻的總線通信環(huán)境——信號(hào)反射嚴(yán)重,數(shù)據(jù)傳輸失真。這種反射
    的頭像 發(fā)表于 06-09 16:35 ?308次閱讀
    短距離不用加?加了總沒(méi)錯(cuò)?終端電阻的正確“<b class='flag-5'>打開(kāi)方式</b>”

    CSG船用隔離變壓器真是船舶電氣系統(tǒng)的“隱形守護(hù)者”?這些真相你必須知道! 開(kāi)頭

    。今天,我們就用三個(gè)真實(shí)場(chǎng)景,揭秘CSG船用隔離變壓器的正確打開(kāi)方式。核心分析場(chǎng)景一:抗干擾≠堆砌濾波器,接地設(shè)計(jì)才是根本某近海支援船在安裝CSG船用隔離變壓器后,
    的頭像 發(fā)表于 06-09 09:29 ?229次閱讀
    CSG船用隔離變壓器真是船舶電氣系統(tǒng)的“隱形守護(hù)者”?這些真相你必須知道! 開(kāi)頭

    岳信儀器告訴你榨汁機(jī)氣密性檢測(cè)儀的正確打開(kāi)方式

    在榨汁機(jī)生產(chǎn)過(guò)程中,氣密性是一項(xiàng)關(guān)鍵指標(biāo)。而榨汁機(jī)氣密性檢測(cè)儀則是確保產(chǎn)品氣密性達(dá)標(biāo)的重要工具。那么,該如何正確使用它呢?下面就為大家詳細(xì)介紹榨汁機(jī)氣密性檢測(cè)儀的正確打開(kāi)方式。(1)檢測(cè)前的準(zhǔn)備工作
    的頭像 發(fā)表于 05-29 15:52 ?153次閱讀
    岳信儀器告訴你榨汁機(jī)氣密性檢測(cè)儀的正確<b class='flag-5'>打開(kāi)方式</b>

    選型不迷茫!PCB分板機(jī)主軸的正確打開(kāi)方式

    在電子制造領(lǐng)域,PCB(印刷電路板)分板機(jī)是實(shí)現(xiàn)高效、精準(zhǔn)切割的關(guān)鍵設(shè)備。作為分板機(jī)的"心臟",主軸系統(tǒng)的性能直接影響加工效率、切割精度及設(shè)備壽命。德國(guó)Sycotec,作為高速電主軸的老品牌企業(yè),憑借其百年技術(shù)積淀與持續(xù)創(chuàng)新,已成為全球高端分板機(jī)主軸的首選品牌。多年來(lái)持續(xù)生產(chǎn)研發(fā)出多款高速、高精度、高效的PCB分板機(jī)主軸,一起了解看看。Sycotec用于PC
    的頭像 發(fā)表于 05-12 13:31 ?203次閱讀
    選型不迷茫!PCB分板機(jī)主軸的正確<b class='flag-5'>打開(kāi)方式</b>

    3分鐘看懂錫膏在回流焊的正確打開(kāi)方式

    本文揭秘錫膏在回流焊核心工藝:預(yù)熱區(qū)“熱身”(150-180℃)到回流區(qū)“巔峰熔融”(230-250℃),錫膏經(jīng)歷四段精密溫控旅程,助焊劑活化、冶金反應(yīng)、晶格定型的每一步都暗藏工藝玄機(jī)。文章以
    的頭像 發(fā)表于 04-07 18:03 ?532次閱讀
    3分鐘看懂錫膏在回流焊的正確<b class='flag-5'>打開(kāi)方式</b>

    一種很新的“工廠”打開(kāi)方式---智慧工廠

    ? ? ? ?隨著信息技術(shù)的不斷進(jìn)步,特別是數(shù)字化、網(wǎng)絡(luò)化、智能化技術(shù)的快速發(fā)展,傳統(tǒng)的工廠管理模式已經(jīng)難以滿(mǎn)足現(xiàn)代企業(yè)對(duì)于生產(chǎn)效率、安全管理以及決策支持等方面的需求,智能制造已成為全球制造業(yè)發(fā)展的主流趨勢(shì)。 ? ? ? ?由于工廠實(shí)時(shí)數(shù)據(jù)的多樣性、復(fù)雜性,包括數(shù)字化的傳感器讀數(shù)、機(jī)器和設(shè)備的操作狀態(tài)、溫度、濕度、壓力等環(huán)境指標(biāo),以及生產(chǎn)計(jì)劃、工作流程和相關(guān)人員信息等,因此需要深度結(jié)合客戶(hù)場(chǎng)景,對(duì)工廠各個(gè)環(huán)節(jié)的數(shù)
    的頭像 發(fā)表于 03-20 08:45 ?262次閱讀

    接入AI大模型!利爾達(dá)蜂窩模組讓設(shè)備秒變“機(jī)靈小話癆”

    各顯神通。本期我們就來(lái)分享下應(yīng)用平臺(tái)對(duì)接大模型的秘籍,它具備高兼容性、低部署成本及靈活的多模態(tài)擴(kuò)展能力等優(yōu)勢(shì)。下期將解鎖更多"打開(kāi)方式"——畢竟在AI應(yīng)用生態(tài)里,通往羅
    的頭像 發(fā)表于 02-12 19:05 ?504次閱讀
    接入AI大模型!利爾達(dá)蜂窩模組讓設(shè)備秒變“機(jī)靈小話癆”

    Giada杰和科技ISE展會(huì)直擊|在巴塞羅那,遇見(jiàn)視聽(tīng)未來(lái)的N種打開(kāi)方式

    歐洲專(zhuān)業(yè)視聽(tīng)設(shè)備與信息系統(tǒng)集成技術(shù)展覽會(huì)當(dāng)?shù)貢r(shí)間2月7日,歐洲專(zhuān)業(yè)視聽(tīng)設(shè)備與信息系統(tǒng)集成技術(shù)展覽會(huì)(以下簡(jiǎn)稱(chēng)ISE)在西班牙巴塞羅那落下帷幕。ISE是歐洲舉辦最成功的、全球觀眾人數(shù)最多的專(zhuān)業(yè)視聽(tīng)展覽會(huì),素有視聽(tīng)行業(yè)“風(fēng)向標(biāo)”之稱(chēng)。今年,杰和科技如約而至,連續(xù)第15年參展,再次攜多款A(yù)I驅(qū)動(dòng)、智能零售及工業(yè)級(jí)計(jì)算解決方案亮相,以硬核技術(shù)實(shí)力與場(chǎng)景化應(yīng)用方案,向
    的頭像 發(fā)表于 02-10 10:33 ?350次閱讀
    Giada杰和科技ISE展會(huì)直擊|在巴塞羅那,遇見(jiàn)視聽(tīng)未來(lái)的N種<b class='flag-5'>打開(kāi)方式</b>

    【「基于大模型的RAG應(yīng)用開(kāi)發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

    理和理解這些數(shù)據(jù)。在自然語(yǔ)言處理中,Embedding常用于將文本數(shù)據(jù)中的單詞、句子或文檔映射為固定長(zhǎng)度的實(shí)數(shù)向量,這些向量包含了豐富的語(yǔ)義信息。RAG技術(shù)是一種結(jié)合信息檢索與文本生成能力的技術(shù),它通過(guò)
    發(fā)表于 01-17 19:53

    掌握壓鑄鋁件氣密性檢測(cè)設(shè)備的正確打開(kāi)方式-岳信儀器

    氣密性檢測(cè)是保證壓鑄鋁件生產(chǎn)過(guò)程中產(chǎn)品質(zhì)量的關(guān)鍵環(huán)節(jié)。壓鑄鋁件氣密性檢測(cè)設(shè)備的正確開(kāi)啟和使用,不僅可以提高檢測(cè)效率,而且可以保證檢測(cè)結(jié)果的準(zhǔn)確性。下面將詳細(xì)介紹如何正確開(kāi)啟和使用壓鑄鋁件氣密性檢測(cè)設(shè)備。首先,確保設(shè)備的適當(dāng)使用環(huán)境。設(shè)備應(yīng)放置在避免陽(yáng)光直射、無(wú)強(qiáng)磁場(chǎng)和腐蝕性物品的地方。同時(shí),要保證電源和氣源穩(wěn)定、干凈、無(wú)雜質(zhì),盡可能干燥氣源,避免與其他氣動(dòng)元
    的頭像 發(fā)表于 10-14 15:10 ?402次閱讀
    掌握壓鑄鋁件氣密性檢測(cè)設(shè)備的正確<b class='flag-5'>打開(kāi)方式</b>-岳信儀器

    嵌入式學(xué)習(xí)-飛凌嵌入式ElfBoard ELF 1板卡 -通用文件I/O模型之open

    打開(kāi)的文件; flags為打開(kāi)文件的標(biāo)志位,控制打開(kāi)方式; mode為可選參數(shù),用于指定新創(chuàng)建文件的權(quán)限模式。 如果指定的文件不存在,則可以通過(guò)在flags中指定O_CREAT,然后open()即可創(chuàng)建
    發(fā)表于 10-11 08:56

    飛凌嵌入式ElfBoard ELF 1板卡-通用文件I/O模型之open

    的文件;flags為打開(kāi)文件的標(biāo)志位,控制打開(kāi)方式;mode為可選參數(shù),用于指定新創(chuàng)建文件的權(quán)限模式。如果指定的文件不存在,則可以通過(guò)在flags中指定O_CREAT,然后open()即可創(chuàng)建。flags
    發(fā)表于 10-10 09:09

    換熱設(shè)備清洗的正確打開(kāi)方式,不僅清洗效果好,而且安全無(wú)腐蝕

    換熱器目前常用的換熱介質(zhì)多為水或蒸汽,在熱交換過(guò)程中,水或蒸汽中的鹽類(lèi)和污垢容易析出導(dǎo)致結(jié)垢,產(chǎn)生的這些污垢會(huì)使設(shè)備和管道線路失效,裝置系統(tǒng)會(huì)發(fā)生生產(chǎn)下降,能耗、物耗增加等不良情況,污垢腐蝕特別嚴(yán)重時(shí)還會(huì)使流程中斷,裝置系統(tǒng)被迫停產(chǎn),直接造成各種經(jīng)濟(jì)損失,甚至還有可能發(fā)生惡性生產(chǎn)事故。
    的頭像 發(fā)表于 08-12 15:33 ?1041次閱讀
    換熱設(shè)備清洗的正確<b class='flag-5'>打開(kāi)方式</b>,不僅清洗效果好,而且安全無(wú)腐蝕

    AWG和BERT常見(jiàn)問(wèn)題解答

    隨著信號(hào)的速率越來(lái)越高,調(diào)制格式越來(lái)越復(fù)雜,對(duì)測(cè)試儀器的性能要求也越來(lái)越高。是德科技也一直在推出業(yè)界領(lǐng)先的高帶寬、高采樣率的AWG和高性能的BERT
    的頭像 發(fā)表于 08-06 17:27 ?1281次閱讀