一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Transformer與覆蓋注意力機(jī)制建模的手寫數(shù)學(xué)公式識(shí)別

CVer ? 來源:CSIG文檔圖像分析與識(shí)別專 ? 作者: Wenqi Zhao, Liangca ? 2022-11-01 15:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、研究背景

手寫數(shù)學(xué)公式識(shí)別是將包含數(shù)學(xué)表達(dá)式的圖像轉(zhuǎn)換為結(jié)構(gòu)表達(dá)式,例如LaTeX數(shù)學(xué)表達(dá)式或符號(hào)布局樹的過程。手寫數(shù)學(xué)表達(dá)式的識(shí)別已經(jīng)帶來了許多下游應(yīng)用,如在線教育、自動(dòng)評(píng)分和公式圖像搜索。在在線教育場(chǎng)景下,手寫數(shù)學(xué)表達(dá)式的識(shí)別率對(duì)提高學(xué)習(xí)效率和教學(xué)質(zhì)量至關(guān)重要。 對(duì)比于傳統(tǒng)的文本符號(hào)識(shí)別(Optical Character Recognition, OCR),公式識(shí)別具有更大的挑戰(zhàn)性。公式識(shí)別不僅需要從圖像中識(shí)別不同書寫風(fēng)格的符號(hào),還需要建模符號(hào)和上下文之間的關(guān)系。例如,在LaTeX中,模型需要生成“^”、“_”、“{”和“}”來描述二維圖像中符號(hào)之間的位置和層次關(guān)系。編碼器-解碼器架構(gòu)由于可以編碼器部分進(jìn)行特征提取,在解碼器部分進(jìn)行語言建模,而在手寫數(shù)學(xué)公式識(shí)別任務(wù)(Handwritten Mathematical Expression Recognition, HMER)中被廣泛使用。 雖然Transformer在自然語言處理領(lǐng)域已經(jīng)成為了基礎(chǔ)模型,但其在HMER任務(wù)上的性能相較于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)還不能令人滿意。作者觀察到現(xiàn)有的Transformer與RNN一樣會(huì)受到缺少覆蓋注意力機(jī)制的影響,即“過解析”——圖像的某些部分被不必要地多次解析,以及“欠解析”——有些區(qū)域未被解析。RNN解碼器使用覆蓋注意機(jī)制來緩解這一問題。然而,Transformer解碼器所采用的點(diǎn)積注意力沒有這樣的覆蓋機(jī)制,作者認(rèn)為這是限制其性能的關(guān)鍵因素。 不同于RNN,Transformer中每一步的計(jì)算是相互獨(dú)立的。雖然這種特性提高了Transformer中的并行性,但也使得在Transformer解碼器中直接使用以前工作中的覆蓋機(jī)制變得困難。為了解決上述問題,作者提出了一種利用Transformer解碼器中覆蓋信息的新模型,稱為CoMER。受RNN中覆蓋機(jī)制的啟發(fā),作者希望Transformer將更多的注意力分配到尚未解析的區(qū)域。具體地說,作者提出了一種新穎的注意精煉模塊(Attention Refinement Module, ARM),它可以在不影響并行性的前提下,根據(jù)過去的對(duì)齊信息對(duì)注意權(quán)重進(jìn)行精煉。同時(shí)為了充分利用來自不同層的過去對(duì)齊信息,作者提出了自覆蓋和交叉覆蓋,分別利用來自當(dāng)前層和前一層的過去對(duì)齊信息。作者進(jìn)一步證明,在HMER任務(wù)中,CoMER的性能優(yōu)于標(biāo)準(zhǔn)Transformer解碼器和RNN解碼器。

8250599c-5944-11ed-a3b6-dac502259ad0.png

圖1 本文提出的具有注意力精煉模塊的Transformer模型

二、方法原理簡(jiǎn)述

CNN編碼器在編碼器部分,本文使用DenseNet作為編碼器。相較于ResNet,DenseNet在不同尺度特征圖上的密集連接能夠更好地反映出不同大小字符的尺度特征,有利于后續(xù)解碼不同位置大小字符的含義。為了使DenseNet輸出特征與解碼器模型尺寸對(duì)齊,作者在編碼器的末端增加了1 × 1的卷積層,得到輸出圖像特征

8272d60c-5944-11ed-a3b6-dac502259ad0.png。

位置編碼與RNN解碼器不同,由于Transformer解碼器的Token之間不具有空間位置關(guān)系,額外的位置信息是必要的。在論文中,作者與BTTR[1]一致,同時(shí)使用圖像位置編碼和字符位置編碼。 對(duì)于字符位置編碼,作者使用Transformer[2]中引入的1D位置編碼。給定編碼維數(shù)d,位置p,特征維索引i,則字符位置編碼向量

8283cb38-5944-11ed-a3b6-dac502259ad0.png

可表示為:

8298865e-5944-11ed-a3b6-dac502259ad0.png

圖像位置編碼采用與[1,3]相同的二維歸一化位置編碼。由于模型需要關(guān)注的是相對(duì)位置,所以首先要將位置坐標(biāo)歸一化。給定二維坐標(biāo)元組82a77696-5944-11ed-a3b6-dac502259ad0.png,編碼維數(shù)為d,通過一維位置的拼接計(jì)算二維圖像位置編碼

82b3a6a0-5944-11ed-a3b6-dac502259ad0.png。

82c3bb30-5944-11ed-a3b6-dac502259ad0.png

其中82d304dc-5944-11ed-a3b6-dac502259ad0.png82dd0806-5944-11ed-a3b6-dac502259ad0.png代表了輸入圖像特征的尺寸。注意力精煉模塊(ARM)如果在Transformer中直接采用RNN式的覆蓋注意力機(jī)制。那么將會(huì)產(chǎn)生一個(gè)具有82e85134-5944-11ed-a3b6-dac502259ad0.png空間復(fù)雜度的覆蓋矩陣82f64532-5944-11ed-a3b6-dac502259ad0.png,這樣的大小是難以接受的。問題的瓶頸在于覆蓋矩陣需要先與其他特征向量相加,再乘以向量8305bb20-5944-11ed-a3b6-dac502259ad0.png。如果我們可以先將覆蓋矩陣與831270b8-5944-11ed-a3b6-dac502259ad0.png相乘,再加上LuongAttention[4]的結(jié)果,空間復(fù)雜度將大大降低到82e85134-5944-11ed-a3b6-dac502259ad0.png。因此作者將注意力機(jī)制修改為:

832bf3c6-5944-11ed-a3b6-dac502259ad0.png

其中相似向量833be3ee-5944-11ed-a3b6-dac502259ad0.png可分為注意項(xiàng)和精煉項(xiàng)834f0078-5944-11ed-a3b6-dac502259ad0.png。需要注意的是,精煉項(xiàng)可以通過覆蓋函數(shù)直接由累積835a9da2-5944-11ed-a3b6-dac502259ad0.png向量生成,從而避免了具有為維數(shù)為8366b9de-5944-11ed-a3b6-dac502259ad0.png的中間項(xiàng)。作者將上式命名為注意力精煉框架。

8373561c-5944-11ed-a3b6-dac502259ad0.png

圖2 注意精煉模塊(ARM)的整體結(jié)構(gòu) 為了在Transformer中使用這一框架,作者提出了如圖2所示的注意精煉模塊(ARM)??梢詫ransformer中的點(diǎn)積矩陣8386e8a8-5944-11ed-a3b6-dac502259ad0.png作為注意項(xiàng),精煉項(xiàng)矩陣R需要從經(jīng)過Softmax后的注意權(quán)值A(chǔ)中計(jì)算出來。作者使用了注意權(quán)值A(chǔ)來提供歷史對(duì)齊信息,具體的選擇會(huì)在下一小節(jié)介紹。 作者定義了一個(gè)將注意力權(quán)重8391753e-5944-11ed-a3b6-dac502259ad0.png作為輸入,輸出為精煉矩陣839d53e0-5944-11ed-a3b6-dac502259ad0.png的函數(shù)83ad28f6-5944-11ed-a3b6-dac502259ad0.png

83b81784-5944-11ed-a3b6-dac502259ad0.png

其中83c67f90-5944-11ed-a3b6-dac502259ad0.png是在時(shí)間步83d531a2-5944-11ed-a3b6-dac502259ad0.png時(shí)的注意力權(quán)重。83e98c24-5944-11ed-a3b6-dac502259ad0.png代表一個(gè)卷積核,*代表卷積操作。83f51166-5944-11ed-a3b6-dac502259ad0.png是一個(gè)偏置項(xiàng),8401eb34-5944-11ed-a3b6-dac502259ad0.png是一個(gè)線性投影矩陣。 作者認(rèn)為函數(shù)840f6a84-5944-11ed-a3b6-dac502259ad0.png可以提取局部覆蓋特征來檢測(cè)已解析區(qū)域的邊緣,并識(shí)別傳入的未解析區(qū)域。最終,作者通過減去精煉項(xiàng)R來達(dá)到精煉注意力項(xiàng)E的目的。覆蓋注意力本節(jié)將介紹注意權(quán)重A的具體選擇。作者提出了自覆蓋、交叉覆蓋以及融合覆蓋三種模式,以利用不同階段的對(duì)齊信息。自覆蓋: 自覆蓋是指使用當(dāng)前層生成的對(duì)齊信息作為注意精煉模塊的輸入。對(duì)于當(dāng)前層j,首先計(jì)算注意權(quán)重8420b0d2-5944-11ed-a3b6-dac502259ad0.png,并對(duì)其進(jìn)行精煉。

842c1814-5944-11ed-a3b6-dac502259ad0.png

其中843b1c42-5944-11ed-a3b6-dac502259ad0.png代表了精煉后的點(diǎn)積結(jié)果。8446a6de-5944-11ed-a3b6-dac502259ad0.png代表在j層精煉后的注意力權(quán)重。交叉覆蓋:作者利用Transformer中解碼層相互堆疊的特性,提出了一種新的交叉覆蓋方法。交叉覆蓋使用前一層的對(duì)齊信息作為當(dāng)前層ARM的輸入。j為當(dāng)前層,我們使用精煉后的注意力權(quán)重8452e93a-5944-11ed-a3b6-dac502259ad0.png之前8461ce82-5944-11ed-a3b6-dac502259ad0.png層來精煉當(dāng)前層的注意力項(xiàng)。

846fa4d0-5944-11ed-a3b6-dac502259ad0.png

融合覆蓋:將自覆蓋和交叉覆蓋相結(jié)合,作者提出了一種新的融合覆蓋方法,充分利用從不同層生成的過去對(duì)齊信息。

848740c2-5944-11ed-a3b6-dac502259ad0.png

其中8495b63e-5944-11ed-a3b6-dac502259ad0.png表示來自當(dāng)前層的注意權(quán)重與來自前一層的精煉注意權(quán)重進(jìn)行拼接。

三、主要實(shí)驗(yàn)結(jié)果及可視化結(jié)果

表1 與先前工作在CROHME數(shù)據(jù)集上的效果的比較

84a19f30-5944-11ed-a3b6-dac502259ad0.png

從表1中可以看出,與使用覆蓋注意力機(jī)制的RNN的模型相比,CoMER在每個(gè)CROHME測(cè)試集上的性能優(yōu)于Ding等人[5]提出的先前最先進(jìn)的模型。在完全正確率ExpRate中,與之前性能最好的基于RNN的模型相比,CoMER平均提高了1.43%。與基于Transformer的模型相比,作者提出的帶有ARM和融合覆蓋的CoMER顯著提高了性能。具體而言,CoMER在所有指標(biāo)上都優(yōu)于基準(zhǔn)“BTTR”,在ExpRate中平均領(lǐng)先基準(zhǔn)“BTTR”3.6%。

表2 各模塊消融實(shí)驗(yàn)

84c74f0a-5944-11ed-a3b6-dac502259ad0.png

在表2中,“Scale -aug”表示是否采用尺度增廣[6]?!癝elf-cov”和“Cross-cov”分別表示是否使用自覆蓋和交叉覆蓋。與BTTR相比,采用ARM和覆蓋機(jī)制的CoMER的性能有了明顯的提高。

84e9ffe6-5944-11ed-a3b6-dac502259ad0.png

圖3 不同算法在CROHME 2014數(shù)據(jù)集上不同長(zhǎng)度正確率的對(duì)比 從圖3中可以看到,相較于基準(zhǔn)方法與本文提出的三種覆蓋方法,融合覆蓋可以大大增強(qiáng)模型對(duì)長(zhǎng)公式的識(shí)別率。這也驗(yàn)證了覆蓋機(jī)制能夠更好地引導(dǎo)注意力對(duì)齊歷史信息。

84feee74-5944-11ed-a3b6-dac502259ad0.png

圖4 公式圖像識(shí)別中的精煉項(xiàng)R可視化。

如圖4所示,作者將識(shí)別過程中的精煉項(xiàng)R可視化??梢钥吹?,經(jīng)過解析的區(qū)域顏色較深,這表明ARM將抑制這些解析區(qū)域的注意權(quán)重,鼓勵(lì)模型關(guān)注未解析區(qū)域。可視化實(shí)驗(yàn)表明,作者提出的ARM可以有效地緩解覆蓋不足的問題。

四、總結(jié)及討論

作者受RNN中覆蓋注意力的啟發(fā),提出將覆蓋機(jī)制引入到Transformer解碼器中。提出了一種新的注意精煉模塊(ARM),使得在Transformer中進(jìn)行注意力精煉的同時(shí)不損害其并行計(jì)算特性成為可能。同時(shí)還提出了自覆蓋、交叉覆蓋和融合覆蓋的方法,利用來自當(dāng)前層和前一層的過去對(duì)齊信息來優(yōu)化注意權(quán)重。實(shí)驗(yàn)證明了作者提出的CoMER緩解了覆蓋不足的問題,顯著提高了長(zhǎng)表達(dá)式的識(shí)別精度。作者認(rèn)為其提出的注意精煉框架不僅適用于手寫數(shù)學(xué)表達(dá)式識(shí)別。ARM可以幫助精煉注意權(quán)重,提高所有需要?jiǎng)討B(tài)對(duì)齊的任務(wù)的對(duì)齊質(zhì)量。為此,作者打算將解碼器中的ARM擴(kuò)展為一個(gè)通用框架,用于解決未來工作中的各種視覺和語言任務(wù)(例如,機(jī)器翻譯、文本摘要、圖像字幕)。

原文作者: Wenqi Zhao, Liangcai Gao

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1176

    瀏覽量

    41982
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9352

    瀏覽量

    377524
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3799

    瀏覽量

    138041
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    對(duì)話張麗萍 AI磁芯損耗建模應(yīng)用還有多遠(yuǎn)?

    AI技術(shù)的出現(xiàn)給磁芯損耗的建模提供了新的方向與機(jī)會(huì)。 過去磁芯損耗建模主要依賴于基于測(cè)試數(shù)據(jù)的數(shù)學(xué)擬合公式,這些公式在針對(duì)正弦波、PWM波激
    的頭像 發(fā)表于 07-10 15:22 ?110次閱讀
    對(duì)話張麗萍  AI磁芯損耗<b class='flag-5'>建模</b>應(yīng)用還有多遠(yuǎn)?

    基于LockAI視覺識(shí)別模塊:手寫數(shù)字識(shí)別

    手寫數(shù)字識(shí)別是一種經(jīng)典的模式識(shí)別和圖像處理問題,旨在通過計(jì)算機(jī)自動(dòng)識(shí)別用戶手寫的數(shù)字。 本文將教會(huì)你如何使用基于RV1106的 LockAI
    發(fā)表于 06-30 16:45

    基于LockAI視覺識(shí)別模塊:手寫數(shù)字識(shí)別

    手寫數(shù)字識(shí)別是一種經(jīng)典的模式識(shí)別和圖像處理問題,旨在通過計(jì)算機(jī)自動(dòng)識(shí)別用戶手寫的數(shù)字。本文將教會(huì)你如何使用基于RV1106的LockAI視覺
    的頭像 發(fā)表于 06-30 15:44 ?443次閱讀
    基于LockAI視覺<b class='flag-5'>識(shí)別</b>模塊:<b class='flag-5'>手寫</b>數(shù)字<b class='flag-5'>識(shí)別</b>

    經(jīng)顱電刺激適應(yīng)癥之tDCS治療注意力缺陷ADHD

    ADHD是常見神經(jīng)行為障礙,癥狀包括注意力不集中、多動(dòng)和沖動(dòng),兒童和青少年患病率為5%-7.2%,成人在1%-10%,男孩多于女孩,成年后部分癥狀會(huì)持續(xù),引發(fā)多種并發(fā)癥,給個(gè)人、家庭和社會(huì)帶來
    的頭像 發(fā)表于 04-22 19:49 ?143次閱讀
    經(jīng)顱電刺激適應(yīng)癥之tDCS治療<b class='flag-5'>注意力</b>缺陷ADHD

    Firefly 服務(wù)器系列:覆蓋多個(gè)領(lǐng)域的高算解決方案

    ?服務(wù)器算覆蓋60~1570TOPS強(qiáng)勁算,支持Transformer架構(gòu)下大語言模型的私有化部署,如Gemma-2B、ChatGLM3-6B、Qwen-1.
    的頭像 發(fā)表于 02-19 16:34 ?624次閱讀
    Firefly 服務(wù)器系列:<b class='flag-5'>覆蓋</b>多個(gè)領(lǐng)域的高算<b class='flag-5'>力</b>解決方案

    如何使用MATLAB構(gòu)建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任務(wù),如機(jī)器翻譯。Transformer 通過引入自注意力機(jī)制使得處理長(zhǎng)距離依賴關(guān)系時(shí)變得高效。因此 Vaswani 等人的論文強(qiáng)調(diào)“
    的頭像 發(fā)表于 02-06 10:21 ?4039次閱讀
    如何使用MATLAB構(gòu)建<b class='flag-5'>Transformer</b>模型

    港大提出SparX:強(qiáng)化Vision Mamba和Transformer的稀疏跳躍連接機(jī)制

    本文分享香港大學(xué)計(jì)算和數(shù)據(jù)科學(xué)學(xué)院俞益洲教授及其研究團(tuán)隊(duì)發(fā)表于 AAAI 2025 的論文——SparX,一種強(qiáng)化 Vision Mamba 和 Transformer 的稀疏跳躍連接機(jī)制,性能強(qiáng)大
    的頭像 發(fā)表于 01-03 09:28 ?696次閱讀
    港大提出SparX:強(qiáng)化Vision Mamba和<b class='flag-5'>Transformer</b>的稀疏跳躍連接<b class='flag-5'>機(jī)制</b>

    【正點(diǎn)原子STM32H7R3開發(fā)套件試用體驗(yàn)】手寫數(shù)字、字母的識(shí)別

    【正點(diǎn)原子STM32H7R3開發(fā)套件試用體驗(yàn)】手寫數(shù)字、字母的識(shí)別 本文介紹了利用正點(diǎn)原子提供的手寫識(shí)別庫(kù),在STM32H7R3開發(fā)板上實(shí)現(xiàn) 0-9 數(shù)字和 A-Z,a-z 字母的
    發(fā)表于 01-01 17:37

    什么是LLM?LLM在自然語言處理中的應(yīng)用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種
    的頭像 發(fā)表于 11-19 15:32 ?3650次閱讀

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機(jī)電系統(tǒng)中數(shù)據(jù)驅(qū)動(dòng)故障檢測(cè)模型的性能和可解釋性。引入了一種混合因果發(fā)現(xiàn)算法來發(fā)現(xiàn)監(jiān)測(cè)變量之間的繼承因果關(guān)系。順序連接因果變量的因果路徑用作接收?qǐng)觯褂枚喑叨染矸e來提取特征?;诜謱?b class='flag-5'>注意力機(jī)制來聚合
    的頭像 發(fā)表于 11-12 09:52 ?1071次閱讀
    一種基于因果路徑的層次圖卷積<b class='flag-5'>注意力</b>網(wǎng)絡(luò)

    Llama 3 模型與其他AI工具對(duì)比

    、技術(shù)架構(gòu) Llama 3模型 采用了最新的Transformer架構(gòu),并結(jié)合了自注意力機(jī)制和分組查詢關(guān)注(GQA)機(jī)制。 引入了高效的tokenizer和RoPE位置編碼,提高了語言
    的頭像 發(fā)表于 10-27 14:37 ?1067次閱讀

    英偉達(dá)推出歸一化Transformer,革命性提升LLM訓(xùn)練速度

    了新的突破。 相較于傳統(tǒng)的Transformer架構(gòu),nGPT在保持原有精度的同時(shí),直接將大型語言模型(LLM)的訓(xùn)練速度提升了高達(dá)20倍。這一顯著的性能提升,無疑將極大地推動(dòng)AI技術(shù)的發(fā)展和應(yīng)用。 在nGPT中,所有的向量(包括嵌入向量、多層感知機(jī)(MLP)向量、注意力
    的頭像 發(fā)表于 10-23 11:30 ?875次閱讀

    matlab 神經(jīng)網(wǎng)絡(luò) 數(shù)學(xué)建模數(shù)值分析

    matlab神經(jīng)網(wǎng)絡(luò) 數(shù)學(xué)建模數(shù)值分析 精通的可以討論下
    發(fā)表于 09-18 15:14

    2024 年 19 種最佳大型語言模型

    ,當(dāng)時(shí)一篇題為“通過聯(lián)合學(xué)習(xí)對(duì)齊和翻譯的神經(jīng)機(jī)器翻譯”的研究論文中引入了注意力機(jī)制(一種旨在模仿人類認(rèn)知注意力的機(jī)器學(xué)習(xí)技術(shù))。2017年,另一篇論文“注意力就是你
    的頭像 發(fā)表于 08-30 12:56 ?986次閱讀
    2024 年 19 種最佳大型語言模型

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    并捕捉長(zhǎng)距離依賴關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。Transformer通過編碼器(Encoder)和解碼器(Decoder)兩部分實(shí)現(xiàn)語言的編碼和解碼。 注意力機(jī)制Transformer中的
    發(fā)表于 08-02 11:03