一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用于語(yǔ)言和視覺(jué)處理的高效 Transformer能在多種語(yǔ)言和視覺(jué)任務(wù)中帶來(lái)優(yōu)異效果

NVIDIA英偉達(dá) ? 來(lái)源:NVIDIA英偉達(dá) ? 作者:NVIDIA英偉達(dá) ? 2021-12-28 10:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

白皮書(shū)《Transformer-LS:用于語(yǔ)言和視覺(jué)處理的高效 Transformer》中提出了“長(zhǎng)-短 Transformer” (Transformer-LS),這是一種高效的 Transformer 架構(gòu),用于為語(yǔ)言和視覺(jué)任務(wù)模擬中具有線(xiàn)性復(fù)雜度的長(zhǎng)序列。

鑒于 Transformer 的模型在自然語(yǔ)言處理 (NLP) 和計(jì)算機(jī)視覺(jué)領(lǐng)域已經(jīng)取得了巨大的成功。這種模型可受益于自注意力模塊,后者既可捕獲詞元間的相鄰相關(guān)性和長(zhǎng)距離相關(guān)性,同時(shí)又能在現(xiàn)代硬件上高效擴(kuò)展。

然而,自注意力機(jī)制所消耗的時(shí)間和內(nèi)存與輸入長(zhǎng)度呈二次方關(guān)系,使其處理長(zhǎng)序列的成本非常高昂。許多語(yǔ)言和視覺(jué)任務(wù)能夠從長(zhǎng)序列建模中獲益。在 NLP 中,文檔級(jí)任務(wù)需要處理較長(zhǎng)的文章,而語(yǔ)言模型的性能往往隨序列長(zhǎng)度而增加。

在計(jì)算機(jī)視覺(jué)里,大量任務(wù)涉及高分辨率圖像。而這些圖像在使用 Transformer 模型處理前,會(huì)被轉(zhuǎn)換成圖像塊的長(zhǎng)序列。因此,設(shè)計(jì)一種能泛化到各種不同領(lǐng)域的長(zhǎng)序列建模的高效注意力機(jī)制至關(guān)重要。

一直以來(lái),業(yè)界提出了各種方法來(lái)減少完全注意力機(jī)制的二次方成本。但是,在語(yǔ)言和視覺(jué)領(lǐng)域都有良好應(yīng)用的高效注意力機(jī)制尚未得到深入研究。一類(lèi)方法使用滑動(dòng)窗口和隨機(jī)稀疏模式等預(yù)定義模式對(duì)注意力矩陣進(jìn)行稀疏化處理。

這類(lèi)方法使用強(qiáng)大的歸納偏置來(lái)改善計(jì)算性能和模型性能,但它們會(huì)限制自注意力層的能力,因?yàn)槊總€(gè)特定分詞器只能處理一個(gè)詞元子集。

另一類(lèi)方法使用 low-rank 投影為輸入序列構(gòu)成低分辨率表示,但這類(lèi)方法只能對(duì)特定的 NLP 任務(wù)有效。與稀疏注意力不同,這類(lèi)方法允許每個(gè)分詞器處理整個(gè)輸入序列。但是,由于缺少高保真度詞元級(jí)信息,對(duì)于需要細(xì)粒度局部信息的任務(wù)(包括語(yǔ)言領(lǐng)域和視覺(jué)領(lǐng)域的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試)而言,這類(lèi)方法的性能有時(shí)并不優(yōu)于完全注意力或稀釋注意力機(jī)制。

盡管高效 Transformer 的發(fā)展相當(dāng)迅速,一些提出的架構(gòu)只適用于雙向模型?;?Transformer 的自回歸模型已經(jīng)在語(yǔ)言建模 、圖像合成 和文本轉(zhuǎn)圖像合成領(lǐng)域取得了巨大的成功。這些領(lǐng)域都涉及長(zhǎng)文本或高分辨率圖像。

因此,有必要設(shè)計(jì)一種同時(shí)適用于自回歸模型和雙向模型的高效 Transformer。

在白皮書(shū)《Transformer-LS:用于語(yǔ)言和視覺(jué)處理的高效 Transformer》中,研究把局部窗口注意力和新穎的長(zhǎng)距離注意力統(tǒng)一成單個(gè)高效注意力機(jī)制。展示這兩種注意力機(jī)制的互補(bǔ)效應(yīng),能在多種語(yǔ)言和視覺(jué)任務(wù)中為自回歸模型和雙向模型帶來(lái)優(yōu)異的效果。

原文標(biāo)題:白皮書(shū) | 《Transformer-LS:用于語(yǔ)言和視覺(jué)處理的高效Transformer》

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:彭菁
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:白皮書(shū) | 《Transformer-LS:用于語(yǔ)言和視覺(jué)處理的高效Transformer》

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    的詳細(xì)解析: 1. 核心組成與工作原理 視覺(jué)編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺(jué)Transformer(ViT)。 語(yǔ)言模型 :
    的頭像 發(fā)表于 03-17 15:32 ?4066次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b>模型)?詳細(xì)解析

    全志視覺(jué)芯片V821接入DeepSeek和豆包視覺(jué)大模型

    帶來(lái)一款全志新的視覺(jué)芯片V821,通過(guò)網(wǎng)絡(luò)接入的方式打通DeepSeek-R1滿(mǎn)血版模型和豆包視覺(jué)大模型,并展示其語(yǔ)言和視覺(jué)交互的能力和多樣
    的頭像 發(fā)表于 02-21 09:27 ?2785次閱讀

    一文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1756次閱讀
    一文詳解<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b>模型

    NaVILA:加州大學(xué)與英偉達(dá)聯(lián)合發(fā)布新型視覺(jué)語(yǔ)言模型

    (VLM)是一種具備多模態(tài)生成能力的先進(jìn)AI模型。它能夠智能地處理文本、圖像以及視頻等多種提示,并通過(guò)復(fù)雜的推理過(guò)程,實(shí)現(xiàn)對(duì)這些信息的準(zhǔn)確理解和應(yīng)用。NaVILA正是基于這一原理,通過(guò)將大型語(yǔ)言模型(LLM)與
    的頭像 發(fā)表于 12-13 10:51 ?677次閱讀

    語(yǔ)言模型開(kāi)發(fā)語(yǔ)言是什么

    在人工智能領(lǐng)域,大語(yǔ)言模型(Large Language Models, LLMs)背后,離不開(kāi)高效的開(kāi)發(fā)語(yǔ)言和工具的支持。下面,AI部落小編為您介紹大語(yǔ)言模型開(kāi)發(fā)所依賴(lài)的主要編程
    的頭像 發(fā)表于 12-04 11:44 ?692次閱讀

    基于視覺(jué)語(yǔ)言模型的導(dǎo)航框架VLMnav

    本文提出了一種將視覺(jué)語(yǔ)言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴(lài)于感知、規(guī)劃和控制之間的分離,而是使用VLM在一步中直接選擇動(dòng)作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為一種無(wú)需任何微調(diào)或?qū)Ш綌?shù)據(jù)的端到端策略來(lái)使用。這使得該方法具有開(kāi)放性和可適
    的頭像 發(fā)表于 11-22 09:42 ?792次閱讀

    串口屏支持哪些編程語(yǔ)言和開(kāi)發(fā)環(huán)境?

    串口屏作為一種常用的顯示和交互設(shè)備,支持多種編程語(yǔ)言和開(kāi)發(fā)環(huán)境。以下是對(duì)串口屏支持的編程語(yǔ)言和開(kāi)發(fā)環(huán)境的詳細(xì)歸納:
    的頭像 發(fā)表于 11-13 11:45 ?747次閱讀
    串口屏支持哪些編程<b class='flag-5'>語(yǔ)言和</b>開(kāi)發(fā)環(huán)境?

    自然語(yǔ)言處理與機(jī)器學(xué)習(xí)的區(qū)別

    在人工智能的快速發(fā)展,自然語(yǔ)言處理(NLP)和機(jī)器學(xué)習(xí)(ML)成為了兩個(gè)核心的研究領(lǐng)域。它們都致力于解決復(fù)雜的問(wèn)題,但側(cè)重點(diǎn)和應(yīng)用場(chǎng)景有所不同。 1. 自然語(yǔ)言
    的頭像 發(fā)表于 11-11 10:35 ?1540次閱讀

    MCU編程語(yǔ)言和開(kāi)發(fā)環(huán)境介紹

    微控制器單元(Microcontroller Unit,簡(jiǎn)稱(chēng)MCU)是嵌入式系統(tǒng)的核心,廣泛應(yīng)用于各種電子產(chǎn)品。隨著技術(shù)的發(fā)展,MCU編程語(yǔ)言和開(kāi)發(fā)環(huán)境也在不斷進(jìn)步,以適應(yīng)不同的應(yīng)用需求。 1.
    的頭像 發(fā)表于 11-01 11:51 ?2192次閱讀

    C語(yǔ)言和C++結(jié)構(gòu)體的區(qū)別

    同樣是結(jié)構(gòu)體,看看在C語(yǔ)言和C++中有什么區(qū)別?
    的頭像 發(fā)表于 10-30 15:11 ?766次閱讀

    C語(yǔ)言與Java語(yǔ)言的對(duì)比

    C語(yǔ)言和Java語(yǔ)言都是當(dāng)前編程領(lǐng)域中的重要成員,它們各自具有獨(dú)特的優(yōu)勢(shì)和特點(diǎn),適用于不同的應(yīng)用場(chǎng)景。以下將從語(yǔ)法特性、內(nèi)存管理、跨平臺(tái)性、性能、應(yīng)用領(lǐng)域等多個(gè)方面對(duì)C語(yǔ)言和Java
    的頭像 發(fā)表于 10-29 17:31 ?1069次閱讀

    Apple Intelligence有望在明年4月實(shí)現(xiàn)多種語(yǔ)言支持

    10月29日最新資訊,蘋(píng)果公司官方宣布,其人工智能計(jì)劃Apple Intelligence即將在未來(lái)數(shù)年間顯著擴(kuò)大語(yǔ)言覆蓋范圍,目標(biāo)是在2025年4月前實(shí)現(xiàn)對(duì)包括中文在內(nèi)的多種語(yǔ)言的支持。
    的頭像 發(fā)表于 10-29 14:32 ?710次閱讀

    TMS320LF240x DSP的C語(yǔ)言和匯編代碼快速入門(mén)

    電子發(fā)燒友網(wǎng)站提供《TMS320LF240x DSP的C語(yǔ)言和匯編代碼快速入門(mén).pdf》資料免費(fèi)下載
    發(fā)表于 10-18 10:14 ?1次下載
    TMS320LF240x DSP的C<b class='flag-5'>語(yǔ)言和</b>匯編代碼快速入門(mén)

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    的表達(dá)方式和生成能力。通過(guò)預(yù)測(cè)文本缺失的部分或下一個(gè)詞,模型逐漸掌握語(yǔ)言的規(guī)律和特征。 常用的模型結(jié)構(gòu) Transformer架構(gòu):大語(yǔ)言模型通常基于
    發(fā)表于 08-02 11:03

    鴻蒙語(yǔ)言基礎(chǔ)類(lèi)庫(kù):system.configuration 應(yīng)用配置

    獲取應(yīng)用當(dāng)前的語(yǔ)言和地區(qū)。默認(rèn)與系統(tǒng)的語(yǔ)言和地區(qū)同步。
    的頭像 發(fā)表于 07-16 09:34 ?596次閱讀