一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

卷積神經網絡能用INT4為啥要用INT8?

YCqV_FPGA_EETre ? 來源:FPGA開發(fā)圈 ? 2020-09-03 10:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1

性能挑戰(zhàn)

企業(yè)日益重視基于 AI 的系統(tǒng)在數(shù)據(jù)中心、汽車、工業(yè)和醫(yī)療等領域中的產品化。

這帶來了兩大挑戰(zhàn):

AI 推斷需要完成的計算量成數(shù)量級增加,同時還要保持價格、功耗、時延和尺寸大小不變。 AI 科學家繼續(xù)日復一日地在算法和模型上開展創(chuàng)新,需要各種不同的硬件架構提供最佳性能。

2

方案概述

對于 AI 推斷,在提供與浮點媲美的精度的同時,int8 的性能優(yōu)于浮點。然而在資源有限的前提下,int8 不能滿足性能要求,int4 優(yōu)化是解決之道。通過 int4 優(yōu)化,與現(xiàn)有的 int8 解決方案相比,賽靈思在實際硬件上可實現(xiàn)高達 77% 的性能提升。賽靈思4 位激活和 4 位權重 (4A4W) 全流程硬件友好型量化解決方案可實現(xiàn)更優(yōu)異的精度/資源權衡取舍。

該白皮書介紹了在Zynq UltraScale+ MPSoC 和 Zynq-7000 SoC 系列(16nm和28nm)上面向CNN4位XDPU實現(xiàn)的低精度加速器。這種加速器通過高效地映射卷積計算,充分發(fā)揮其DSP功能。這種解決方案可提供優(yōu)于XDPU兩倍的解決方案級性能。在ADAS系統(tǒng)中執(zhí)行2D檢測任務時,這種實現(xiàn)方案能在ZynqUltraScale+MPSoCZCU102板上實現(xiàn)230fps的推斷速度,與8位XDPU相比性能提高1.52倍。

此外,在用于ADAS系統(tǒng)中的不同任務時,該解決方案可實現(xiàn)媲美全精度模型的結果。

3

技術導讀

對持續(xù)創(chuàng)新的強烈需求需要使用靈活應變的領域專用架構 (DSA)。優(yōu)化 AI 推斷性能和降低功耗的主要趨勢之一是使用較低精度和混合精度。為降低硬件設計復雜性,模型量化被當作關鍵技術應用于各類硬件平臺。大量工作被投入用于最大限度地降低 CNN 運算量和存儲成本。這項研究充分地證明,對于大多數(shù)計算機視覺任務,在不嚴重犧牲精度的情況下,權重和激活可以用 int8 表達。

然而對于某些邊緣應用而言,硬件資源仍然不足。在對邊緣應用使用較低的位寬(如 1 位、2 位)時,一些常見的硬件設計解決方案使用簡化的乘法器。盡管這些解決方案時延低、吞吐量大,但它們與全精度模型相比,仍然存在較大的精度差距。因此,在模型精度和硬件性能之間尋求平衡變得至關重要。

賽靈思運用幾種常見的網絡結構(ResNet50V1、ResNet50V2 、MobilenetV1和MobilenetV2),在 ImageNet 分類任務上通過使用幾種不同的量化算法進行了實驗。結果顯示精度隨著位寬減少而下降。尤其是在位寬低于 4 時精度下降顯著。此外,賽靈思也使用 Williams 等介紹的 Roofline 模型,分析不同位寬下的硬件性能。

在ZCU102上以不同位寬運行Roofline模型

如圖 1 所示,以賽靈思 ZCU102 評估板為例,隨著 MAC 的精度降低,硬件成本降低,性能得到提高。此外,實驗結果還顯示,低比特量化可通過降低存儲器需求提高性能。這在 ResNet-50 神經網絡的卷積運算強度上得到證實。該網絡分別用 8 位精度和 4 位精度進行了運算。因此,int4 在模型精度和硬件性能之間實現(xiàn)了最佳權衡。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103631
  • AI
    AI
    +關注

    關注

    88

    文章

    35164

    瀏覽量

    279989
  • adas
    +關注

    關注

    310

    文章

    2258

    瀏覽量

    210254

原文標題:卷積神經網絡能用 INT4 為啥要用 INT8 ?- 最新白皮書下載

文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發(fā)圈】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用 NPU 插件對量化的 Llama 3.1 8b 模型進行推理時出現(xiàn)“從 __Int64 轉換為無符號 int 的錯誤”,怎么解決?

    /Meta-Llama-3.1-8B --weight-format int4 --sym --group-size 128 --ratio 1.0 INT4-llama-3.1-8B 使用 NPU 插件
    發(fā)表于 06-25 07:20

    為什么無法在GPU上使用INT8INT4量化模型獲得輸出?

    安裝OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包將 whisper-large-v3 模型轉換為 int 4int8,并在 GPU 上使用 OpenVINO? 運行推理。 沒有可用的
    發(fā)表于 06-23 07:11

    i.mx95的EIQ轉換器將int8更改為uint8后出現(xiàn)報錯怎么解決?

    我有一個大型量化 tensorflow lite 模型。它包括輸入和輸出類型為 “int8” 的 “Softmax”作。 我正在運行 eIQ 模型工具版本 1.14.0 將模型轉換為 i.MX95
    發(fā)表于 04-14 07:15

    在OpenVINO?工具套件的深度學習工作臺中無法導出INT8模型怎么解決?

    無法在 OpenVINO? 工具套件的深度學習 (DL) 工作臺中導出 INT8 模型
    發(fā)表于 03-06 07:54

    是否可以輸入隨機數(shù)據(jù)集來生成INT8訓練后量化模型?

    無法確定是否可以輸入隨機數(shù)據(jù)集來生成 INT8 訓練后量化模型。
    發(fā)表于 03-06 06:45

    BP神經網絡卷積神經網絡的比較

    BP神經網絡卷積神經網絡在多個方面存在顯著差異,以下是對兩者的比較: 一、結構特點 BP神經網絡 : BP神經網絡是一種多層的前饋
    的頭像 發(fā)表于 02-12 15:53 ?670次閱讀

    人工神經網絡的原理和多種神經網絡架構方法

    在上一篇文章中,我們介紹了傳統(tǒng)機器學習的基礎知識和多種算法。在本文中,我們會介紹人工神經網絡的原理和多種神經網絡架構方法,供各位老師選擇。 01 人工神經網絡 ? 人工神經網絡模型之所
    的頭像 發(fā)表于 01-09 10:24 ?1196次閱讀
    人工<b class='flag-5'>神經網絡</b>的原理和多種<b class='flag-5'>神經網絡</b>架構方法

    卷積神經網絡的實現(xiàn)工具與框架

    卷積神經網絡因其在圖像和視頻處理任務中的卓越性能而廣受歡迎。隨著深度學習技術的快速發(fā)展,多種實現(xiàn)工具和框架應運而生,為研究人員和開發(fā)者提供了強大的支持。 TensorFlow 概述
    的頭像 發(fā)表于 11-15 15:20 ?671次閱讀

    卷積神經網絡的參數(shù)調整方法

    卷積神經網絡因其在處理具有空間層次結構的數(shù)據(jù)時的卓越性能而受到青睞。然而,CNN的成功很大程度上依賴于其參數(shù)的合理設置。參數(shù)調整是一個復雜的過程,涉及到多個超參數(shù)的選擇和優(yōu)化。 網絡架構參數(shù)
    的頭像 發(fā)表于 11-15 15:10 ?1209次閱讀

    卷積神經網絡在自然語言處理中的應用

    自然語言處理是人工智能領域的一個重要分支,它致力于使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發(fā)展,卷積神經網絡(CNNs)作為一種強大的模型,在圖像識別和語音處理等領域取得了顯著成果
    的頭像 發(fā)表于 11-15 14:58 ?807次閱讀

    卷積神經網絡與傳統(tǒng)神經網絡的比較

    在深度學習領域,神經網絡模型被廣泛應用于各種任務,如圖像識別、自然語言處理和游戲智能等。其中,卷積神經網絡(CNNs)和傳統(tǒng)神經網絡是兩種常見的模型。 1. 結構差異 1.1 傳統(tǒng)
    的頭像 發(fā)表于 11-15 14:53 ?1878次閱讀

    深度學習中的卷積神經網絡模型

    深度學習近年來在多個領域取得了顯著的進展,尤其是在圖像識別、語音識別和自然語言處理等方面。卷積神經網絡作為深度學習的一個分支,因其在圖像處理任務中的卓越性能而受到廣泛關注。 卷積神經網絡
    的頭像 發(fā)表于 11-15 14:52 ?846次閱讀

    卷積神經網絡的基本原理與算法

    卷積神經網絡(Convolutional Neural Networks,CNN)是一類包含卷積計算且具有深度結構的前饋神經網絡(Feedforward Neural Networks
    的頭像 發(fā)表于 11-15 14:47 ?1784次閱讀

    關于卷積神經網絡,這些概念你厘清了么~

    隨著人工智能(AI)技術的快速發(fā)展,AI可以越來越多地支持以前無法實現(xiàn)或者難以實現(xiàn)的應用。本文基于此解釋了 卷積神經網絡 (CNN)及其對人工智能和機器學習的意義。CNN是一種能夠從復雜數(shù)據(jù)中提
    發(fā)表于 10-24 13:56

    SD NAND芯片的測評與使用 基于卷積神經網絡的數(shù)字識別

    目錄 前言: 簡介: 對照: 測試: 使用: 照片存儲: 基于卷積神經網絡的數(shù)字識別: ———————————————— 前言: 感謝深圳雷龍公司寄送的樣品,其中包括兩張2代的4
    的頭像 發(fā)表于 07-24 18:08 ?1798次閱讀