深度學(xué)習(xí)模型需要大量數(shù)據(jù)才能產(chǎn)生準(zhǔn)確的預(yù)測(cè),隨著模型規(guī)模和復(fù)雜性的增加,這種需求日益迫切。即使是大型數(shù)據(jù)集,例如擁有 100 多萬張圖像的著名 ImageNet ,也不足以在現(xiàn)代計(jì)算機(jī)視覺任務(wù)中實(shí)現(xiàn)最先進(jìn)的結(jié)果。
為此,需要使用數(shù)據(jù)增強(qiáng)技術(shù),通過對(duì)數(shù)據(jù)引入隨機(jī)干擾(如幾何變形、顏色變換、噪聲添加等),人為地增加數(shù)據(jù)集的大小。這些干擾有助于生成預(yù)測(cè)更穩(wěn)健的模型,避免過度擬合,并提供更好的精度。
在醫(yī)學(xué)成像任務(wù)中,數(shù)據(jù)擴(kuò)充至關(guān)重要,因?yàn)閿?shù)據(jù)集最多只包含數(shù)百或數(shù)千個(gè)樣本。另一方面,模型往往會(huì)產(chǎn)生需要大量 GPU 內(nèi)存的大激活,特別是在處理 CT 和 MRI 掃描等體積數(shù)據(jù)時(shí)。這通常會(huì)導(dǎo)致在小數(shù)據(jù)集上進(jìn)行小批量的培訓(xùn)。為了避免過度擬合,需要更精細(xì)的數(shù)據(jù)預(yù)處理和擴(kuò)充技術(shù)。
然而,預(yù)處理通常對(duì)系統(tǒng)的整體性能有重大影響。這在處理大輸入的應(yīng)用程序中尤其如此,例如體積圖像。由于 NumPy 等庫的簡單性、靈活性和可用性,這些預(yù)處理任務(wù)通常在 CPU 上運(yùn)行。
在某些應(yīng)用中,例如醫(yī)學(xué)圖像的分割或檢測(cè),由于數(shù)據(jù)預(yù)處理通常在 CPU 中執(zhí)行,因此訓(xùn)練期間的 GPU 利用率通常不理想。解決方案之一是嘗試完全重疊數(shù)據(jù)處理和訓(xùn)練,但并不總是那么簡單。
這樣的性能瓶頸導(dǎo)致了雞和蛋的問題。由于性能原因,研究人員避免在他們的模型中引入更高級(jí)的增強(qiáng),并且由于采用率較低,庫不會(huì)將精力放在優(yōu)化預(yù)處理原語上。
GPU 加速解決方案
通過將數(shù)據(jù)預(yù)處理卸載到 GPU ,可以顯著提高具有大量數(shù)據(jù)預(yù)處理管道的應(yīng)用程序的性能。 GPU 在此類場景中通常未得到充分利用,但可用于完成 CPU 無法及時(shí)完成的工作。其結(jié)果是更好的硬件利用率,最終更快的培訓(xùn)。
就在最近, NVIDIA 在 MICCAI 2021 腦腫瘤分割挑戰(zhàn)中獲得 10 個(gè)頂級(jí)排名中的 3 個(gè) ,包括獲勝的解決方案。獲勝的解決方案通過加快系統(tǒng)的 preprocessing pipeline 速度,使 GPU 利用率高達(dá) 98% ,并將總訓(xùn)練時(shí)間減少了約 5% ( 30 分鐘)(圖 1 )。
圖 1 。 U-Net3D BraTS21 訓(xùn)練性能比較
當(dāng)你查看NVIDIA 提交的[VZX333 ]時(shí),這種差異變得更加顯著。它使用了與BraTS21獲獎(jiǎng)解決方案相同的網(wǎng)絡(luò)體系結(jié)構(gòu),但具有更復(fù)雜的數(shù)據(jù)加載管道和更大的輸入量(KITS19數(shù)據(jù)集)。與本機(jī)管道相比,性能提升是令人印象深刻的2倍端到端培訓(xùn)加速(圖2)。
圖 2 。 U-Net3D MLPerf 訓(xùn)練 1.1 訓(xùn)練性能比較
這是由 NVIDIA 數(shù)據(jù)加載庫( DALI ) 實(shí)現(xiàn)的。 DALI 提供了一組 GPU 加速構(gòu)建塊,使您能夠構(gòu)建完整的數(shù)據(jù)處理管道,包括數(shù)據(jù)加載、解碼和擴(kuò)充,并將其與所選的深度學(xué)習(xí)框架集成(圖 3 )。
圖 3 。 DALI 概述及其應(yīng)用 在 DL 應(yīng)用程序中用作加速數(shù)據(jù)加載和預(yù)處理的工具
體積圖像操作
最初, DALI 是作為圖像分類和檢測(cè)工作流的解決方案開發(fā)的。后來,它被擴(kuò)展到其他數(shù)據(jù)域,如音頻、視頻或體積圖像。有關(guān)體積數(shù)據(jù)處理的更多信息,請(qǐng)參閱 3D Transforms 或 NumPy 讀卡器 .
DALI 支持多種圖像處理操作員。有些還可以應(yīng)用于體積圖像。以下是一些值得一提的例子:
Resize
Warp affine
Rotate
隨機(jī)對(duì)象邊界框
為了展示上述的一些操作,我們使用了來自 BraTS19 數(shù)據(jù)集的一個(gè)樣本,該樣本由標(biāo)記為腦腫瘤分割的 MRI 掃描組成。圖 4 顯示了從腦 MRI 掃描體積中提取的二維切片,其中較暗的區(qū)域表示標(biāo)記為異常的區(qū)域。
圖 4 。來自 BraTS19 數(shù)據(jù)集樣本的切片
調(diào)整大小運(yùn)算符
Resize通過插值輸入像素將圖像放大或縮小到所需形狀??梢苑謩e為每個(gè)維度配置“高比例”或“低比例”,包括選擇插值方法。
Warp affine通過線性變換將像素坐標(biāo)從源映射到目標(biāo),應(yīng)用幾何變換。
Warp affine可用于一次性執(zhí)行多個(gè)變換(旋轉(zhuǎn)、翻轉(zhuǎn)、剪切、縮放)。
旋轉(zhuǎn)運(yùn)算符
Rotate允許您繞任意軸旋轉(zhuǎn)體積,該軸作為矢量和角度提供。它還可以選擇性地?cái)U(kuò)展畫布,使整個(gè)旋轉(zhuǎn)圖像包含在其中。
隨機(jī)對(duì)象邊界框操作符
隨機(jī)對(duì)象邊界框是一種適合于檢測(cè)和分段任務(wù)的運(yùn)算符。如前所述,醫(yī)療數(shù)據(jù)集往往相當(dāng)小,目標(biāo)類別(如異常)占據(jù)的區(qū)域相對(duì)較小。此外,在許多情況下,輸入容量遠(yuǎn)大于網(wǎng)絡(luò)預(yù)期的容量。如果要使用隨機(jī)裁剪窗口進(jìn)行訓(xùn)練,則大多數(shù)窗口不會(huì)包含目標(biāo)。這可能導(dǎo)致訓(xùn)練收斂速度減慢或使網(wǎng)絡(luò)偏向假陰性結(jié)果。
此運(yùn)算符選擇可能偏向于對(duì)特定標(biāo)簽采樣的偽隨機(jī)作物。連接組件分析是在標(biāo)簽圖上執(zhí)行的一個(gè)預(yù)步驟。然后,以相同的概率隨機(jī)選擇一個(gè)連接的 blob 。通過這樣做,操作符可以避免過度呈現(xiàn)較大的斑點(diǎn)。
您還可以選擇將選擇限制為最大的 K 個(gè) blob 或指定最小 blob 大小。選擇特定 blob 時(shí),將在包含給定 blob 的范圍內(nèi)生成隨機(jī)裁剪窗口。圖 8 顯示了這個(gè)裁剪窗口選擇過程。
圖 8 。想象 the隨機(jī)對(duì)象邊界框?qū)哂幸唤M屬于三個(gè)不同類別(每個(gè)類別用不同顏色高亮顯示)的對(duì)象的人造 2D 圖像的操作
學(xué)習(xí)速度的提高是非常顯著的。在 KITS19 數(shù)據(jù)集上, nnU Net 在使用隨機(jī)對(duì)象邊界框運(yùn)算符的測(cè)試運(yùn)行時(shí)段中, 2134 達(dá)到與 3222 個(gè)隨機(jī)裁剪時(shí)段相同的精度。
通常,查找連接組件的過程很慢,但數(shù)據(jù)集中的樣本數(shù)可能很小。操作員可以配置為緩存連接的組件信息,以便僅在培訓(xùn)的第一個(gè)歷元中計(jì)算。
關(guān)于作者
Janusz Lisiecki 是 NVIDIA 的深度學(xué)習(xí)經(jīng)理,致力于快速數(shù)據(jù)管道。他過去的經(jīng)驗(yàn)涵蓋從面向大眾消費(fèi)市場的嵌入式系統(tǒng)到高性能硬件軟件數(shù)據(jù)處理解決方案。
Joaquin Anton Guirao 是 NVIDIA 深度學(xué)習(xí)框架團(tuán)隊(duì)的高級(jí)軟件工程師,專注于 NVIDIA DALI
Pablo Ribalta 是 NVIDIA 的深度學(xué)習(xí)算法經(jīng)理,致力于 2D 和體積數(shù)據(jù)的基于圖像的模型。他的研究經(jīng)驗(yàn)包括啟發(fā)式、元啟發(fā)式、優(yōu)化以及深度學(xué)習(xí)的不同應(yīng)用,如醫(yī)學(xué)和衛(wèi)星圖像。
Michal Futrega 是 NVIDIA 的軟件工程師,致力于醫(yī)學(xué)圖像分割的神經(jīng)網(wǎng)絡(luò)和藥物發(fā)現(xiàn)的圖形神經(jīng)網(wǎng)絡(luò)。他獲得了華沙大學(xué)理學(xué)碩士學(xué)位和計(jì)算機(jī)科學(xué)理學(xué)士學(xué)位。
Micha? Marcinkiewicz 是 NVIDIA 深度學(xué)習(xí)軟件組的高級(jí) CUDA 算法工程師,專注于醫(yī)學(xué)圖像分析的計(jì)算機(jī)視覺。米莎從法國蒙彼利埃大學(xué)獲得博士學(xué)位,從事拓?fù)湎嘧冄芯?。獲得博士學(xué)位后,他完全轉(zhuǎn)向機(jī)器學(xué)習(xí)。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5299瀏覽量
106310 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25428 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5560瀏覽量
122769
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

NVIDIA使用加速計(jì)算與AI推動(dòng)精準(zhǔn)醫(yī)學(xué)發(fā)展
Dali通信的工作原理 如何使用Dali通信協(xié)議
Dali通信模塊的選擇與配置
Dali通信的優(yōu)勢(shì)和劣勢(shì)
Dali通信網(wǎng)絡(luò)的最佳配置
Dali通信在智能照明中的應(yīng)用
《CST Studio Suite 2024 GPU加速計(jì)算指南》
NVIDIA加速計(jì)算如何推動(dòng)醫(yī)療健康
NVIDIA加速AI在日本各行各業(yè)的應(yīng)用
日本企業(yè)借助NVIDIA產(chǎn)品加速AI創(chuàng)新
dali協(xié)議的詳細(xì)解釋和含義 帶你深度了解DALI DALI驅(qū)動(dòng)器選型要注意什么

評(píng)論