一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用加速WEKA加速機器學習模型

星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-08-15 17:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近年來,建筑業(yè)和采用機器學習( ML )工具。使用 GPU 加速計算日益密集的模型已成為一個突出的趨勢。

為了增加用戶訪問,加速 WEKA 項目通過集成開源 RAPIDS 庫,為在知名的 WEKA 算法中使用 GPU 提供了一個可訪問的入口點。

在這篇文章中,我們將向您介紹加速 WEKA ,并學習如何使用 WEKA 軟件利用圖形用戶界面( GUI )的 GPU 加速算法。這種 Java 開源替代方案適合于從不同環(huán)境或包中尋找各種 ML 算法的初學者。

什么是加速 WEKA ?

加速 WEKA 將WEKA軟件(一種著名的開源 Java 軟件)與利用 GPU 縮短 ML 算法執(zhí)行時間的新技術(shù)相結(jié)合。針對沒有系統(tǒng)配置和編碼專業(yè)知識的用戶,它有兩個好處:易于安裝和指導 ML 任務的配置和執(zhí)行的 GUI 。

加速 WEKA 是一個可用于 WEKA 的軟件包集合,它可以擴展以支持新的工具和算法。

什么是急流?

RAPIDS是一組開源 Python 庫,供用戶在 NVIDIA GPU 上開發(fā)和部署數(shù)據(jù)科學工作負載。流行的庫包括用于 GPU 加速數(shù)據(jù)幀處理的 cuDF 和用于 GPU 加速機器學習算法的 cuML 。 RAPIDS API 盡可能符合 CPU 對應項,例如 pandas 和scikit-learn。

%1 : %2 加速的 WEKA 架構(gòu)

加速 WEKA 的構(gòu)建塊是WekaDeeplearning4j和wekaRAPIDS(受wekaPython啟發(fā))等包。 WekaDeeplearning4j ( WDL4J )已經(jīng)支持 GPU 處理,但在庫和環(huán)境配置方面有非常特殊的需求。 WDL4J 為 Deeplearning4j 庫提供了 WEKA 包裝。

對于 Python 用戶, weka Python 最初通過創(chuàng)建服務器并通過套接字與之通信來提供 Python 集成。有了它,用戶可以在 WEKA 工作臺內(nèi)執(zhí)行 scikit learn ML 算法(甚至XGBoost)。此外, weka RAPIDS 通過在 wekaPython 中使用相同的技術(shù)提供與 RAPIDS cuML 庫的集成。

總之,這兩個包在用戶友好的 WEKA 工作臺內(nèi)提供了增強的功能和性能。加速 WEKA 通過改進 JVM 和 Python 解釋器之間的通信,在性能方面更進一步。它通過使用 Apache Arrow 和 GPU 內(nèi)存共享等替代方法來實現(xiàn)這兩種語言之間的高效數(shù)據(jù)傳輸。

加速 WEKA 還提供了與 RAPIDS cuML 庫的集成,該庫實現(xiàn)了在 NVIDIA GPU 上加速的機器學習算法。一些 cuML 算法甚至可以支持多 GPU 解。

支持的算法

加速 WEKA 目前支持的算法有:

線性回歸

物流回歸

山脊

套索

彈性網(wǎng)

MBSGD 分類器

MBSGDRegressor 公司

多項式 nb

伯努林

高斯 B

隨機森林分類器

隨機森林采伐

靜止無功補償器

SVR 公司

LinearSVC

Kneighbors 回歸器

Kneighbors 分類器

多 GPU 模式下加速 WEKA 支持的算法有:

Kneighbors 回歸器

Kneighbors 分類器

線性回歸

山脊

套索

彈性網(wǎng)

多項式 nb

光盤

使用加速 WEKA GUI

在加速 WEKA 設計階段,一個主要目標是使其易于使用。以下步驟概述了如何在系統(tǒng)上進行設置,并提供了一個簡單的示例。

有關(guān)更多信息和全面入門,請參閱文檔。加速 WEKA 的唯一先決條件是在系統(tǒng)中安裝Conda。

加速 WEKA 的安裝可通過提供包和環(huán)境管理的系統(tǒng) Conda 獲得。這種能力意味著一個簡單的命令可以安裝項目的所有依賴項。例如,在 Linux 機器上,在終端中發(fā)出以下命令以安裝加速 WEKA 和所有依賴項。

conda create-n accelweka-c rapidsai-c NVIDIA -c conda forge-c waikato weka

Conda 創(chuàng)建環(huán)境后,使用以下命令將其激活:

激活時

這個終端實例剛剛加載了加速 WEKA 的所有依賴項。使用以下命令啟動 WEKA GUI 選擇器:

韋卡

圖 1 顯示了 WEKA GUI 選擇器窗口。從那里,單擊 Explorer 按鈕訪問 Accelerated WEKA 的功能。

poYBAGL6EmWAdcHGAAHjhG3QMT8517.png

圖 1 。 WEKA GUI 選擇器窗口。這是啟動 WEKA 時出現(xiàn)的第一個窗口

在 WEKA Explorer 窗口(圖 2 )中,單擊 Open file 按鈕以選擇數(shù)據(jù)集文件。 WEKA 使用 ARFF 文件,但可以從 CSV 中讀取。根據(jù)屬性的類型,從 CSV 轉(zhuǎn)換可能非常簡單,或者需要用戶進行一些配置。

pYYBAGL6EmyAbx2uAAChQtx9148264.png

圖 2 :在 WEKA Explorer 窗口中,用戶可以導入數(shù)據(jù)集,檢查有關(guān)屬性的統(tǒng)計信息,并在預處理時對數(shù)據(jù)集應用過濾器

加載了數(shù)據(jù)集的 WEKA Explorer 窗口如圖 3 所示。假設不想預處理數(shù)據(jù),單擊“分類”選項卡將向用戶顯示分類選項。

poYBAGL6EnOACReOAAB-lGnhXdI816.png

圖 3 。加載數(shù)據(jù)集的 WEKA Explorer 窗口。加載數(shù)據(jù)集(從 ARFF 文件或 CSV 文件)后,屬性名稱顯示在左側(cè)。有關(guān)選定屬性的信息顯示在右上角。在右下角可以看到一個圖表,其中包含根據(jù)所選屬性的類分布

分類選項卡如圖 4 所示。單擊“選擇”按鈕將顯示已實現(xiàn)的分類器。由于數(shù)據(jù)集的特性,有些可能被禁用。要使用加速 WEKA ,用戶必須選擇急流。積云分類器。之后,單擊粗體 CuMLClassifier 將使用戶轉(zhuǎn)到分類器的選項窗口。

pYYBAGL6ErKAEXbSAAB-aSQVWxA067.png

圖 4 。在 WEKA 分類選項卡中,用戶可以配置分類算法和測試選項,這些選項將在使用之前選擇的數(shù)據(jù)集的實驗中使用

圖 5 顯示了 CuMLClassifier 的選項窗口。使用字段 RAPIDS 學習器,用戶可以在軟件包支持的分類器中選擇所需的分類器。現(xiàn)場學習者參數(shù)用于修改 cuML 參數(shù),其詳細信息可在cuML documentation中找到。

其他選項用于用戶微調(diào)屬性轉(zhuǎn)換,配置要使用的 Python 環(huán)境,并確定算法應操作的小數(shù)位數(shù)。為了學習本教程,請選擇隨機林分類器,并將所有內(nèi)容保留為默認配置。單擊“確定”將關(guān)閉窗口并返回到上一個選項卡。

poYBAGL6EquAIS1wAAFEbTj-YWg228.png

圖 5 。通過 WEKA 分類器配置窗口,用戶可以配置所選分類器的參數(shù)。在這種情況下,它顯示了新集成的 CuMLClassifier 選項和所選的 RandomForestClassifier 學習器

根據(jù)上一步配置分類器后,參數(shù)將顯示在選擇按鈕旁邊的文本字段中。單擊開始后, WEKA 將開始使用數(shù)據(jù)集執(zhí)行所選分類器。

圖 6 顯示了分類器的作用。分類器輸出顯示有關(guān)實驗的調(diào)試和一般信息,例如參數(shù)、分類器、數(shù)據(jù)集和測試選項。狀態(tài)顯示執(zhí)行的當前狀態(tài),底部的 Weka 鳥在實驗運行時從一側(cè)動畫并翻轉(zhuǎn)到另一側(cè)。

pYYBAGL6EqSAJqAaAADlQP47HEw622.png

圖 6 。 WEKA 分類選項卡,所選分類算法正在進行中

算法完成任務后,將輸出執(zhí)行摘要,其中包含有關(guān)預測性能和所用時間的信息。在圖 7 中,輸出顯示了使用從 cuML 到 CuMLClassifier 的 RandomForestClassifier 進行 10 倍交叉驗證的結(jié)果。

poYBAGL6EpuAHWgbAAFVg-KSSfs812.png

圖 7 。實驗完成后的 WEKA 分類選項卡

基準測試加速 WEKA

我們評估了加速 WEKA 的性能,比較了算法在 CPU 上的執(zhí)行時間和使用加速 WEKA 的執(zhí)行時間。實驗中使用的硬件是 i7-6700K 、 GTX 1080Ti 和具有四個 A100 GPU 的 DGX 站。除非另有說明,否則基準測試使用單個 GPU 。

我們使用具有不同特征的數(shù)據(jù)集作為基準。其中一些是合成的,用于更好地控制屬性和實例,如 RDG 和 RBF 生成器。 RDG 生成器基于決策列表構(gòu)建實例。默認配置有 10 個屬性, 2 個類,最小規(guī)則大小為 1 ,最大規(guī)則大小為 10 。我們將最小值和最大值分別更改為 5 和 20 。使用該生成器,我們創(chuàng)建了具有 1 、 2 、 5 和 1000 萬個實例的數(shù)據(jù)集,以及具有 20 個屬性的 500 萬個實例。

RBF 生成器為每個類創(chuàng)建一組隨機中心,然后通過獲取屬性值中心的隨機偏移來生成實例。屬性的數(shù)量用后綴 a _ uu 表示(例如, a5k 表示 5000 個屬性),實例的數(shù)量用后綴 n _ u 表示(例如, n10k 表示 10000 個實例)。

最后,我們使用了HIGGS 數(shù)據(jù)集,其中包含有關(guān)原子加速器運動學特性的數(shù)據(jù)。希格斯數(shù)據(jù)集的前 500 萬個實例用于創(chuàng)建希格斯粒子。

顯示了 weka RAPIDS 積分的結(jié)果,其中我們直接比較了基線 CPU 執(zhí)行和加速 weka 執(zhí)行。 WDL4J 的結(jié)果如表 5 所示。

pYYBAGL6EeGAS91-AABqaRDDsAk357.png



該基準測試表明,加速 WEKA 為具有較大數(shù)據(jù)集的計算密集型任務提供了最大的好處。像 RBFa5k 和 RBFa5kn1k 這樣的小數(shù)據(jù)集(分別擁有 100 個和 1000 個實例)呈現(xiàn)出糟糕的加速,這是因為數(shù)據(jù)集太小,無法使將內(nèi)容移動到 GPU 內(nèi)存的開銷值得。

這種行為在 A100 (表 4 )實驗中很明顯,其中架構(gòu)更為復雜。使用它的好處開始在 100000 個實例或更大的數(shù)據(jù)集上發(fā)揮作用。例如,具有 100000 個實例的 RBF 數(shù)據(jù)集顯示了約 3 倍和 4 倍的加速,這仍然不太明顯,但顯示出了改進。更大的數(shù)據(jù)集,如 covertype 數(shù)據(jù)集(約 700000 個實例)或 RBFa50n1m 數(shù)據(jù)集( 100 萬個實例),分別顯示了 56X 和 271X 的加速。請注意,對于深度學習任務,即使使用 GTX 1080Ti ,加速也可以達到 20 倍以上。

關(guān)鍵要點(與行動要求掛鉤)

加速 WEKA 將幫助您使用激流為 WEKA 增壓。加速 WEKA 有助于 RAPIDS 的高效算法實現(xiàn),并具有易于使用的 GUI 。使用 Conda 環(huán)境簡化了安裝過程,從一開始就可以直接使用加速 WEKA 。

如果您使用 AcceleratedWEKA ,請在社交媒體上使用標簽“ AcceleratedWEKA ”。此外,請參閱 文檔 以獲取在學術(shù)工作中引用加速 WEKA 的正確出版物,并了解有關(guān)該項目的更多詳細信息。

加速 WEKA

WEKA 在 GPL 開源許可證 下免費提供,因此加速了 WEKA 。事實上, Accelerated WEKA 是通過 Conda 提供的,用于自動安裝環(huán)境所需的工具,對源代碼的添加將發(fā)布到 WEKA 的主包中。

關(guān)于作者

Albert Bifet 是特議會聯(lián)盟特馬哈拉艾研究所所長。他是一位計算機科學家,主要興趣領(lǐng)域是數(shù)據(jù)流及其應用的人工智能/機器學習。他是 MOA 機器學習軟件的核心開發(fā)者,擁有 150 多篇關(guān)于機器學習方法及其應用的出版物。

Guilherme Weigert Cassales 自 2021 以來一直是人工智能研究所的博士后研究員,同年他在圣卡洛斯聯(lián)邦大學( UFSCar )獲得了計算機科學博士學位。他的研究興趣包括數(shù)據(jù)流的機器學習、分布式系統(tǒng)和高性能計算。

自 2021 以來,Justin Liu 一直是人工智能研究所的研究程序員。他在該行業(yè)有十多年的軟件開發(fā)經(jīng)驗。他的興趣包括機器學習、大規(guī)模數(shù)據(jù)處理和 ML 操作。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11074

    瀏覽量

    216921
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    827

    瀏覽量

    39093
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4937

    瀏覽量

    131178
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8501

    瀏覽量

    134548
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA Isaac GR00T N1開源人形機器人基礎(chǔ)模型+開源物理引擎Newton加速機器人開發(fā)

    NVIDIA Isaac GR00T N1開源人形機器人基礎(chǔ)模型+開源物理引擎Newton加速機器人開發(fā)
    的頭像 發(fā)表于 03-20 16:56 ?766次閱讀

    機器學習模型市場前景如何

    當今,隨著算法的不斷優(yōu)化、數(shù)據(jù)量的爆炸式增長以及計算能力的飛速提升,機器學習模型的市場前景愈發(fā)廣闊。下面,AI部落小編將探討機器學習
    的頭像 發(fā)表于 02-13 09:39 ?357次閱讀

    NPU與機器學習算法的關(guān)系

    緊密。 NPU的起源與特點 NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)項目中提出,旨在為TensorFlow框架提供專用的硬件加速。NPU的設計目標是提高機器學習算法的運行效率,特別是在處理
    的頭像 發(fā)表于 11-15 09:19 ?1193次閱讀

    PyTorch GPU 加速訓練模型方法

    在深度學習領(lǐng)域,GPU加速訓練模型已經(jīng)成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和方法來利用GPU進行
    的頭像 發(fā)表于 11-05 17:43 ?1391次閱讀

    GPU加速計算平臺是什么

    GPU加速計算平臺,簡而言之,是利用圖形處理器(GPU)的強大并行計算能力來加速科學計算、數(shù)據(jù)分析、機器學習等復雜計算任務的軟硬件結(jié)合系統(tǒng)。
    的頭像 發(fā)表于 10-25 09:23 ?586次閱讀

    FPGA加速深度學習模型的案例

    FPGA(現(xiàn)場可編程門陣列)加速深度學習模型是當前硬件加速領(lǐng)域的一個熱門研究方向。以下是一些FPGA加速深度
    的頭像 發(fā)表于 10-25 09:22 ?1198次閱讀

    AI大模型與傳統(tǒng)機器學習的區(qū)別

    AI大模型與傳統(tǒng)機器學習在多個方面存在顯著的區(qū)別。以下是對這些區(qū)別的介紹: 一、模型規(guī)模與復雜度 AI大模型 :通常包含數(shù)十億甚至數(shù)萬億的參
    的頭像 發(fā)表于 10-23 15:01 ?2559次閱讀

    深度學習GPU加速效果如何

    圖形處理器(GPU)憑借其強大的并行計算能力,成為加速深度學習任務的理想選擇。
    的頭像 發(fā)表于 10-17 10:07 ?604次閱讀

    RISC-V跑AI算法能加速嗎?

    現(xiàn)在好多ARM單片機都帶機器學習加速,RISC-V有這方面的硬件加速嗎?
    發(fā)表于 10-10 22:14

    【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗】+ 第一、二章學習感受

    程分為下圖中的四步: 此后引入機器學習開發(fā)框架TensorFlow,該框架下集成了多種“輪子”,但要避免“重復造輪子”。下一小節(jié)是分布式AI訓練,從中知道了訓練測略分為模型并行策略和數(shù)據(jù)并行策略,第二章很短,就此完成,感覺良好。
    發(fā)表于 10-10 10:36

    模型向邊端側(cè)部署,AI加速卡朝高算力、小體積發(fā)展

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)AI加速卡是專門用于處理人工智能應用中的大量計算任務的模塊。它集成了高性能的計算核心和大量的內(nèi)存,旨在加速機器學習、深度
    的頭像 發(fā)表于 09-17 00:18 ?5123次閱讀

    NVIDIA提供一套服務、模型以及計算平臺 加速人形機器人發(fā)展

    人的發(fā)展,NVIDIA 于今日宣布,為全球領(lǐng)先的機器人制造商、AI 模型開發(fā)者和軟件制造商提供一套服務、模型以及計算平臺,以開發(fā)、訓練和構(gòu)建下一代人形機器人。 整套產(chǎn)品包括用于
    的頭像 發(fā)表于 07-31 10:41 ?1217次閱讀

    NVIDIA 加速人形機器人發(fā)展

    —SIGGRAPH— 當?shù)貢r間 2024 年 7 月 29 日— 為加速全球人形機器人的發(fā)展,NVIDIA 于今日宣布,為全球領(lǐng)先的機器人制造商、AI 模型開發(fā)者和軟件制造商提供一套
    發(fā)表于 07-30 09:15 ?952次閱讀
    NVIDIA <b class='flag-5'>加速</b>人形<b class='flag-5'>機器</b>人發(fā)展

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理
    的頭像 發(fā)表于 07-24 11:38 ?1791次閱讀

    深度學習模型量化方法

    深度學習模型量化是一種重要的模型輕量化技術(shù),旨在通過減少網(wǎng)絡參數(shù)的比特寬度來減小模型大小和加速推理過程,同時盡量保持
    的頭像 發(fā)表于 07-15 11:01 ?1094次閱讀
    深度<b class='flag-5'>學習</b><b class='flag-5'>模型</b>量化方法