NVIDIA 深度學(xué)習(xí)培訓(xùn)中心( DLI )發(fā)布了加速數(shù)據(jù)科學(xué)教材套,該研究所與佐治亞理工學(xué)院的 Polo Chau 教授和 Prairie View A & M 大學(xué)的董錫雙教授共同開發(fā)。
綜合教材涵蓋數(shù)據(jù)收集和預(yù)處理、加速數(shù)據(jù)科學(xué) RAPIDS、可擴(kuò)展和分布式計(jì)算 GPU – 加速機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化和圖形分析等基礎(chǔ)和高級(jí)主題,并滿足了高等教育和研究機(jī)構(gòu)對(duì)學(xué)生教授數(shù)據(jù)科學(xué)技能的日益增長的需求。
加速數(shù)據(jù)科學(xué)教學(xué)包包括以下重點(diǎn)模塊:
數(shù)據(jù)科學(xué)與技術(shù)導(dǎo)論 RAPIDS
數(shù)據(jù)收集和預(yù)處理( ETL )
數(shù)據(jù)集中的數(shù)據(jù)倫理和偏見
數(shù)據(jù)集成和分析
數(shù)據(jù)可視化
使用 Hadoop 、 Hive 、 Spark 、 HBase 和 RAPIDS 的可擴(kuò)展計(jì)算
基于 Dask 和 UCX 的可擴(kuò)展計(jì)算
機(jī)器學(xué)習(xí):分類
機(jī)器學(xué)習(xí):聚類和降維
圖形分析
流數(shù)據(jù)
基因組學(xué)
文本分析
CPU vs GPU – 加速數(shù)據(jù)科學(xué)
數(shù)據(jù)科學(xué)團(tuán)隊(duì)、代碼備份和版本控制
團(tuán)隊(duì)項(xiàng)目(假新聞檢測)
該工具包還涵蓋了公平性和數(shù)據(jù)偏見等文化敏感話題,以及來自代表性不足群體的挑戰(zhàn)和重要人物。
講座幻燈片和講稿、動(dòng)手實(shí)驗(yàn)室、 Jupyter 筆記本、解決方案(以私人回購形式持有)、樣本數(shù)據(jù)集、測驗(yàn)/考試問題/答案、 GPU 通過免費(fèi) AWS 云學(xué)分提供的計(jì)算資源,以及免費(fèi) DLI 在線課程/證書都包括在內(nèi)。講座視頻計(jì)劃在下一版本中發(fā)布。
RAPIDS 數(shù)據(jù)科學(xué)框架是 GPU 加速的庫集合,用于在 GPU 上完全執(zhí)行端到端數(shù)據(jù)科學(xué)管道。使用 RAPIDS 的主要目標(biāo)是加速典型數(shù)據(jù)科學(xué)工作流的各個(gè)部分,從而加速數(shù)據(jù)準(zhǔn)備和機(jī)器學(xué)習(xí)中完整的端到端工作流。
第一個(gè)基于 Jupyter 筆記本電腦的實(shí)驗(yàn)室之一讓學(xué)生使用 pandas 和 cuDF 直接進(jìn)入 RAPIDS 。 pandas 是一個(gè)建立在 Python 編程語言之上的數(shù)據(jù)分析和操作工具,用于執(zhí)行各種任務(wù)(例如:加載、加入、聚合、, cuDF 是一個(gè)基于 RAPIDS 的 GPU 數(shù)據(jù)幀庫,有助于通過 GPU 加速執(zhí)行類似功能。
學(xué)生們首先要理解如何在 cuDF 中創(chuàng)建數(shù)據(jù)幀對(duì)象,為這些對(duì)象分配值,然后調(diào)用方法并對(duì)值應(yīng)用用戶定義的函數(shù)。一旦學(xué)生掌握了如何使用 cuDF 數(shù)據(jù)幀,他們的任務(wù)就是從 Kaggle 的Netflix 電影數(shù)據(jù)集中創(chuàng)建一個(gè)數(shù)據(jù)幀。
圖 1 。教學(xué)包模塊 1 的快照: RAPIDS 實(shí)驗(yàn)室簡介。
從那里,學(xué)生們學(xué)習(xí)如何操作和查詢數(shù)據(jù),從刪除缺失的列和值、查詢和查找唯一值,到對(duì)數(shù)據(jù)進(jìn)行排序、計(jì)數(shù)和分組。學(xué)生將感受到使用 RAPIDS 和 GPU 與教學(xué)包中也包含的傳統(tǒng)方法相比是多么快速和簡單。作為實(shí)驗(yàn)室的一項(xiàng)額外任務(wù),最后要求學(xué)生使用 cuDF 一個(gè)熱編碼將數(shù)據(jù)集的電影和電視節(jié)目標(biāo)題轉(zhuǎn)換為 0 和 1 的向量,以提高分析數(shù)據(jù)的準(zhǔn)確性。
周教授說:“數(shù)據(jù)科學(xué)揭示了數(shù)據(jù)在解決社會(huì)挑戰(zhàn)和大規(guī)模復(fù)雜問題方面的巨大潛力,幾乎涵蓋了商業(yè)、技術(shù)、科學(xué)、工程、醫(yī)療保健、政府等各個(gè)領(lǐng)域。”隨著數(shù)據(jù)在數(shù)量、速度和復(fù)雜性方面的不斷增長,對(duì)數(shù)據(jù)科學(xué)人才和技能的需求不斷增加,以幫助設(shè)計(jì)最佳解決方案?!?/p>
關(guān)于作者
Joe Bungo 是 NVIDIA 的深度學(xué)習(xí)培訓(xùn)中心( DLI )項(xiàng)目經(jīng)理,在那里他能夠在大學(xué)中使用深度學(xué)習(xí)和 GPU 加速計(jì)算技術(shù),包括課程和教材開發(fā)、 DLI 大學(xué)大使/講師認(rèn)證、促進(jìn)學(xué)術(shù)生態(tài)系統(tǒng)和實(shí)踐研討會(huì)。此前,他在 ARM 公司管理大學(xué)項(xiàng)目,并擔(dān)任應(yīng)用工程師。喬獲得了得克薩斯大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)學(xué)位。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5309瀏覽量
106412 -
gpu
+關(guān)注
關(guān)注
28文章
4948瀏覽量
131246 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122794
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA NVLink 深度解析
使用NVIDIA CUDA-X庫加速科學(xué)和工程發(fā)展
Cadence 利用 NVIDIA Grace Blackwell 加速AI驅(qū)動(dòng)的工程設(shè)計(jì)和科學(xué)應(yīng)用
利用NVIDIA DPF引領(lǐng)DPU加速云計(jì)算的未來

評(píng)論