一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

高效地?cái)U(kuò)展Polars GPU Parquet讀取器

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2025-04-21 17:12 ? 次閱讀

51b13412-1c3a-11f0-9310-92fbcf53809c.png

在處理大型數(shù)據(jù)集時(shí),數(shù)據(jù)處理工具的性能至關(guān)重要。Polars 作為一個(gè)以速度和效率著稱的開(kāi)源數(shù)據(jù)處理庫(kù),它提供了由 cuDF 驅(qū)動(dòng)的 GPU 加速后端,能夠顯著提升性能。

然而,要想充分發(fā)揮 Polars GPU 后端的優(yōu)勢(shì),優(yōu)化數(shù)據(jù)加載過(guò)程并有效地管理工作流所需的內(nèi)存至關(guān)重要。隨著 GPU 后端開(kāi)發(fā)的持續(xù)進(jìn)展,在使用 GPU Parquet 讀取器處理不斷增大的數(shù)據(jù)集時(shí),可以使用一些其他技術(shù)來(lái)保持高性能。現(xiàn)有的 Polars GPU Parquet 讀取器(包括至 24.10 版本)無(wú)法針對(duì)更大的數(shù)據(jù)集進(jìn)行擴(kuò)展。

本文探討了分塊 Parquet 讀取器與統(tǒng)一虛擬內(nèi)存(UVM)相結(jié)合,如何能夠超越非分塊讀取器和基于 CPU 的方法。

標(biāo)度因數(shù)和非分塊讀取器帶來(lái)的挑戰(zhàn)

隨著標(biāo)度因數(shù)(SF)的增加,非分塊 GPU Polars 讀取器(24.10 版)常常會(huì)遇到困難。當(dāng)標(biāo)度因數(shù)超過(guò) 200 時(shí),性能會(huì)顯著下降。在 Query 9 等特定場(chǎng)景下,非分塊 GPU 讀取器甚至在標(biāo)度因數(shù)達(dá)到 50 之前就會(huì)出問(wèn)題。這種限制源于將大型 Parquet 文件加載到 GPU 內(nèi)存時(shí)的內(nèi)存限制。非分塊 Parquet 讀取器圖表會(huì)缺失數(shù)據(jù),這凸顯了在標(biāo)度因數(shù)較高時(shí)遇到的內(nèi)存溢出(OOM)錯(cuò)誤。

51bbc968-1c3a-11f0-9310-92fbcf53809c.png

圖 1. Query 13 執(zhí)行的可靠性,對(duì)比 24.10 版和 24.1 2版 Parquet 讀取器

通過(guò)分塊 Parquet 讀取提升 I/O 和峰值內(nèi)存性能

為了突破這些內(nèi)存限制,分塊 Parquet 讀取器就變得至關(guān)重要。通過(guò)將 Parquet 文件切分為較小數(shù)據(jù)塊進(jìn)行讀取,可以減少內(nèi)存占用,使 Polars GPU 能夠處理更大的數(shù)據(jù)集。對(duì)于任何給定的查詢,與非分塊讀取器相比,使用單次讀取限制為 16GB 的分塊 Parquet 讀取器能夠執(zhí)行更多的標(biāo)度因數(shù)。對(duì)于 Query 9,必須使用 16GB 或 32GB 的分塊 Parquet 讀取方式才能執(zhí)行并實(shí)現(xiàn)更高的吞吐量。

51c87fbe-1c3a-11f0-9310-92fbcf53809c.png

圖 2. 針對(duì) Query 9,通過(guò)改變標(biāo)度因數(shù)不同分塊大小(pass_read_limit)進(jìn)行吞吐量對(duì)比

借助統(tǒng)一虛擬內(nèi)存讀取更大的數(shù)據(jù)集

雖然分塊讀取優(yōu)化了內(nèi)存管理,但統(tǒng)一虛擬內(nèi)存將性能提升到了新的高度。統(tǒng)一虛擬內(nèi)存使 GPU 能夠直接訪問(wèn)系統(tǒng)內(nèi)存,進(jìn)一步緩解了內(nèi)存限制并提高了數(shù)據(jù)傳輸效率。

相比之下,未配備統(tǒng)一虛擬內(nèi)存的分塊讀取器在標(biāo)度因數(shù)達(dá)到 100 之前就會(huì)觸發(fā)內(nèi)存溢出錯(cuò)誤。分塊讀取器與統(tǒng)一虛擬內(nèi)存相結(jié)合,可以在更高的標(biāo)度因數(shù)下成功地執(zhí)行查詢,不過(guò)吞吐量會(huì)受到影響。

圖 3 顯示了這一顯著優(yōu)勢(shì)。與非分塊 Parquet 讀取器相比,配備統(tǒng)一虛擬內(nèi)存的分塊 Parquet 讀取器能夠成功地執(zhí)行標(biāo)度因數(shù)更高的查詢。

51d51c60-1c3a-11f0-9310-92fbcf53809c.png

圖 3. 配備統(tǒng)一虛擬內(nèi)存的分塊讀取器、CPU 以及未配備統(tǒng)一虛擬內(nèi)存時(shí)的 Query 13 吞吐量(數(shù)值越高性能表現(xiàn)越好)

穩(wěn)定性和吞吐量

在選擇最佳的pass_read_limit時(shí),需要重點(diǎn)考慮穩(wěn)定性和吞吐量之間的平衡。圖 1-圖 3 表明,16GB 或 32GB 的pass_read_limit實(shí)現(xiàn)了兩者最優(yōu)的平衡。

32GBpass_read_limit:除了 Query 9 和 Query 19 因內(nèi)存溢出異常遭遇失敗外,所有其他查詢均成功完成。

16GBpass_read_limit:所有查詢均成功完成。

分塊 GPU 與 CPU 的比較

觀察結(jié)果顯示,每次查詢的吞吐量通常高于 CPU Polars,這使得許多在未分塊時(shí)無(wú)法完成的查詢得以完成。建議將pass_read_limit參數(shù)設(shè)置為 16GB 或 32GB,該閾值設(shè)定具有合理性。與非分塊 Parquet 讀取器相比,16GB 或 32GB 的pass_read_limit能夠在更高的標(biāo)度因數(shù)下成功地執(zhí)行查詢。

結(jié)論

對(duì)于 Polars GPU 而言,配備統(tǒng)一虛擬內(nèi)存的分塊 Parquet 讀取器通常優(yōu)于 Polars CPU 和非分塊Parquet 讀取器,尤其是在處理大規(guī)模數(shù)據(jù)集和高標(biāo)度因數(shù)場(chǎng)景時(shí)。通過(guò)優(yōu)化數(shù)據(jù)加載過(guò)程,可以充分發(fā)揮 Polars GPU 的潛力,顯著提升性能。作為最新的cudf-polars(24.12 版及更高版本)的一部分,分塊 Parquet 讀取器和統(tǒng)一虛擬內(nèi)存是讀取 Parquet 文件的默認(rèn)方式。這使得所有查詢和標(biāo)度因數(shù)都實(shí)現(xiàn)了像上述的性能提升。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4882

    瀏覽量

    130389
  • 讀取器
    +關(guān)注

    關(guān)注

    0

    文章

    51

    瀏覽量

    5382
  • 虛擬內(nèi)存
    +關(guān)注

    關(guān)注

    0

    文章

    78

    瀏覽量

    8186

原文標(biāo)題:高效地?cái)U(kuò)展 Polars GPU Parquet 讀取器

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是可編程讀取器?

    無(wú)線頻率識(shí)別(RFID)是一種自動(dòng) ID 技術(shù),其可識(shí)別任何含有編碼卷標(biāo)的物體。 UHFRFID 系統(tǒng)由一個(gè)讀取器 (或詢問(wèn)) 組成,該讀取器調(diào)變一個(gè) 860MHz 至 960MHz 頻率范圍內(nèi)
    發(fā)表于 09-30 06:46

    Impinj發(fā)布Speedway Revolution讀取器

    Impinj 發(fā)布Speedway Revolution 讀取器 領(lǐng)先的 UHF Gen 2 RFID 技術(shù)供應(yīng)商 Impinj 公司宣布推出 Speedway Revolution 讀取器,綜合有公司的創(chuàng)新性 Autopi
    發(fā)表于 11-13 17:34 ?1260次閱讀

    指紋讀取器的掃描范圍/分辨率/接口

    指紋讀取器的掃描范圍/分辨率/接口 掃描范圍      
    發(fā)表于 12-28 14:27 ?671次閱讀

    指紋讀取器

    指紋讀取器              指紋讀取器是一
    發(fā)表于 12-28 14:29 ?1066次閱讀

    指紋讀取器的電力規(guī)格/支持的操作系統(tǒng)

    指紋讀取器的電力規(guī)格/支持的操作系統(tǒng) 電力規(guī)格    &nb
    發(fā)表于 12-28 14:31 ?693次閱讀

    指紋讀取器的認(rèn)證/傳感元件

    指紋讀取器的認(rèn)證/傳感元件  認(rèn)證              認(rèn)證指的是一種產(chǎn)品是不是經(jīng)過(guò)了一些權(quán)威部門(mén)
    發(fā)表于 12-28 14:37 ?747次閱讀

    單一處理簡(jiǎn)化RFID讀取器設(shè)計(jì)及RFID系統(tǒng)范例分析

    目前大多數(shù)RFID讀取器必須使用一個(gè)以上的處理才能符合應(yīng)用裝置需求,透過(guò)使用匯聚型(Convergent)處理,以單一處理即可滿足。本文將聚焦于RFID
    發(fā)表于 12-11 18:50 ?1351次閱讀
    單一處理<b class='flag-5'>器</b>簡(jiǎn)化RFID<b class='flag-5'>讀取器</b>設(shè)計(jì)及RFID系統(tǒng)范例分析

    訊寶科技推出第2代移動(dòng)型RFID讀取器RD5000

    近日美國(guó)訊寶科技公司宣布推出緊湊式第2代移動(dòng)型RFID讀取器RD5000。該讀取器可集成在叉車(chē)、平板式起重機(jī)、拉伸式包裝機(jī)和其它原材料處理設(shè)備上,以便在不同的空間受限的環(huán)境中使用。RD5000移動(dòng)型RFID讀取器將RFID的使用
    發(fā)表于 12-13 13:03 ?1090次閱讀

    如何使用處理區(qū)來(lái)簡(jiǎn)化rfid讀取器

    本文聚焦于RFID讀取器的功能,探索必須在RFID讀取器上執(zhí)行的基本軟件元件以及伺服連結(jié),并提供利用單一處理完成相關(guān)設(shè)計(jì)的系統(tǒng)設(shè)定建議。
    發(fā)表于 01-07 16:46 ?881次閱讀
    如何使用處理區(qū)來(lái)簡(jiǎn)化rfid<b class='flag-5'>讀取器</b>

    近距離讀取器天線的設(shè)計(jì)示例詳細(xì)說(shuō)明

    本文檔的主要內(nèi)容詳細(xì)介紹的是近距離讀取器天線的設(shè)計(jì)示例詳細(xì)說(shuō)明。
    發(fā)表于 05-13 17:30 ?16次下載
    近距離<b class='flag-5'>讀取器</b>天線的設(shè)計(jì)示例詳細(xì)說(shuō)明

    讓Arduino充當(dāng)玻璃容器中的控制和傳感讀取器

    電子發(fā)燒友網(wǎng)站提供《讓Arduino充當(dāng)玻璃容器中的控制和傳感讀取器.zip》資料免費(fèi)下載
    發(fā)表于 11-22 14:27 ?0次下載
    讓Arduino充當(dāng)玻璃容器中的控制<b class='flag-5'>器</b>和傳感<b class='flag-5'>器</b><b class='flag-5'>讀取器</b>

    帶RC522 RFID讀取器套件的BUONO UNO R3

    電子發(fā)燒友網(wǎng)站提供《帶RC522 RFID讀取器套件的BUONO UNO R3.zip》資料免費(fèi)下載
    發(fā)表于 12-27 09:20 ?3次下載
    帶RC522 RFID<b class='flag-5'>讀取器</b>套件的BUONO UNO R3

    指紋讀取器上進(jìn)行掃描什么意思

    指紋讀取器是一種生物識(shí)別技術(shù),它通過(guò)掃描和分析個(gè)人的指紋來(lái)識(shí)別身份。指紋是人體手指皮膚上的獨(dú)特紋理,每個(gè)人的指紋都是獨(dú)一無(wú)二的,即使是同卵雙胞胎的指紋也會(huì)有所不同。這種技術(shù)已經(jīng)被廣泛應(yīng)用于安全
    的頭像 發(fā)表于 10-14 10:57 ?660次閱讀

    二維碼讀取器讀取DPM金屬零件激光雕刻碼

    二維碼讀取器,作為現(xiàn)代自動(dòng)識(shí)別技術(shù)的重要組成部分,其在各行各業(yè)的應(yīng)用日益廣泛。特別是在工業(yè)制造領(lǐng)域,二維碼讀取器讀取DPM(DirectPartMark)金屬零件激光雕刻碼的技術(shù),更是展現(xiàn)了其高精度
    的頭像 發(fā)表于 01-02 16:21 ?415次閱讀
    二維碼<b class='flag-5'>讀取器</b><b class='flag-5'>讀取</b>DPM金屬零件激光雕刻碼

    二維碼讀取器是干嘛的

    二維碼讀取器(用于二維碼讀取的機(jī)器),作為一種現(xiàn)代化的自動(dòng)識(shí)別技術(shù)設(shè)備,正日益滲透到我們生活的方方面面。從商場(chǎng)購(gòu)物到物流配送,從醫(yī)療管理到工業(yè)生產(chǎn)線,二維碼讀取器憑借其高效、準(zhǔn)確的
    的頭像 發(fā)表于 03-17 15:57 ?225次閱讀
    二維碼<b class='flag-5'>讀取器</b>是干嘛的