加勒比久久综合网天天,日韩一级二级三级

圖片來(lái)源于京東

借助 NVIDIA DGX SuperPOD，京東探索研究院訓(xùn)練了參數(shù)量近五十億的 Vega-MT 模型，在 2022 年第 17 屆國(guó)際機(jī)器翻譯大賽（WMT）上大放異彩。Vega-MT 在中文-英語(yǔ)(BLEU 33.5, chrF 0.611)、英文-中文(BLEU 49.7, chrF 0.446)、德語(yǔ)-英語(yǔ)(BLEU 33.7, chrF 0.585)、英語(yǔ)-德語(yǔ)(BLEU 37.8, chrF 0.643)、捷克語(yǔ)-英語(yǔ)(BLEU 54.9, chrF 0.744)、英語(yǔ)-捷克語(yǔ)(BLEU 41.4, chrF 0.651)和英語(yǔ)-俄羅斯語(yǔ)(BLEU 32.7, chrF 0.584)在七個(gè)翻譯賽道上榮獲冠軍。

作為大規(guī)模 AI 基礎(chǔ)架構(gòu)，NVIDIA DGX SuperPOD 具備完整、先進(jìn)的基礎(chǔ)架構(gòu)。相較于原來(lái)的 V100 集群，DGX SuperPOD 除了在單卡算力上取得了接近兩倍的提升外，在算力擴(kuò)展性方面也呈線性增長(zhǎng)，即擴(kuò)展性方面相較于從前也取得了兩倍的提升。在多節(jié)點(diǎn)的情況下總計(jì)獲得了約 4 倍的提升。因此，原本需要數(shù)月才能完成類似模型（相當(dāng)規(guī)模、相當(dāng)復(fù)雜度）的訓(xùn)練任務(wù)縮短到了兩周，研究人員也有了更充裕的時(shí)間針對(duì)模型優(yōu)化。

客戶簡(jiǎn)介及應(yīng)用背景

京東作為以供應(yīng)鏈為基礎(chǔ)的技術(shù)與服務(wù)企業(yè)。京東探索研究院（JD Explore Ac ademy）秉承“以技術(shù)為本，致力于更高效和可持續(xù)的世界”的集團(tuán)使命，是以京東集團(tuán)以各事業(yè)群與業(yè)務(wù)單元的技術(shù)發(fā)展為基礎(chǔ)，集合全集團(tuán)資源和能力，成立的專注前沿科技探索的研發(fā)部門，是實(shí)現(xiàn)研究和協(xié)同創(chuàng)新的生態(tài)平臺(tái)。探索研究院深耕泛人工智能 3 大領(lǐng)域，包括“量子機(jī)器學(xué)習(xí)”、“可信人工智能”、“超級(jí)深度學(xué)習(xí)”，從基礎(chǔ)理論層面實(shí)現(xiàn)顛覆式創(chuàng)新，助力數(shù)智化產(chǎn)業(yè)發(fā)展及社會(huì)變革，以原創(chuàng)性科技賦能京東集團(tuán)零售、物流、健康、科技等全產(chǎn)業(yè)鏈場(chǎng)景，打造源頭性科技高地，實(shí)現(xiàn)從量變到質(zhì)變的跨越式發(fā)展，引領(lǐng)行業(yè)砥礪前行。

國(guó)際機(jī)器翻譯大賽（WMT）是全球?qū)W術(shù)界公認(rèn)的國(guó)際頂級(jí)機(jī)器翻譯比賽，由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)（ACL）舉辦，是協(xié)會(huì)旗下的頂尖賽事。自 2006 年至今，WMT 的每次比賽都是全球各大高校、科技公司與學(xué)術(shù)機(jī)構(gòu)展示自身機(jī)器翻譯實(shí)力的平臺(tái)，更見(jiàn)證了機(jī)器翻譯技術(shù)的不斷進(jìn)步。

京東探索研究院在 WMT 大賽上這一重大成就進(jìn)一步驗(yàn)證了自然語(yǔ)言處理大模型在理解、生成、跨語(yǔ)種建模上的優(yōu)越性。

客戶挑戰(zhàn)

機(jī)器翻譯面臨諸多挑戰(zhàn)：常見(jiàn)的幾個(gè)語(yǔ)種使用廣泛數(shù)據(jù)資源豐富，小語(yǔ)種在跨境電商中非常必要但數(shù)據(jù)不充分，小數(shù)據(jù)集的訓(xùn)練面臨挑戰(zhàn)；同時(shí)，挖掘語(yǔ)種與語(yǔ)種的聯(lián)系也是難點(diǎn)之一，因?yàn)檎Z(yǔ)言生成的復(fù)雜性、多義性，表達(dá)的多樣性、文化背景，語(yǔ)種之間的差異等都是機(jī)器翻譯比賽中繞不開(kāi)的難題。

從 2018 年的 GPT-1 的 1.1 億參數(shù)，到現(xiàn)今大規(guī)模語(yǔ)言模型擁有萬(wàn)億參數(shù)，大模型在多種語(yǔ)言任務(wù)上準(zhǔn)確率的顯著提高，有助于我們構(gòu)建對(duì)自然語(yǔ)言有著更加豐富理解的智能系統(tǒng)。

Vega-MT 采用了諸多先進(jìn)技術(shù)，包括多方向預(yù)訓(xùn)練（multidirectional pre-training）、超大模型（Extremely Large Transformer）、循環(huán)翻譯（cycle translation）和雙向自訓(xùn)練（bidirectional self-training），來(lái)充分挖掘雙語(yǔ)數(shù)據(jù)、單語(yǔ)數(shù)據(jù)的知識(shí)。此外，還使用了噪聲信道重排序和泛化性微調(diào)等策略來(lái)增強(qiáng) Vega-MT 系統(tǒng)的魯棒性和譯文的信達(dá)雅水平。

但是，在訓(xùn)練大模型時(shí)，我們依然會(huì)面臨諸多困難。在此之前對(duì)于一般任務(wù)一張 GPU 即可勝任模型的訓(xùn)練，但是在大模型場(chǎng)景，需要多節(jié)點(diǎn)協(xié)同才能完成最終的訓(xùn)練任務(wù)，這也對(duì)現(xiàn)有的 GPU 計(jì)算集群提出了新的挑戰(zhàn)。以知名的 GPT-3 為例，它使用了 45 TB 的訓(xùn)練數(shù)據(jù)，最高達(dá)到 1750 億的模型參數(shù)量；在采用混合精度時(shí)，它共占用約 2.8 TB 的顯存，需要超過(guò) 35 張 GPU 才能將模型全部放下。

因此，訓(xùn)練的挑戰(zhàn)集中在單卡算力和多卡多節(jié)點(diǎn)通信上，訓(xùn)練也會(huì)跨越多個(gè)節(jié)點(diǎn)。此時(shí)數(shù)據(jù)傳輸、任務(wù)調(diào)度、并行優(yōu)化、資源利用率等方面就顯得尤為重要。

應(yīng)用方案

在構(gòu)建 AI 基礎(chǔ)架構(gòu)時(shí)，我們會(huì)面臨來(lái)自方方面面的挑戰(zhàn)，例如計(jì)算資源，網(wǎng)絡(luò)，存儲(chǔ)，乃至最上層用來(lái)進(jìn)行任務(wù)調(diào)度的軟件等，而這些方面并非獨(dú)立，需要綜合考量。

京東探索研究院采用的 NVIDIA DGX SuperPOD 就是一套綜合完整的高性能解決方案。SuperPOD AI 集群，基于 DGX 服務(wù)器，HDR InfiniBand 200G 網(wǎng)卡以及 NVIDIA Quantum QM8790 交換機(jī)，計(jì)算網(wǎng)絡(luò)和儲(chǔ)存網(wǎng)絡(luò)隔離，既保證了最優(yōu)的算力，又可以確保節(jié)點(diǎn)和卡之間的高效互聯(lián)，最大程度提升分布式訓(xùn)練的效率。

算力層面，單節(jié)點(diǎn)算力高達(dá) 2.4 PFLOPS，采用單節(jié)點(diǎn)進(jìn)行訓(xùn)練，BERT 只需 17 分鐘即可完成訓(xùn)練，Mask R-CNN 38 分鐘，RetinaNet 也只需 83 分鐘。而針對(duì)于 Transformer XL Base，181 分鐘即可完成訓(xùn)練。同時(shí)，依托于多實(shí)例 GPU (Multi-Instance GPU, MIG) 技術(shù)，可以將 GPU 分割成多個(gè)實(shí)例，每個(gè)實(shí)例都有其獨(dú)立的顯存，緩存以及流式多處理器，彼此之間故障隔離。這樣一來(lái)可以進(jìn)一步提升 GPU 的利用率，同時(shí)滿足需要不同算力的任務(wù)。

網(wǎng)絡(luò)層面，通過(guò) Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) 技術(shù)，可以讓聚合計(jì)算從 CPU 遷移到交換機(jī)網(wǎng)絡(luò)，消除了節(jié)點(diǎn)之間多次發(fā)送數(shù)據(jù)的需求，大幅縮減了到達(dá)聚合節(jié)點(diǎn)的網(wǎng)絡(luò)流量，從而顯著減少執(zhí)行 MPI 的時(shí)間，同時(shí)讓通信效率與節(jié)點(diǎn)數(shù)目不再直接相關(guān)，進(jìn)一步保障了算力的可擴(kuò)展性。除此之外，將 CPU 從處理通信的任務(wù)中解脫出來(lái)，讓寶貴的 CPU 資源聚焦于計(jì)算上，進(jìn)一步提升了整體集群處理任務(wù)的能力。

儲(chǔ)存層面，在訓(xùn)練模型時(shí)，往往需要從存儲(chǔ)中多次讀取訓(xùn)練數(shù)據(jù)，而讀取操作的耗時(shí)也會(huì)在一定程度上影響訓(xùn)練的時(shí)效。DGX SuperPOD 使用了高性能的多層級(jí)儲(chǔ)存架構(gòu)，以平衡性能、容量和成本的需求。而借助于 GPU Direct RDMA 技術(shù)，可以繞過(guò) CPU 直接連通 GPU，儲(chǔ)存和網(wǎng)絡(luò)設(shè)備，從而進(jìn)行高速低時(shí)延的數(shù)據(jù)傳輸。

軟件層面，為了構(gòu)建集群以及保障集群的持久化平穩(wěn)運(yùn)行，上層的監(jiān)控調(diào)度管理軟件不可或缺。Base Command Manager 是一個(gè)集群管理系統(tǒng)，它可以對(duì)集群進(jìn)行一系列的配置，管理用戶訪問(wèn)，資源監(jiān)控，記錄日志，以及通過(guò) slurm 進(jìn)行作業(yè)任務(wù)調(diào)度。同時(shí)，NGC 上涵蓋了大量 AI，HPC，數(shù)據(jù)科學(xué)相關(guān)的資源，用戶可以輕松獲取到功能強(qiáng)大的軟件，容器鏡像，以及各類預(yù)訓(xùn)練模型。

與此同時(shí)，探索研究院團(tuán)隊(duì)對(duì)集群進(jìn)行了 7x24 小時(shí)的監(jiān)控管理，確保訓(xùn)練任務(wù)長(zhǎng)時(shí)間的平穩(wěn)運(yùn)行。監(jiān)控資源利用率，也確保了每個(gè)節(jié)點(diǎn)上的計(jì)算資源能被充分地利用了起來(lái)。在完善的調(diào)度監(jiān)控工作和 DGX SuperPOD 高可靠性的質(zhì)量保證下，所有被使用到的訓(xùn)練節(jié)點(diǎn)在模型訓(xùn)練的 20 天 (2 周 pre-training + 5天 fine-tuning) 內(nèi)，沒(méi)有出現(xiàn)任何問(wèn)題，訓(xùn)練最終圓滿完成。

使用效果及影響

Vega-MT 被成功應(yīng)用在了京東國(guó)慶期間對(duì)外發(fā)布的 Omni-Force AIGC 小程序中。小程序的應(yīng)用是用戶輸入文字生成對(duì)應(yīng)的圖片，在 Vega-MT 的加持下，小程序可以支持多個(gè)語(yǔ)種的文字輸入，譬如中文、英文、西班牙文等等。

京東探索研究院表示: “通過(guò) NVIDIA DGX SuperPOD 的加持，京東探索研究院可以快速迭代模型，幫助高準(zhǔn)確度的模型快速落地，進(jìn)一步提升用戶體驗(yàn)，降低成本，提升效果和業(yè)務(wù)收益。此次 NVIDIA DGX SuperPOD 支持我們能在 WMT 比賽中拔得頭籌，不僅提高了企業(yè)的知名度，也助力了京東成為更受用戶信賴的品牌”。

值得一提的是，除了 Vega-MT 外，NVIDIA DGX SuperPOD 也在探索研究院的其他大模型訓(xùn)練上發(fā)揮了不可或缺的作用，譬如 ViTAE，織女模型等。

點(diǎn)擊“閱讀原文”或掃描下方海報(bào)二維碼，即可免費(fèi)注冊(cè) GTC 23，切莫錯(cuò)過(guò)這場(chǎng) AI 和元宇宙時(shí)代的技術(shù)大會(huì)！

原文標(biāo)題：NVIDIA DGX SuperPOD 助力京東探索研究院 Vega-MT 模型大賽奪魁！

文章出處：【微信公眾號(hào)：NVIDIA英偉達(dá)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴