一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用 NVIDIA IGX Orin 開發(fā)者套件在邊緣部署大語言模型

NVIDIA英偉達(dá) ? 來源:未知 ? 2023-11-24 19:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著大語言模型(LLM)的功能日益強(qiáng)大,減少其計(jì)算需求的技術(shù)也日趨成熟,由此產(chǎn)生了兩個(gè)引人注目的問題:能夠在邊緣運(yùn)行和部署的最先進(jìn)的 LLM 是什么?現(xiàn)實(shí)世界中的應(yīng)用如何才能充分利用這些成果?

即使采用較低的 FP16 精度,運(yùn)行像 Llama 270b 這樣最先進(jìn)的開源 LLM,也需要超過 140 GB 的 GPU 顯存(VRAM)(700 億參數(shù) x 2 字節(jié) = FP16 精度下的 140 GB,還要加上 KV 緩存所增加的顯存需求)。對于大多數(shù)開發(fā)者和較小的公司來說,要獲得這么大的 VRAM 并不容易。此外,無論是由于成本、帶寬、延遲還是數(shù)據(jù)隱私問題,應(yīng)用程序的特定要求可能會(huì)排除使用云計(jì)算資源托管 LLM 這一選項(xiàng)。

NVIDIA IGX Orin 開發(fā)者套件和 NVIDIA Holoscan SDK 可應(yīng)對這些挑戰(zhàn),將 LLM 的強(qiáng)大功能帶到邊緣。NVIDIA IGX Orin 開發(fā)者套件可提供一個(gè)滿足工業(yè)和醫(yī)療環(huán)境需求的工業(yè)級邊緣 AI 平臺。內(nèi)置的 NVIDIA Holoscan 是一套能夠協(xié)調(diào)數(shù)據(jù)移動(dòng)、加速計(jì)算、實(shí)時(shí)可視化和 AI 推理的 SDK。

該平臺讓開發(fā)者能夠?qū)㈤_源 LLM 添加到邊緣 AI 流式傳輸工作流和產(chǎn)品中,為實(shí)時(shí) AI 傳感器處理帶來了新的可能性,同時(shí)確保敏感數(shù)據(jù)保持在 IGX 硬件的安全邊界內(nèi)。

適用于實(shí)時(shí)流式傳輸?shù)拈_源 LLM

近來開源 LLM 的快速發(fā)展已經(jīng)改變了人們對實(shí)時(shí)流式傳輸應(yīng)用可能性的看法。之前,人們普遍認(rèn)為,任何需要類似人類能力的應(yīng)用,都只能由數(shù)據(jù)中心規(guī)模的企業(yè)級 GPU 驅(qū)動(dòng)的閉源 LLM 實(shí)現(xiàn)。但由于近期新型開源 LLM 的性能暴漲,F(xiàn)alcon、MPT、Llama 2 等模型現(xiàn)在已經(jīng)可以替代閉源黑盒 LLM。

有許多可能的應(yīng)用可以利用這些邊緣的開源模型,其中大多都涉及到將流式傳輸傳感器數(shù)據(jù)提煉為自然語言摘要??赡艹霈F(xiàn)的應(yīng)用有:讓家屬隨時(shí)了解手術(shù)進(jìn)展的手術(shù)實(shí)時(shí)監(jiān)控視頻、為空中交通管制員匯總最近的雷達(dá)交流情況,以及將足球比賽的實(shí)況解說轉(zhuǎn)換成另一種語言。

隨著強(qiáng)大開源 LLM 的出現(xiàn),一個(gè)致力于提高這些模型準(zhǔn)確性,并減少運(yùn)行模型所需計(jì)算量的社群應(yīng)運(yùn)而生。這個(gè)充滿活力的社群活躍在“Hugging Face 開放式 LLM 排行榜”上,該排行榜經(jīng)常會(huì)更新最新的頂尖性能模型。

豐富的邊緣 AI 功能

NVIDIA IGX Orin 平臺在利用激增的可用開源 LLM 和支持軟件方面具有得天獨(dú)厚的優(yōu)勢。

強(qiáng)大的 Llama 2 模型有 NVIDIA IGX Orin 平臺安全措施的加持,并可以無縫集成到低延遲的 Holoscan SDK 管道中,因此能夠應(yīng)對各種問題和用例。這一融合不僅標(biāo)志著邊緣 AI 能力的重大進(jìn)步,而且釋放了多個(gè)領(lǐng)域變革性解決方案的潛力。

其中一個(gè)值得關(guān)注的應(yīng)用能夠充分利用新發(fā)布的 Clinical Camel,這是一個(gè)經(jīng)過微調(diào)的 Llama 2 70B 模型變體,專門用于醫(yī)學(xué)知識研究?;谠撃P蛣?chuàng)建本地化的醫(yī)療聊天機(jī)器人,可確保敏感的患者數(shù)據(jù)始終處于 IGX 硬件的安全邊界內(nèi)。對隱私、帶寬或?qū)崟r(shí)反饋要求極高的應(yīng)用程序是 IGX 平臺真正的亮點(diǎn)所在。

想象一下,輸入患者的病歷,并向機(jī)器人查詢類似病例,獲得有關(guān)難以診斷的患者的新洞察,甚至為醫(yī)療專業(yè)人員篩選出不會(huì)與當(dāng)前處方產(chǎn)生相互作用的藥物——所有這些都可以通過 Holoscan 應(yīng)用實(shí)現(xiàn)自動(dòng)化。該應(yīng)用可將醫(yī)患互動(dòng)的實(shí)時(shí)音頻轉(zhuǎn)換成文本,并將其無縫地輸入到 Clinical Camel 模型中。

wKgZomVgiT2ARiLjAAUzcHkqaho927.png

圖 1. Clinical Camel 模型

根據(jù)示例對話生成的臨床筆記

NVIDIA IGX 平臺憑借對低延遲傳感器輸入數(shù)據(jù)的出色優(yōu)化,將 LLM 的功能擴(kuò)展到純文本應(yīng)用之外。醫(yī)療聊天機(jī)器人已經(jīng)足以展現(xiàn)出它的強(qiáng)大,而 IGX Orin 開發(fā)者套件更強(qiáng)大的地方在于,它能夠無縫集成來自各種傳感器的實(shí)時(shí)數(shù)據(jù)。

IGX Orin 專為邊緣環(huán)境打造,可以處理來自攝像頭、激光雷達(dá)傳感器、無線電天線、加速度計(jì)、超聲探頭等的流信息。這一通用性使各種先進(jìn)的應(yīng)用能夠無縫地將 LLM 的強(qiáng)大功能與實(shí)時(shí)數(shù)據(jù)流融合。

在集成到 Holoscan 操作系統(tǒng)后,這些 LLM 可顯著增強(qiáng) AI 傳感器處理管道的能力和功能。具體示例如下:

多模態(tài)醫(yī)療助手增強(qiáng) LLM 的能力,使其不僅能夠解釋文本,還能解釋醫(yī)學(xué)影像,如 Med-Flamingo 等項(xiàng)目所驗(yàn)證的那樣,它能解釋核磁共振、X 射線和組織學(xué)影像。

wKgZomVgiT2AX0CsAAJlPyGi_4g552.png

圖 2. LLM 可解釋文本

并從醫(yī)學(xué)影像中獲得相關(guān)洞察

信號情報(bào)(SIGINT):通信系統(tǒng)和雷達(dá)捕獲的實(shí)時(shí)電子信號中獲得自然語言摘要,提供銜接技術(shù)數(shù)據(jù)與人類理解的深入洞察。

手術(shù)病例記錄生成:將內(nèi)窺鏡視頻、音頻、系統(tǒng)數(shù)據(jù)和患者記錄傳輸?shù)蕉嗄B(tài) LLM 中,生成綜合全面的手術(shù)病例,并自動(dòng)上傳到患者的電子病歷中。

智慧農(nóng)業(yè):使用土壤傳感器監(jiān)測 pH 值、濕度和營養(yǎng)水平,使 LLM 能夠?yàn)閮?yōu)化種植、灌溉和病蟲害防治策略提供可操作的深入洞察。

用于教育、故障診斷或提高生產(chǎn)力的軟件開發(fā)助手是 LLM 的另一個(gè)新穎用例。這些模型可以幫助開發(fā)者開發(fā)更高效的代碼和詳盡的文檔。

Holoscan 團(tuán)隊(duì)最近發(fā)布了 HoloChat,這個(gè) AI 驅(qū)動(dòng)的聊天機(jī)器人在 Holoscan 的開發(fā)過程中充當(dāng)開發(fā)者的“助手”。它能對有關(guān) Holoscan 和編寫代碼的問題做出類似人類的回答。詳情請?jiān)L問GitHub上的nvidia-holoscan/holohub:https://github.com/nvidia-holoscan/holohub/tree/main/applications/holochat_local

HoloChat 的本地托管模式旨在為開發(fā)者提供與常見的閉源聊天機(jī)器人相同的優(yōu)勢,同時(shí)杜絕了將數(shù)據(jù)發(fā)送到第三方遠(yuǎn)程服務(wù)器處理所帶來的隱私和安全問題。

通過模型量化

實(shí)現(xiàn)最佳精度與內(nèi)存使用

隨著大量開源模型通過 Apache 2、MIT 和商業(yè)許可發(fā)布,任何人都可以下載并使用這些模型權(quán)重。但對絕大多數(shù)開發(fā)者來說,“可以”并不意味著“可行”。

模型量化提供了一種解決方案。通過用低精度數(shù)據(jù)類型(int8 和 int4)來表示權(quán)重和激活值,而不是高精度數(shù)據(jù)類型(FP16 和 FP32),模型量化減少了運(yùn)行推理的計(jì)算和內(nèi)存成本。

然而,從模型中移除這一精度確實(shí)會(huì)導(dǎo)致模型的準(zhǔn)確性下降。但研究表明,在內(nèi)存預(yù)算既定的情況下,當(dāng)參數(shù)以 4 位精度存儲時(shí),使用盡可能大且與內(nèi)存匹配的模型才能實(shí)現(xiàn)最佳的 LLM 性能。更多詳情,參見 4 位精度案例:k 位推理縮放法則:https://arxiv.org/abs/2212.09720

因此,Llama 2 70B 模型在以 4 位量化實(shí)施時(shí),達(dá)到了精度和內(nèi)存使用之間的最佳平衡,將所需的 RAM 降低至 35 GB 左右。對于規(guī)模較小的開發(fā)團(tuán)隊(duì)甚至個(gè)人來說,這一內(nèi)存需求是可以達(dá)到的。

開源 LLM 打開新的開發(fā)機(jī)遇

由于能夠在商用硬件上運(yùn)行最先進(jìn)的 LLM,開源社區(qū)中出現(xiàn)了大量支持本地運(yùn)行的新程序庫,并提供能夠擴(kuò)展這些模型功能的工具,而不僅僅是預(yù)測句子的下一個(gè)單詞。

您可以通過 Llama.cpp、ExLlama 和 AutoGPTQ 等程序庫量化自己的模型,并在本地 GPU 上快速運(yùn)行推理。不過,是否量化模型完全取決于您自己的選擇,因?yàn)?HuggingFace.co/models 中有大量量化模型可供使用。這在很大程度上要?dú)w功于像 /TheBloke 這樣的超級用戶,他們每天都會(huì)上傳新的量化模型。

這些模型本身就帶來了令人興奮的開發(fā)機(jī)會(huì),更不用說還能使用大量新建程序庫中的附加工具來對其進(jìn)行擴(kuò)展,使它們更加強(qiáng)大。例如:

  • LangChain:一個(gè)在 GitHub 上獲得 58,000 顆星評分的程序庫,提供從實(shí)現(xiàn)文檔問答功能的矢量數(shù)據(jù)庫集成,到使 LLM 能夠?yàn)g覽網(wǎng)頁的多步驟代理框架等所有功能。

  • Haystack:支持可擴(kuò)展的語義搜索。

  • Magentic:可將 LLM 輕松集成到您的 Python 代碼中。

  • Oobabooga:一個(gè)用于在本地運(yùn)行量化 LLM 的網(wǎng)絡(luò)用戶界面。

只要您有 LLM 用例,就可以使用一個(gè)開源庫來提供您所需的大部分功能。

開始在邊緣部署 LLM

使用 NVIDIA IGX Orin 開發(fā)者套件在邊緣部署最先進(jìn)的 LLM,可以解鎖尚未被挖掘的開發(fā)機(jī)會(huì)。如要開始部署,請先查看"使用 IGX Orin 在邊緣部署 Llama 2 70B 模型"綜合教程,其詳細(xì)介紹了在 IGX Orin 上創(chuàng)建簡單聊天機(jī)器人應(yīng)用:https://github.com/nvidia-holoscan/holohub/tree/main/tutorials/local-llama

教程演示了如何在 IGX Orin 上無縫集成 Llama 2,并指導(dǎo)您使用 Gradio 開發(fā) Python 應(yīng)用。這是使用本文中提到的任何優(yōu)質(zhì) LLM 庫的第一步。IGX Orin 提供的彈性、非凡性能和端到端的安全性,使開發(fā)者能夠圍繞在邊緣運(yùn)行的先進(jìn) LLM,構(gòu)建創(chuàng)新的 Holoscan 優(yōu)化應(yīng)用。

GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會(huì)議中心舉行,線上大會(huì)也將同期開放。點(diǎn)擊“閱讀原文”掃描下方海報(bào)二維碼,立即注冊 GTC 大會(huì)。


原文標(biāo)題:使用 NVIDIA IGX Orin 開發(fā)者套件在邊緣部署大語言模型

文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3953

    瀏覽量

    93789

原文標(biāo)題:使用 NVIDIA IGX Orin 開發(fā)者套件在邊緣部署大語言模型

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    ,聯(lián)發(fā)科帶來了全面升級的天璣AI開發(fā)套件2.0,模型庫規(guī)模、架構(gòu)開放程度、前沿端側(cè)AI技術(shù)支持和端側(cè)LoRA訓(xùn)練落地等方面均迎來全面躍遷,為開發(fā)者提供了更全面、更開放、更強(qiáng)大的端側(cè)A
    發(fā)表于 04-13 19:52

    【幸狐Omni3576邊緣計(jì)算套件試用體驗(yàn)】DeepSeek 部署及測試

    方式。 RKLLM 部署 RKLLM-Toolkit 是一個(gè)開發(fā)套件,旨在幫助用戶計(jì)算機(jī)上進(jìn)行大語言模型的量化和轉(zhuǎn)換。 其功能類似于圖像識
    發(fā)表于 03-21 19:31

    英特爾哪吒開發(fā)套件部署DeepSeek-R1的實(shí)現(xiàn)方式

    隨著人工智能技術(shù)的快速發(fā)展,企業(yè)對 AI 模型部署方式有了更多選擇。本地部署 DeepSeek-R1 模型具有以下顯著優(yōu)勢,使其成為許多企業(yè)和開發(fā)
    的頭像 發(fā)表于 03-12 13:38 ?567次閱讀
    <b class='flag-5'>在</b>英特爾哪吒<b class='flag-5'>開發(fā)套件</b>上<b class='flag-5'>部署</b>DeepSeek-R1的實(shí)現(xiàn)方式

    研華NVIDIA Jetson Orin Nano系統(tǒng)支持Super Mode

    提升生成式AI性能1.7倍 2025年春季— 研華科技,作為全球工業(yè)嵌入式 AI 解決方案供應(yīng)商,宣布推出搭載NVIDIA Jetson Orin Nano 8GB系統(tǒng)模塊的AI邊緣運(yùn)算系統(tǒng)
    發(fā)表于 03-10 14:07 ?385次閱讀
    研華<b class='flag-5'>NVIDIA</b> Jetson <b class='flag-5'>Orin</b> Nano系統(tǒng)支持Super Mode

    添越智創(chuàng)基于 RK3588 開發(fā)部署測試 DeepSeek 模型全攻略

    AI 技術(shù)日新月異的當(dāng)下,新的模型與突破不斷涌現(xiàn)。近期,DeepSeek(深度求索)模型以其卓越性能和親民成本,迅速全球開發(fā)者圈子里
    發(fā)表于 02-14 17:42

    NVIDIA JetPack 6.2引入Super模式

    NVIDIA Jetson Orin Nano Super 開發(fā)者套件的推出開創(chuàng)了小型邊緣設(shè)備生成式 AI 的新時(shí)代。全新的 Super 模
    的頭像 發(fā)表于 02-12 09:32 ?1105次閱讀
    <b class='flag-5'>NVIDIA</b> JetPack 6.2引入Super模式

    NVIDIA Jetson Orin Nano開發(fā)者套件的新功能

    生成式 AI 領(lǐng)域正在迅速發(fā)展,每天都有新的大語言模型(LLM)、視覺語言模型(VLM)和視覺語言動(dòng)作
    的頭像 發(fā)表于 12-23 12:54 ?1108次閱讀
    <b class='flag-5'>NVIDIA</b> Jetson <b class='flag-5'>Orin</b> Nano<b class='flag-5'>開發(fā)者</b><b class='flag-5'>套件</b>的新功能

    NVIDIA發(fā)布小巧高性價(jià)比的Jetson Orin Nano Super開發(fā)者套件

    NVIDIA近期推出了一款全新的生成式AI超級計(jì)算機(jī)——Jetson Orin Nano Super開發(fā)者套件。這款開發(fā)者
    的頭像 發(fā)表于 12-19 11:28 ?1091次閱讀

    NVIDIA 推出高性價(jià)比的生成式 AI 超級計(jì)算機(jī)

    Jetson Orin Nano Super 可將生成式 AI 性能提升至1.7 倍,支持科技愛好、開發(fā)者和學(xué)生使用的主流模型。 ? ? NVID
    發(fā)表于 12-18 17:01 ?723次閱讀
    <b class='flag-5'>NVIDIA</b> 推出高性價(jià)比的生成式 AI 超級計(jì)算機(jī)

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓(xùn)練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?527次閱讀

    Arm推出GitHub平臺AI工具,簡化開發(fā)者AI應(yīng)用開發(fā)部署流程

    軟件提供了無縫的開發(fā)體驗(yàn)。 GitHub Actions、原生 GitHub 運(yùn)行器和基于 Arm 平臺的 AI 框架相結(jié)合,幫助全球 2,000 萬開發(fā)者簡化 AI 應(yīng)用開發(fā)部署流程。
    的頭像 發(fā)表于 10-31 18:51 ?3330次閱讀

    Orin芯片的編程語言支持

    語言支持 Orin芯片支持多種編程語言,以滿足不同開發(fā)者的需求。其中,C/C++和Python是兩種廣泛應(yīng)用的編程語言。C/C++以其高效和
    的頭像 發(fā)表于 10-27 16:45 ?991次閱讀

    Orin芯片如何選擇

    隨著自動(dòng)駕駛技術(shù)的飛速發(fā)展,對高性能計(jì)算平臺的需求日益增長。NVIDIAOrin芯片作為這一領(lǐng)域的佼佼,以其卓越的性能和先進(jìn)的功能,成為了自動(dòng)駕駛汽車制造商和開發(fā)者的首選。然而,選
    的頭像 發(fā)表于 10-27 15:40 ?1022次閱讀

    NVIDIA RTX AI套件簡化AI驅(qū)動(dòng)的應(yīng)用開發(fā)

    NVIDIA 于近日發(fā)布 NVIDIA RTX AI套件,這一工具和 SDK 集合能夠幫助 Windows 應(yīng)用開發(fā)者定制、優(yōu)化和部署適用于
    的頭像 發(fā)表于 09-06 14:45 ?884次閱讀

    Mistral AI與NVIDIA推出全新語言模型Mistral NeMo 12B

    Mistral AI 和 NVIDIA 于近日共同發(fā)布了一款全新的領(lǐng)先語言模型Mistral NeMo 12B。開發(fā)者可以輕松定制和部署
    的頭像 發(fā)表于 07-27 11:04 ?1160次閱讀