日韩欧美丝袜第一区,xxx视频在线观看

作者：Arm 工程部首席軟件工程師 Gian Marco Iodice，以及亞馬遜云科技 (AWS) Srini Raghavan 和Stefano Marzani

隨著人工智能 (AI) ，尤其是生成式 AI 的引入，汽車行業(yè)正迎來(lái)變革性轉(zhuǎn)變。麥肯錫最近對(duì)汽車和制造業(yè)高管開展的一項(xiàng)調(diào)查[1]表明，超過(guò) 40% 的受訪者對(duì)生成式 AI 研發(fā)的投資額高達(dá) 500 萬(wàn)歐元，超過(guò) 10% 受訪者的投資額超過(guò) 2,000 萬(wàn)歐元。

隨著行業(yè)向軟件定義汽車 (SDV) 不斷發(fā)展，到 2030 年，汽車中的代碼行數(shù)預(yù)計(jì)將從每輛車 1 億行增加至約 3 億行。面向汽車的生成式 AI 與 SDV 相結(jié)合，可共同實(shí)現(xiàn)性能和舒適性方面的車載用例，以幫助提升駕乘體驗(yàn)。

本文將介紹一項(xiàng)由 Arm 與亞馬遜云科技 (AWS) 合作開發(fā)的車載生成式 AI 用例及其實(shí)現(xiàn)詳情。

用例介紹

隨著汽車愈發(fā)精密，車主已經(jīng)能在交車后持續(xù)接收諸如停車輔助或車道保持等功能更新，伴隨而來(lái)的挑戰(zhàn)是，如何讓車主及時(shí)了解新增的更新和新功能？過(guò)往通過(guò)紙質(zhì)或在線手冊(cè)等傳統(tǒng)方法的更新方式已證明存在不足，導(dǎo)致車主無(wú)法充分了解汽車的潛能。

為了應(yīng)對(duì)這一挑戰(zhàn)，AWS 將生成式 AI、邊緣計(jì)算和物聯(lián)網(wǎng) (IoT) 的強(qiáng)大功能相結(jié)合，開發(fā)了一項(xiàng)車載生成式 AI 的演示。這項(xiàng)演示所展現(xiàn)的解決方案是由小語(yǔ)言模型 (SLM) 所支持的車載應(yīng)用，旨在使駕駛員能夠通過(guò)自然語(yǔ)音交互獲取最新的車輛信息。該演示應(yīng)用能夠在部署后離線運(yùn)行，確保駕駛員在沒有互聯(lián)網(wǎng)連接的情況下，也能訪問(wèn)有關(guān)車輛的重要信息。

該解決方案集成了多項(xiàng)先進(jìn)技術(shù)，為用戶打造出更無(wú)縫、更高效的產(chǎn)品體驗(yàn)。這項(xiàng)演示的應(yīng)用部署在車內(nèi)本地的小語(yǔ)言模型，該模型利用經(jīng) Arm KleidiAI 優(yōu)化的例程對(duì)性能進(jìn)行提升。未經(jīng) KleidiAI 優(yōu)化的系統(tǒng)的響應(yīng)時(shí)間為 8 至 19 秒左右，相比之下，經(jīng) KleidiAI 優(yōu)化的小語(yǔ)言模型的推理響應(yīng)時(shí)間為 1 至 3 秒。通過(guò)使用 KleidiAI，應(yīng)用開發(fā)時(shí)間縮短了 6 周，而且開發(fā)者在開發(fā)期間無(wú)需關(guān)注底層軟件的優(yōu)化。

Arm 虛擬硬件 (Arm Virtual Hardware) 支持訪問(wèn)許多 AWS 上的熱門物聯(lián)網(wǎng)開發(fā)套件。當(dāng)物理設(shè)備不可用，或者全球各地的團(tuán)隊(duì)無(wú)法訪問(wèn)物理設(shè)備時(shí)，在 Arm 虛擬硬件上進(jìn)行開發(fā)和測(cè)試可節(jié)省嵌入式應(yīng)用的開發(fā)時(shí)間。AWS 在汽車虛擬平臺(tái)上成功測(cè)試了該演示應(yīng)用，在演示中，Arm 虛擬硬件提供了樹莓派設(shè)備的虛擬實(shí)例。同樣的 KleidiAI 優(yōu)化也可用于 Arm 虛擬硬件。

這個(gè)在邊緣側(cè)設(shè)備上運(yùn)行的生成式 AI 應(yīng)用所具備的關(guān)鍵特性之一是，它能夠接收 OTA 無(wú)線更新，其中部分更新使用 AWS IoT Greengrass Lite 接收，從而確保始終向駕駛員提供最新信息。AWS IoT Greengrass Lite 在邊緣側(cè)設(shè)備上僅占用 5 MB 的 RAM，因此具有很高的內(nèi)存效率。此外，該解決方案包含自動(dòng)質(zhì)量監(jiān)控和反饋循環(huán)，用于持續(xù)評(píng)估小語(yǔ)言模型響應(yīng)的相關(guān)性和準(zhǔn)確性。其中采用了一個(gè)比較系統(tǒng)，對(duì)超出預(yù)期質(zhì)量閾值的響應(yīng)進(jìn)行標(biāo)記，以進(jìn)行審核。然后，通過(guò) AWS 上的儀表板，以近乎實(shí)時(shí)的速度對(duì)收集到的反饋數(shù)據(jù)進(jìn)行可視化，使整車廠的質(zhì)保團(tuán)隊(duì)能夠?qū)徍撕痛_定需要改進(jìn)的方面，并根據(jù)需要發(fā)起更新。

這個(gè)由生成式 AI 提供支持的解決方案，所具備的優(yōu)勢(shì)不僅僅在于為駕駛員提供準(zhǔn)確的信息。它還體現(xiàn)了 SDV 生命周期管理的范式轉(zhuǎn)變，實(shí)現(xiàn)了更持續(xù)的改進(jìn)周期，整車廠可以根據(jù)用戶交互來(lái)添加新內(nèi)容，而小語(yǔ)言模型可以使用通過(guò)無(wú)線網(wǎng)絡(luò)無(wú)縫部署的更新信息進(jìn)行微調(diào)。這樣一來(lái)，通過(guò)保證最新的車輛信息，用戶體驗(yàn)得以提升，此外整車廠也有機(jī)會(huì)向用戶介紹和指導(dǎo)新特性或可購(gòu)買的附加功能。通過(guò)利用生成式 AI、物聯(lián)網(wǎng)和邊緣計(jì)算的強(qiáng)大功能，這個(gè)生成式 AI 應(yīng)用可以起到汽車用戶向?qū)У淖饔?，其中展示的方法有助于?SDV 時(shí)代實(shí)現(xiàn)更具連接性、信息化和適應(yīng)性的駕駛體驗(yàn)。

端到端的上層實(shí)現(xiàn)方案

下圖所示的解決方案架構(gòu)用于對(duì)模型進(jìn)行微調(diào)、在 Arm 虛擬硬件上測(cè)試模型，以及將小語(yǔ)言模型部署到邊緣側(cè)設(shè)備，并且其中包含反饋收集機(jī)制。

圖：基于生成式 AI 的汽車用戶向?qū)У慕鉀Q方案架構(gòu)圖

上圖中的編號(hào)對(duì)應(yīng)以下內(nèi)容：

模型微調(diào)：AWS 演示應(yīng)用開發(fā)團(tuán)隊(duì)選擇 TinyLlama-1.1B-Chat-v1.0 作為其基礎(chǔ)模型，該模型已針對(duì)會(huì)話任務(wù)進(jìn)行了預(yù)訓(xùn)練。為了優(yōu)化駕駛員的汽車用戶向?qū)Я奶旖缑?，團(tuán)隊(duì)設(shè)計(jì)了言簡(jiǎn)意賅、重點(diǎn)突出的回復(fù)，以便適應(yīng)駕駛員在行車時(shí)僅可騰出有限注意力的情況。團(tuán)隊(duì)創(chuàng)建了一個(gè)包含 1,000 組問(wèn)答的自定義數(shù)據(jù)集，并使用 Amazon SageMaker Studio 進(jìn)行了微調(diào)。

存儲(chǔ)：經(jīng)過(guò)調(diào)優(yōu)的小語(yǔ)言模型存儲(chǔ)在 Amazon Simple Storage Service (Amazon S3) 中。

初始部署：小語(yǔ)言模型最初部署到基于 Ubuntu 的 Amazon EC2 實(shí)例。

開發(fā)和優(yōu)化：團(tuán)隊(duì)在 EC2 實(shí)例上開發(fā)并測(cè)試了生成式 AI 應(yīng)用，使用 llama.cpp 進(jìn)行小語(yǔ)言模型量化，并應(yīng)用了 Q4_0 方案。KleidiAI 優(yōu)化預(yù)先集成了 llama.cpp。與此同時(shí)，模型還實(shí)現(xiàn)了大幅壓縮，將文件大小從 3.8 GB 減少至 607 MB。

虛擬測(cè)試：將應(yīng)用和小語(yǔ)言模型傳輸?shù)?Arm 虛擬硬件的虛擬樹莓派環(huán)境進(jìn)行初始測(cè)試。

虛擬驗(yàn)證：在虛擬樹莓派設(shè)備中進(jìn)行全面測(cè)試，以確保功能正常。

邊緣側(cè)部署：通過(guò)使用 AWS IoT Greengrass Lite，將生成式 AI 應(yīng)用和小語(yǔ)言模型部署到物理樹莓派設(shè)備，并利用 AWS IoT Core 作業(yè)進(jìn)行部署管理。

部署編排：AWS IoT Core 負(fù)責(zé)管理部署到邊緣側(cè)樹莓派設(shè)備的任務(wù)。

安裝過(guò)程：AWS IoT Greengrass Lite 處理從 Amazon S3 下載的軟件包，并自動(dòng)完成安裝。

10.

用戶界面：已部署的應(yīng)用在邊緣側(cè)樹莓派設(shè)備上為最終用戶提供基于語(yǔ)音的交互功能。

11.

質(zhì)量監(jiān)控：生成式 AI 應(yīng)用實(shí)現(xiàn)對(duì)用戶交互的質(zhì)量監(jiān)控。數(shù)據(jù)通過(guò) AWS IoT Core 收集，并通過(guò) Amazon Kinesis Data Streams 和 Amazon Data Firehose 處理，然后存儲(chǔ)到 Amazon S3。整車廠可通過(guò) Amazon QuickSight 儀表板來(lái)監(jiān)控和分析數(shù)據(jù)，及時(shí)發(fā)現(xiàn)并解決任何小語(yǔ)言模型質(zhì)量問(wèn)題。

接下來(lái)將深入探討 KleidiAI 及該演示采用的量化方案。

Arm KleidiAI

Arm KleidiAI 是專為 AI 框架開發(fā)者設(shè)計(jì)的開源庫(kù)。它為 Arm CPU 提供經(jīng)過(guò)優(yōu)化的性能關(guān)鍵例程。該開源庫(kù)最初于 2024 年 5 月推出，現(xiàn)在可為各種數(shù)據(jù)類型的矩陣乘法提供優(yōu)化，包括 32 位浮點(diǎn)、Bfloat16 和 4 位定點(diǎn)等超低精度格式。這些優(yōu)化支持多項(xiàng) Arm CPU 技術(shù)，比如用于 8 位計(jì)算的 SDOT 和 i8mm，以及用于 32 位浮點(diǎn)運(yùn)算的 MLA。

憑借四個(gè) Arm Cortex-A76 核心，樹莓派 5 演示使用了 KleidiAI 的 SDOT 優(yōu)化，SDOT 是最早為基于 Arm CPU 的 AI 工作負(fù)載設(shè)計(jì)的指令之一，它在 2016 年發(fā)布的 Armv8.2-A 中推出。

SDOT 指令也顯示了 Arm 持續(xù)致力于提高 CPU 上的 AI 性能。繼 SDOT 之后，Arm 針對(duì) CPU 上運(yùn)行 AI 逐步推出了新指令，比如用于更高效 8 位矩陣乘法的 i8mm 和 Bfloat16 支持，以期提高 32 位浮點(diǎn)性能，同時(shí)減半內(nèi)存使用。

對(duì)于使用樹莓派 5 進(jìn)行的演示，通過(guò)按塊量化方案，利用整數(shù) 4 位量化（也稱為 llama.cpp 中的 Q4_0）來(lái)加速矩陣乘法，KleidiAI 扮演關(guān)鍵作用。

llama.cpp 中的 Q4_0 量化格式

llama.cpp 中的 Q4_0 矩陣乘法包含以下組成部分：

左側(cè) (LHS) 矩陣，以 32 位浮點(diǎn)值的形式存儲(chǔ)激活內(nèi)容。

右側(cè) (RHS) 矩陣，包含 4 位定點(diǎn)格式的權(quán)重。在該格式中，量化尺度應(yīng)用于由 32 個(gè)連續(xù)整數(shù) 4 位值構(gòu)成的數(shù)據(jù)塊，并使用 16 位浮點(diǎn)值進(jìn)行編碼。

因此，當(dāng)提到 4 位整數(shù)矩陣乘法時(shí)，它特指用于權(quán)重的格式，如下圖所示：

在這個(gè)階段，LHS 和 RHS 矩陣均不是 8 位格式，KleidiAI 如何利用專為 8 位整數(shù)點(diǎn)積設(shè)計(jì)的 SDOT 指令？這兩個(gè)輸入矩陣都必須轉(zhuǎn)換為 8 位整數(shù)值。

對(duì)于 LHS 矩陣，在矩陣乘法例程之前，還需要一個(gè)額外的步驟：動(dòng)態(tài)量化為 8 位定點(diǎn)格式。該過(guò)程使用按塊量化方案將 LHS 矩陣動(dòng)態(tài)量化為 8 位，其中，量化尺度應(yīng)用于由 32 個(gè)連續(xù) 8 位整數(shù)值構(gòu)成的數(shù)據(jù)塊，并以 16 位浮點(diǎn)值的形式存儲(chǔ)，這與 4 位量化方法類似。

動(dòng)態(tài)量化可最大限度降低準(zhǔn)確性下降的風(fēng)險(xiǎn)，因?yàn)榱炕叨纫蜃邮窃谕评頃r(shí)根據(jù)每個(gè)數(shù)據(jù)塊中的最小值和最大值計(jì)算得出的。與該方法形成對(duì)比的是，靜態(tài)量化的尺度因子是預(yù)先確定的，保持不變。

對(duì)于 RHS 矩陣，在矩陣乘法例程之前，無(wú)需額外步驟。事實(shí)上，4 位量化充當(dāng)壓縮格式，而實(shí)際計(jì)算是以 8 位進(jìn)行的。因此，在將 4 位值傳遞給點(diǎn)積指令之前，首先將其轉(zhuǎn)換為 8 位。從 4 位轉(zhuǎn)換為 8 位的計(jì)算成本并不高，因?yàn)橹恍柽M(jìn)行簡(jiǎn)單的移位/掩碼運(yùn)算即可。

既然轉(zhuǎn)換效率如此高，為什么不直接使用 8 位，省去轉(zhuǎn)換的麻煩？

使用 4 位量化有兩個(gè)關(guān)鍵優(yōu)勢(shì)：

縮小模型尺寸：由于 4 位值所需的內(nèi)存只有 8 位值的一半，因此這對(duì)可用 RAM 有限的平臺(tái)尤其有益。

提升文本生成性能：文本生成過(guò)程依賴于一系列矩陣向量運(yùn)算，這些運(yùn)算通常受內(nèi)存限制。也就是說(shuō)，性能受限于內(nèi)存和處理器之間的數(shù)據(jù)傳輸速度，而不是處理器的計(jì)算能力。由于內(nèi)存帶寬是一個(gè)限制因素，縮小數(shù)據(jù)大小可最大限度減少內(nèi)存流量，從而顯著提高性能。

如何結(jié)合使用 KleidiAI 與 llama.cpp？

非常簡(jiǎn)單，KleidiAI 已集成到 llama.cpp 中。因此，開發(fā)者不需要額外的依賴項(xiàng)就能充分發(fā)揮 Armv8.2 及更新架構(gòu)版本的 Arm CPU 性能。

兩者的集成意味著，在移動(dòng)設(shè)備、嵌入式計(jì)算平臺(tái)和基于 Arm 架構(gòu)處理器的服務(wù)器上運(yùn)行 llama.cpp 的開發(fā)者，現(xiàn)在可以體驗(yàn)到更好的性能。

除了 llama.cpp，還有其他選擇嗎？

對(duì)于在 Arm CPU 上運(yùn)行大語(yǔ)言模型，雖然 llama.cpp 是一個(gè)很好的選擇，但開發(fā)者也可以使用其他采用了 KleidiAI 優(yōu)化的高性能生成式 AI 框架。例如（按首字母順序排列）：ExecuTorch、MediaPipe、MNN和 PyTorch。只需選擇最新版本的框架即可。

因此，如果你正考慮在 Arm CPU 上部署生成式 AI 模型，探索以上框架有助于實(shí)現(xiàn)性能和效率的優(yōu)化。

總結(jié)

SDV 和生成式 AI 的融合，正在共同開創(chuàng)一個(gè)新的汽車創(chuàng)新時(shí)代，使得未來(lái)的汽車變得更加智能化，更加以用戶為中心。文中介紹的車載生成式 AI 應(yīng)用演示由 Arm KleidiAI 進(jìn)行優(yōu)化并由 AWS 所提供的服務(wù)進(jìn)行支持，展示了新興技術(shù)如何幫助解決汽車行業(yè)的實(shí)際挑戰(zhàn)。該解決方案可實(shí)現(xiàn) 1 至 3 秒的響應(yīng)時(shí)間并將開發(fā)時(shí)間縮短數(shù)周，證明更高效且離線可用的生成式 AI 應(yīng)用不僅能夠?qū)崿F(xiàn)，而且非常適合車載部署。

汽車技術(shù)的未來(lái)在于打造無(wú)縫融合邊緣計(jì)算、物聯(lián)網(wǎng)功能和 AI 的解決方案。隨著汽車不斷演變且軟件越來(lái)越復(fù)雜，潛在解決方案（比如本文介紹的解決方案）將成為彌合先進(jìn)汽車功能與用戶理解間差距的關(guān)鍵。

* Arm 原創(chuàng)文章

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴