在人工智能和計算機視覺中,數(shù)據(jù)采集成本高、耗時長,并且基于人的標記容易出錯。模型的準確性還受到數(shù)據(jù)不足和不平衡以及改進深度學習模型所需的時間延長的影響。它總是要求在現(xiàn)實世界中重新獲取數(shù)據(jù)。
基于人工智能培訓的數(shù)據(jù)收集、準備和準確可靠的軟件解決方案的開發(fā)是一個極其艱苦的過程。所需的投資成本抵消了部署該系統(tǒng)的預期收益。
用合成數(shù)據(jù)代替真實數(shù)據(jù)進行訓練是縮小數(shù)據(jù)差距、加速模型訓練的一種方法 天空發(fā)動機 提供了一個 AI 平臺,將深度學習轉(zhuǎn)移到虛擬現(xiàn)實中??梢允褂?a href="http://www.www27dydycom.cn/analog/" target="_blank">模擬生成合成數(shù)據(jù),其中合成圖像帶有可直接用于訓練 AI 模型的注釋。
合成數(shù)據(jù)現(xiàn)在可以直接導出到 NVIDIA 遷移學習工具包 ( TLT )上運行, TLT 是一個人工智能訓練工具箱,通過抽象出人工智能/ DL 框架的復雜性來簡化訓練。這使您能夠更快地構(gòu)建生產(chǎn)質(zhì)量模型,而不需要任何人工智能專業(yè)知識。有了 SKY ENGINE AI 平臺和 TLT ,您可以快速迭代和構(gòu)建 AI 。
在這篇文章中,您將學習如何通過獲取預先說明的合成數(shù)據(jù)并在 TLT 上對其進行訓練來利用合成數(shù)據(jù)的威力。我演示了一個簡單的檢查用例,使用分段來識別電信塔上的天線。
關(guān)于天空引擎人工智能方法
SKY ENGINE 推出了一個用于虛擬現(xiàn)實深度學習的全棧 AI 平臺,這是下一代用于圖像和視頻分析應用的主動學習 AI 系統(tǒng)。 SKY ENGINE 人工智能平臺可以使用一個專有的、專用的模擬系統(tǒng)生成數(shù)據(jù),在這個系統(tǒng)中,圖像已經(jīng)經(jīng)過注釋,可以進行深入學習。
輸出數(shù)據(jù)流可以包括以下任一項:
所選模式中的渲染圖像或其他模擬傳感器數(shù)據(jù)
對象邊界框
三維邊界框
語義遮罩
二維或三維骨架
深度貼圖
法向量映射
天空引擎人工智能還包括先進的領域適應算法,可以了解真實數(shù)據(jù)的特點的例子。它們保證了推理過程中任何經(jīng)過訓練的人工智能模型的高質(zhì)量性能。
圖 1 天空引擎 AI 平臺用戶界面預覽。
天空引擎模擬系統(tǒng)支持物理驅(qū)動的傳感器模擬(相機、熱視覺、紅外、激光雷達、雷達等) 傳感器數(shù)據(jù)融合。它與深度學習管道緊密結(jié)合,以確保進化。在訓練過程中,天空引擎人工智能可以發(fā)現(xiàn)模糊的情況,從而降低人工智能模型的準確性。它可以獲得更多的圖像數(shù)據(jù)來反映那些深層次學習精度可以瞬間提高的問題情境。天空引擎 AI 通過每一個執(zhí)行的實驗學到了更多。
天空引擎 AI 提供了一個完全實現(xiàn)、測試和優(yōu)化的深度神經(jīng)網(wǎng)絡花園。提供的模型專用于流行的計算機視覺任務,如目標檢測和語義分割。它們還可以作為更復雜的拓撲結(jié)構(gòu),用于三維位置和姿態(tài)估計、三維幾何推理或表示學習。
天空引擎人工智能還包括先進的領域適應算法,可以了解實際數(shù)據(jù)的特點,并確保訓練模型推理的性能。天空引擎 AI 不需要復雜的渲染和成像知識,因此入門門檻非常低。它有一個 Python API ,包括大量的幫助程序來快速構(gòu)建和配置環(huán)境。
神經(jīng)網(wǎng)絡優(yōu)化
SKY ENGINE AI 平臺可以生成數(shù)據(jù)集,并支持深度學習模型的培訓,該模型可以使用來自任何來源的輸入數(shù)據(jù)。在 NVIDIA TLT 和 AI 驅(qū)動推理中訓練 AI 模型的輸入流可以有效地包括使用智能手機獲得的低質(zhì)量圖像、來自 CCTV 攝像機或安裝在無人機上的攝像機的數(shù)據(jù)。
您可以在云上部署用于電信網(wǎng)絡性能優(yōu)化的分析模塊,包括數(shù)據(jù)存儲和多 GPU 擴展。在這個領域,大多數(shù)由機器學習驅(qū)動的軟件項目都無法達到解決方案部署的最后階段。這可能是因為機器學習能力高度依賴于輸入數(shù)據(jù)的質(zhì)量。 SKY ENGINE 提供的人工智能模型的開發(fā)以及對合成數(shù)據(jù)的深入培訓,是一個具有可預測的項目開發(fā)和在多個工業(yè)業(yè)務流程中保證部署的解決方案。
電信設備檢測與分類
計算機視覺的一個常見任務是對感興趣的設備進行定位和分類。在這篇文章中,我提出了一個基于 MaskRCNN 的 NVIDIA TLT 環(huán)境的神經(jīng)網(wǎng)絡優(yōu)化過程,用于電信塔天線實例的包圍盒定位。你使用來自天空引擎 AI 的合成數(shù)據(jù)來訓練 MaskRCNN 模型。高層工作流程如下:
生成帶注釋的合成數(shù)據(jù)。
根據(jù) NVIDIA TLT-MaskRCNN 模型的要求將數(shù)據(jù)格式轉(zhuǎn)換為 COCO 。
配置 NGC 環(huán)境和數(shù)據(jù)預處理。
在合成數(shù)據(jù)上訓練和評估 MaskRCNN 模型。
使用訓練好的人工智能模型對合成和真實的電信塔進行推理。
給出了電信塔的真實示例,我使用 SE 呈現(xiàn)引擎創(chuàng)建了一個帶注釋的合成數(shù)據(jù)集。
要使用 SKY ENGINE AI 啟動標記數(shù)據(jù)的自動生成并準備數(shù)據(jù)源對象,必須定義基本工具(如空渲染器上下文)以及合成場景資源所在的路徑。
在這個渲染場景中,我隨機化了以下內(nèi)容:
給定電信塔上天線的數(shù)目
光的方向
攝像機的位置
攝像機的水平視野
背景圖
在許多項目中, SKY 引擎返回的樣本洗牌不夠。一個例子是渲染過程遵循攝影機軌跡。因此,我建議在將數(shù)據(jù)劃分為訓練集和測試集之前對其進行額外的洗牌。
生成圖像后,利用 SKY 引擎的數(shù)據(jù)輸出模塊將圖像轉(zhuǎn)換為 COCO 格式。這是 NVIDIA TLT 框架所要求的。根據(jù)文檔準備好配置文件后,可以使用 TensorFlow 后端運行 TLT 預訓練掩碼 RCNN 模型的培訓:
!tlt mask_rcnn train -e $SPECS_DIR/maskrcnn_train_telco_resnet50.txt \ -d $USER_EXPERIMENT_DIR/experiment_telco_anchors \ -k $KEY \ --gpus1
最后一步,運行一個經(jīng)過訓練的深度學習模型,對真實數(shù)據(jù)進行推理,以查看該模型是否準確地執(zhí)行了感興趣的任務。
!tlt mask_rcnn inference -i $DATA_DIR/valid_images \ -o $USER_EXPERIMENT_DIR/se_telco_maskrcnn_inference_synth \ -e $SPECS_DIR/maskrcnn_train_telco_resnet50.txt \ -m $USER_EXPERIMENT_DIR/experiment_telco_anchors/model.step-20000.tlt \ -l $SPECS_DIR/telco_labels.txt \ -t 0.5 \ -b 1 \ -k $KEY \ --include_mask
概括
在本文中,我演示了如何使用 SKY ENGINE 的合成數(shù)據(jù),并使用 NVIDIA TLT 對其進行訓練和優(yōu)化,從而減少數(shù)據(jù)收集和注釋工作。我提出了一個用于電信行業(yè)的單天空引擎人工智能用例。
關(guān)于作者
Jakub Pietrzak 是 Sky Engine AI 的首席技術(shù)官。他負責 GPU 加速研究、數(shù)據(jù)科學和機器學習算法開發(fā)。他是一名計算機視覺魔術(shù)師,在機器學習、光線跟蹤和數(shù)字圖像處理方面有 15 年以上的經(jīng)驗。 Jakub 曾為歐洲最大的電影制片廠開發(fā)深度學習動力運動捕捉系統(tǒng),并參與了華沙腫瘤中心的醫(yī)學影像研究項目。他的博士學位。 Jakub 探索了在合成數(shù)據(jù)上訓練神經(jīng)網(wǎng)絡的思想,以及虛擬現(xiàn)實中機器學習問題的再創(chuàng)造。
審核編輯:郭婷
-
神經(jīng)網(wǎng)絡
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103507 -
人工智能
+關(guān)注
關(guān)注
1806文章
48987瀏覽量
249103 -
機器學習
+關(guān)注
關(guān)注
66文章
8501瀏覽量
134548
發(fā)布評論請先 登錄
51Sim利用NVIDIA Cosmos提升輔助駕駛合成數(shù)據(jù)場景的泛化性
大模型時代的新燃料:大規(guī)模擬真多風格語音合成數(shù)據(jù)集
技術(shù)分享 | 高逼真合成數(shù)據(jù)助力智駕“看得更準、學得更快”

DevEco Studio AI輔助開發(fā)工具兩大升級功能 鴻蒙應用開發(fā)效率再提升
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應手
英偉達GTC2025亮點 NVIDIA推出Cosmos世界基礎模型和物理AI數(shù)據(jù)工具的重大更新
技術(shù)分享 | AVM合成數(shù)據(jù)仿真驗證方案

FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......
DeepSeek大模型受行業(yè)熱捧,加速AI應用迭代
AI開發(fā)平臺模型怎么用
英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數(shù)據(jù)問題

NVIDIA推出加速物理AI開發(fā)的Cosmos世界基礎模型
NVIDIA發(fā)布Cosmos?平臺,助力物理AI系統(tǒng)發(fā)展
AI大語言模型開發(fā)步驟
如何使用OpenUSD構(gòu)建支持生成式AI的合成數(shù)據(jù)工作流

評論