2018年,在微軟(Microsoft Build)一架無人機飛過管道,檢查管道是否有泄漏或其他損壞。值得注意的是,無人機的視覺檢查模型使用實際數(shù)據(jù)和模擬數(shù)據(jù)進行了訓練。使用合成數(shù)據(jù)幫助機器學習模型了解異常值,讓微軟的研究人員能夠更快地訓練這款模型,且不需要像其他情況下那樣在進行數(shù)據(jù)采集飛行上花費很多。
如今,這項技術終于開始普及了。今年4月,一家初創(chuàng)公司為其合成傳感器數(shù)據(jù)籌集到337萬美元,而另一家初創(chuàng)公司發(fā)表了一篇關于如何使用模擬數(shù)據(jù)訓練模型來識別機場跑道上的飛機的論文。
談到機器學習項目時,殼牌首席數(shù)據(jù)科學家丹·杰文斯對使用模擬數(shù)據(jù)感到非常興奮,因為它有助于構建模型的同時還可以檢測一些少見的問題。他說:“我認為這是一種非常有趣的方法,可以獲取我們正在努力解決的有關邊緣案例的信息。盡管我們有很多數(shù)據(jù),但同時我們也面臨重大問題是,那就是,我們通常對于要發(fā)現(xiàn)的問題,我們只有很少的例子來支持。
在石油行業(yè),工廠和管道的腐蝕是巨大的挑戰(zhàn),因為它可能導致災難性的故障。企業(yè)會小心翼翼不讓任何東西腐蝕管道,但這也意味著機器學習模型不能用于現(xiàn)實世界的腐蝕實例。因此,他們使用合成數(shù)據(jù)來提供幫助。例如,殼牌公司也在使用合成數(shù)據(jù),試圖解決人們在加油站吸煙的問題。因為攝像機并不總能捕捉到吸煙者的畫面,有時候離得太遠或者沒有面對攝像頭,所以在這個研究中并沒有很多現(xiàn)成的案例;因此,公司努力將模擬合成數(shù)據(jù)與真實數(shù)據(jù)結合起來,建立計算機視覺模型?!拔覀兏信d趣的幾乎總是‘邊緣案例’,不是一般的標準,而且容易檢測到與標準圖案不符的邊緣,很難檢測出想要的具體內(nèi)容?!?/p>
與此同時,另外一家AI公司也在試圖了解更多關于合成數(shù)據(jù)的準確性。該公司發(fā)表的論文《稀有飛機:合成數(shù)據(jù)起飛》闡述了研究人員如何將停放在機場的飛機的衛(wèi)星圖像與機器生成的合成數(shù)據(jù)相結合。當僅使用合成數(shù)據(jù)時,該模型的準確率只有55%左右,而當僅使用真實數(shù)據(jù)時準確率則躍升至73%。但是通過將訓練樣本的10%作為真實數(shù)據(jù),其余部分使用合成數(shù)據(jù),模型的準確率達到了69%。
人工智能專家認為合成數(shù)據(jù)將成為大生意。使用這些數(shù)據(jù)的公司需要考慮到他們的假數(shù)據(jù)可能會扭曲模型,但如果他們能做到這一點,他們就能以比依賴真實數(shù)據(jù)更快、更低的成本獲得強健的模型。
因此,即使物聯(lián)網(wǎng)傳感器正在釋放數(shù)拍字節(jié)級別的數(shù)據(jù),也不可能對所有數(shù)據(jù)進行注釋并將其用于訓練模型。因為這些數(shù)據(jù)可能并不是你真正想要計算機尋找的情況。換言之,預計合成和模擬數(shù)據(jù)的浪潮將繼續(xù)到來。
-
人工智能
+關注
關注
1806文章
49028瀏覽量
249528 -
合成
+關注
關注
0文章
16瀏覽量
13872 -
大模擬數(shù)據(jù)
+關注
關注
0文章
2瀏覽量
5380
發(fā)布評論請先 登錄
破解數(shù)據(jù)瓶頸:智能汽車合成數(shù)據(jù)架構與應用實踐

是否可以在數(shù)據(jù)和電源中使用Cypd2122作為DRP?
大模型時代的新燃料:大規(guī)模擬真多風格語音合成數(shù)據(jù)集
技術分享 | AVM合成數(shù)據(jù)仿真驗證方案

評論