Q
我在向客戶(hù)介紹如何使用AI方法設(shè)計(jì)一款客戶(hù)產(chǎn)品時(shí),客戶(hù)理解,AI嵌入式項(xiàng)目的開(kāi)發(fā)都是圍繞數(shù)據(jù)展開(kāi)的,如此,我經(jīng)常會(huì)被問(wèn)到這樣的問(wèn)題:客戶(hù)的工程師需要采集多少數(shù)據(jù),才能形成合適的樣本集,進(jìn)而開(kāi)始訓(xùn)練模型呢?
此時(shí),回答“按需提供”或者“先試試看”似乎會(huì)變成一句車(chē)轱轆話(huà),看似回答了問(wèn)題,但客戶(hù)還是無(wú)從下手。
AI數(shù)據(jù)樣本的三個(gè)原則
這里,我以教孩子認(rèn)識(shí)蘋(píng)果和鴨梨為例進(jìn)行說(shuō)明。假設(shè)一個(gè)小孩子不認(rèn)識(shí)蘋(píng)果和鴨梨,在對(duì)真正的水果和鴨梨做判斷之前,我們只有一些蘋(píng)果和鴨梨的圖片可供孩子學(xué)習(xí),此時(shí)可以做類(lèi)比:
孩子用來(lái)記憶知識(shí)的大腦就是AI
預(yù)先準(zhǔn)備好的圖片就是樣本
通過(guò)照片學(xué)習(xí)的過(guò)程就是訓(xùn)練
脫離照片之后真的在一推水果里能挑選出蘋(píng)果和鴨梨的過(guò)程,就是推理過(guò)程。
好了,我們開(kāi)始分析。
合適的AI數(shù)據(jù)集中的樣本數(shù)據(jù),需要滿(mǎn)足如下的三個(gè)原則:
獨(dú)立性。在訓(xùn)練的初期,盡量選擇用正常的蘋(píng)果鴨梨的照片給孩子用于學(xué)習(xí),盡量避免使用各種畸形或者怪異的樣本影響孩子的第一印象。如果客觀存在似是而非的情況,我們甚至可以專(zhuān)門(mén)為這些特殊的樣本設(shè)計(jì)第三個(gè)分類(lèi)“不確定”,從而避免對(duì)正常樣本的判斷。
平衡性。在提供樣本數(shù)量上,盡量讓不同分類(lèi)的樣本平均分配,例如,如果提供100張?zhí)O果和100張鴨梨的照片,孩子能夠公平地對(duì)蘋(píng)果和鴨梨都建立相當(dāng)?shù)挠∠?。但如果?00張?zhí)O果和1張鴨梨的照片提供給孩子學(xué)習(xí),孩子對(duì)蘋(píng)果的印象更加深刻而忽略掉那唯一的一張鴨梨的照片。在實(shí)際判別時(shí),也會(huì)更傾向于將他看到的任何類(lèi)似的水果判定為蘋(píng)果。
顯著統(tǒng)計(jì)性。由于樣本是人工或者外力參與標(biāo)定的,在反應(yīng)客觀規(guī)律的時(shí)候,也可能存在系統(tǒng)偏差,出現(xiàn)少量的異常,或者在信號(hào)分析的領(lǐng)域里稱(chēng)為“噪聲點(diǎn)”。因此,在用于訓(xùn)練AI模型之前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的環(huán)節(jié),也會(huì)利用統(tǒng)計(jì)學(xué)規(guī)律對(duì)數(shù)據(jù)進(jìn)行初步篩選,例如,使用正態(tài)分布的規(guī)律,對(duì)某一分類(lèi)下的所有樣本中,遠(yuǎn)離平均水平(明顯不靠譜)的數(shù)據(jù)剔除,否則在后期訓(xùn)練中容易出現(xiàn)“過(guò)擬合”的情況,從而導(dǎo)致最終訓(xùn)練的AI模型的規(guī)模異常增大,并且也有可能偏離實(shí)際的規(guī)律。
在具體實(shí)踐過(guò)程中,需要系統(tǒng)專(zhuān)家設(shè)計(jì)好標(biāo)定環(huán)境,需要人工標(biāo)注樣本數(shù)據(jù)的分類(lèi),相當(dāng)于,先為測(cè)試考核提供提供參考答案。這涉及到硬件電路系統(tǒng)和軟件工具鏈的搭建工作。
然后,在滿(mǎn)足這三個(gè)的基礎(chǔ)上,可以根據(jù)實(shí)際情況采集少量樣本。實(shí)際上,嵌入式系統(tǒng)的數(shù)據(jù)量通常都比較大產(chǎn)生速度也比較快,例如,在使用AI方法在拉弧檢測(cè)的應(yīng)用中,使用500KSps的ADC采樣率,每秒鐘就可以采集到一條包含50萬(wàn)個(gè)數(shù)據(jù)點(diǎn)的,而用于判定拉弧的采樣窗口大多在1ms以?xún)?nèi),500個(gè)采樣點(diǎn)就可以構(gòu)成一個(gè)標(biāo)定為“有拉弧”或者“無(wú)拉弧”的樣本,如果不考慮窗口重疊的情況,每秒鐘就至少可以產(chǎn)生1千條樣本。如此可以看出,在初期很容易獲得數(shù)量相當(dāng)?shù)臉颖尽?/p>
之后,算法工程師使用獲取的樣本集構(gòu)建AI模型并訓(xùn)練,試著描述樣本數(shù)據(jù)的規(guī)律,通過(guò)分析模型的訓(xùn)練結(jié)果(例如準(zhǔn)確率、推理時(shí)間等性能),對(duì)進(jìn)一步采集數(shù)據(jù)提供指導(dǎo)。
如此反復(fù)多次,直到AI模型的準(zhǔn)確率、性能等指標(biāo)達(dá)到預(yù)期,即可收斂。
通過(guò)迭代摸索數(shù)據(jù)的門(mén)道
所以,簡(jiǎn)而言之的回答,還是“先采集數(shù)據(jù),試試看訓(xùn)練模型,然后逐漸摸索出門(mén)道,在循環(huán)迭代的過(guò)程中完善數(shù)據(jù)集,最終達(dá)到產(chǎn)品要求即可”。
-
嵌入式AI
+關(guān)注
關(guān)注
0文章
36瀏覽量
1170 -
AI大模型
+關(guān)注
關(guān)注
0文章
376瀏覽量
618
原文標(biāo)題:嵌入式AI技術(shù)漫談——為訓(xùn)練AI模型采集樣本數(shù)據(jù)
文章出處:【微信號(hào):瑞薩MCU小百科,微信公眾號(hào):瑞薩MCU小百科】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
評(píng)論