一、開源
MogFace: Towards a Deeper Appreciation on Face Detection
1. 論文鏈接:
https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_MogFace_Towards_a_Deeper_Appreciation_on_Face_Detection_CVPR_2022_paper.pdf
2. 代碼模型:
https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
3. 可玩應(yīng)用:
https://modelscope.cn/studios/baigui/face_album/summary
二、背景
人臉檢測算法是在一幅圖片或者視頻序列中檢測出來人臉的位置,給出人臉的具體坐標,一般是矩形坐標。它是人臉關(guān)鍵點、屬性、編輯、風格化、識別等模塊的基礎(chǔ)。本文通過實驗觀察發(fā)現(xiàn),對應(yīng)設(shè)計出如下三個模塊構(gòu)建出一個高性能的人臉檢測器MogFace:1.)動態(tài)標簽分配策略(dynamic label assignment),2.)誤檢上下文相關(guān)性分析(FP context analysis),3.)金字塔層級監(jiān)督信號分配(pyramid layer level GT assignment)。該方法的模型在WIDER FACE榜單上取得了截止目前將近兩年的六項第一。
三、觀察
1.1 動態(tài)標簽分配策略(dynamic label assignment)
為每個anchor點定義cls和reg目標是訓(xùn)練檢測器的必要過程,在人臉檢測中這個過程稱之為標簽分配(Label Assignment)。最近,標簽分配吸引了諸多研究人員的注意,在人臉檢測及通用物體檢測領(lǐng)域提出了一系列方法,例如:OTA、PAA,ATSS以及HAMBox。如示例圖(a),標簽分配過程依賴4個元素。分別是:1.)offline information: a.)IoU (anchor與ground-truth框的IoU) , b.)CPD (anchor與ground-truth中心點的距離) ,2.)online information: a.)PCS (cls分支對anchor的前景分類概率值) ,b.)PLC (reg分支對anchor的預(yù)測坐標值)。
但是,目前的標簽分配方法存在三個問題。1.)若只用offline information做靜態(tài)標簽分配,那么會有很多具備更強回歸能力的negative anchor無法被有效利用起來,會導(dǎo)致標簽分配策略欠飽和。2.)若過度信任online information動態(tài)調(diào)整正負anchor時(如OTA和Hambox),由于online information屬于預(yù)測信息可信度不高,會導(dǎo)致標簽分配策略錯誤多, 極端情況下會陷入trivial 的分配結(jié)果。3.) 若引入大量超參 (K in ATSS, alpha in OTA)做標簽分配,則當數(shù)據(jù)集分布發(fā)生變化時,需要大量的調(diào)參時間。
1.2 誤檢上下文相關(guān)性分析(FP context analysis)
在實際應(yīng)用中,人臉檢測器并不會十分care AP的指標,而對誤檢(false positive [FP])的數(shù)量十分敏感。針對這個問題,目前的做法是收集大量帶有FP的圖片去fine-tune或者from scratch訓(xùn)練檢測器,來幫助檢測器了解更多范式的FP,但是我們發(fā)現(xiàn)有些頻繁出現(xiàn)在訓(xùn)練集中的的FP在這種策略下無法有效解決。這篇文章,我們發(fā)現(xiàn)了一個有趣的現(xiàn)象:對于同一個FP,當它的context發(fā)生變化時,對于同一個檢測器來說它可能就不是FP了。如下圖(c),最左面的圖片里日歷是FP,剩余兩張日歷都不是FP。
1.3 金字塔層級監(jiān)督信號分配(pyramid layer level GT assignment)
scale-level 數(shù)據(jù)增強策略常常作通用物體檢測以及人臉檢測中解決scale variance主要手段。如圖(b)所示,相對于COCO,人臉檢測數(shù)據(jù)集Wider Face 中人臉的尺度分布更為嚴峻。為此,我們分提出了一個新的問題,如何合理的分配ground-truth 在不同pyramidlayer上的分布?即檢測器的性能與每個pyramidlayer匹配ground-truth的個數(shù)之間的關(guān)系是什么?是否越多越好?通過嚴格的對比實驗我們發(fā)現(xiàn):“對于所有的pyramid layer來說,并不是這個pyramid layer匹配到越多的ground-truth就越好”。這說明要挖掘每一個pyramidlayer的最好性能,需要控制在這個pyramidlayer上的ground-truth分配的比例。
四、方法
2.1 Adaptive Online Incremental Anchor Mining Strategy (Ali-AMS)
針對上述“動態(tài)標簽分配策略(dynamic label assignment)”觀察分析,本文提出了在里面一種自適應(yīng)的在線增量錨挖掘策略(Ali-AMS),它基于standard anchor matching 策略,并進一步adaptive 幫助outlier face匹配anchor。如下:
2.2 Hierachical Context-Aware Module (HCAM)
基于上述“誤檢上下文相關(guān)性分析(FP context analysis)”觀察分析,發(fā)現(xiàn)“對于同一個FP,當它的context發(fā)生變化時,對于同一個檢測器來說他可能就不是FP了”,我們進一步提出了一個two-step的模塊來顯示的encode context 信息來幫助區(qū)分FP和TP,顯著減少了FP的數(shù)量。
2.3 Selective Scale Enhancement Strategy (SSE)
基于上述的“金字塔層級監(jiān)督信號分配(pyramid layer level GT assignment)”觀察分析,發(fā)現(xiàn)“對于所有的pyramid layer來說,并不是這個pyramid layer匹配到越多的ground-truth就越好”,我們提出通過控制pyramid layer 匹配的ground-truth的數(shù)量來最大化pyramid layer 的性能。
五、實驗
3.1 Ablation Study
3.2 Comparison with sota
審核編輯 :李倩
-
模塊
+關(guān)注
關(guān)注
7文章
2773瀏覽量
49122 -
檢測器
+關(guān)注
關(guān)注
1文章
882瀏覽量
48300 -
檢測算法
+關(guān)注
關(guān)注
0文章
121瀏覽量
25407
原文標題:WIDER FACE六項第一!阿里達摩院提出MogFace:人臉檢測新工作 | CVPR 2022
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于RV1126開發(fā)板實現(xiàn)人臉檢測方案

基于RV1126開發(fā)板實現(xiàn)人臉檢測方案

基于RV1126開發(fā)板實現(xiàn)人臉檢測方案

基于RV1126開發(fā)板實現(xiàn)人臉檢測方案

評論