一、開源
MogFace: Towards a Deeper Appreciation on Face Detection
1. 論文鏈接:
https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_MogFace_Towards_a_Deeper_Appreciation_on_Face_Detection_CVPR_2022_paper.pdf
2. 代碼模型:
https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
3. 可玩應(yīng)用:
https://modelscope.cn/studios/baigui/face_album/summary
二、背景
人臉檢測算法是在一幅圖片或者視頻序列中檢測出來人臉的位置,給出人臉的具體坐標(biāo),一般是矩形坐標(biāo)。它是人臉關(guān)鍵點(diǎn)、屬性、編輯、風(fēng)格化、識別等模塊的基礎(chǔ)。本文通過實(shí)驗(yàn)觀察發(fā)現(xiàn),對應(yīng)設(shè)計(jì)出如下三個(gè)模塊構(gòu)建出一個(gè)高性能的人臉檢測器MogFace:1.)動態(tài)標(biāo)簽分配策略(dynamic label assignment),2.)誤檢上下文相關(guān)性分析(FP context analysis),3.)金字塔層級監(jiān)督信號分配(pyramid layer level GT assignment)。該方法的模型在WIDER FACE榜單上取得了截止目前將近兩年的六項(xiàng)第一。
三、觀察
1.1 動態(tài)標(biāo)簽分配策略(dynamic label assignment)
為每個(gè)anchor點(diǎn)定義cls和reg目標(biāo)是訓(xùn)練檢測器的必要過程,在人臉檢測中這個(gè)過程稱之為標(biāo)簽分配(Label Assignment)。最近,標(biāo)簽分配吸引了諸多研究人員的注意,在人臉檢測及通用物體檢測領(lǐng)域提出了一系列方法,例如:OTA、PAA,ATSS以及HAMBox。如示例圖(a),標(biāo)簽分配過程依賴4個(gè)元素。分別是:1.)offline information: a.)IoU (anchor與ground-truth框的IoU) , b.)CPD (anchor與ground-truth中心點(diǎn)的距離) ,2.)online information: a.)PCS (cls分支對anchor的前景分類概率值) ,b.)PLC (reg分支對anchor的預(yù)測坐標(biāo)值)。
但是,目前的標(biāo)簽分配方法存在三個(gè)問題。1.)若只用offline information做靜態(tài)標(biāo)簽分配,那么會有很多具備更強(qiáng)回歸能力的negative anchor無法被有效利用起來,會導(dǎo)致標(biāo)簽分配策略欠飽和。2.)若過度信任online information動態(tài)調(diào)整正負(fù)anchor時(shí)(如OTA和Hambox),由于online information屬于預(yù)測信息可信度不高,會導(dǎo)致標(biāo)簽分配策略錯(cuò)誤多, 極端情況下會陷入trivial 的分配結(jié)果。3.) 若引入大量超參 (K in ATSS, alpha in OTA)做標(biāo)簽分配,則當(dāng)數(shù)據(jù)集分布發(fā)生變化時(shí),需要大量的調(diào)參時(shí)間。
1.2 誤檢上下文相關(guān)性分析(FP context analysis)
在實(shí)際應(yīng)用中,人臉檢測器并不會十分care AP的指標(biāo),而對誤檢(false positive [FP])的數(shù)量十分敏感。針對這個(gè)問題,目前的做法是收集大量帶有FP的圖片去fine-tune或者from scratch訓(xùn)練檢測器,來幫助檢測器了解更多范式的FP,但是我們發(fā)現(xiàn)有些頻繁出現(xiàn)在訓(xùn)練集中的的FP在這種策略下無法有效解決。這篇文章,我們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:對于同一個(gè)FP,當(dāng)它的context發(fā)生變化時(shí),對于同一個(gè)檢測器來說它可能就不是FP了。如下圖(c),最左面的圖片里日歷是FP,剩余兩張日歷都不是FP。
1.3 金字塔層級監(jiān)督信號分配(pyramid layer level GT assignment)
scale-level 數(shù)據(jù)增強(qiáng)策略常常作通用物體檢測以及人臉檢測中解決scale variance主要手段。如圖(b)所示,相對于COCO,人臉檢測數(shù)據(jù)集Wider Face 中人臉的尺度分布更為嚴(yán)峻。為此,我們分提出了一個(gè)新的問題,如何合理的分配ground-truth 在不同pyramidlayer上的分布?即檢測器的性能與每個(gè)pyramidlayer匹配ground-truth的個(gè)數(shù)之間的關(guān)系是什么?是否越多越好?通過嚴(yán)格的對比實(shí)驗(yàn)我們發(fā)現(xiàn):“對于所有的pyramid layer來說,并不是這個(gè)pyramid layer匹配到越多的ground-truth就越好”。這說明要挖掘每一個(gè)pyramidlayer的最好性能,需要控制在這個(gè)pyramidlayer上的ground-truth分配的比例。
四、方法
2.1 Adaptive Online Incremental Anchor Mining Strategy (Ali-AMS)
針對上述“動態(tài)標(biāo)簽分配策略(dynamic label assignment)”觀察分析,本文提出了在里面一種自適應(yīng)的在線增量錨挖掘策略(Ali-AMS),它基于standard anchor matching 策略,并進(jìn)一步adaptive 幫助outlier face匹配anchor。如下:
2.2 Hierachical Context-Aware Module (HCAM)
基于上述“誤檢上下文相關(guān)性分析(FP context analysis)”觀察分析,發(fā)現(xiàn)“對于同一個(gè)FP,當(dāng)它的context發(fā)生變化時(shí),對于同一個(gè)檢測器來說他可能就不是FP了”,我們進(jìn)一步提出了一個(gè)two-step的模塊來顯示的encode context 信息來幫助區(qū)分FP和TP,顯著減少了FP的數(shù)量。
2.3 Selective Scale Enhancement Strategy (SSE)
基于上述的“金字塔層級監(jiān)督信號分配(pyramid layer level GT assignment)”觀察分析,發(fā)現(xiàn)“對于所有的pyramid layer來說,并不是這個(gè)pyramid layer匹配到越多的ground-truth就越好”,我們提出通過控制pyramid layer 匹配的ground-truth的數(shù)量來最大化pyramid layer 的性能。
五、實(shí)驗(yàn)
3.1 Ablation Study
3.2 Comparison with sota
審核編輯 :李倩
-
模塊
+關(guān)注
關(guān)注
7文章
2788瀏覽量
50397 -
檢測器
+關(guān)注
關(guān)注
1文章
894瀏覽量
48697 -
檢測算法
+關(guān)注
關(guān)注
0文章
122瀏覽量
25500
原文標(biāo)題:WIDER FACE六項(xiàng)第一!阿里達(dá)摩院提出MogFace:人臉檢測新工作 | CVPR 2022
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
阿里巴巴達(dá)摩院劉志偉:QEMU RISC-V 的進(jìn)展、特性與未來規(guī)劃
【Milk-V Duo S 開發(fā)板免費(fèi)體驗(yàn)】人臉檢測測試(視頻)
【HarmonyOS 5】VisionKit人臉活體檢測詳解

基于RV1126開發(fā)板實(shí)現(xiàn)人臉檢測方案

基于RV1126開發(fā)板實(shí)現(xiàn)人臉檢測方案

基于RV1126開發(fā)板實(shí)現(xiàn)人臉檢測方案

基于RV1126開發(fā)板實(shí)現(xiàn)人臉檢測方案

RV1126 實(shí)現(xiàn)人臉檢測方案

評論