一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

圍繞計(jì)算機(jī)視覺(jué)領(lǐng)域的八大任務(wù),進(jìn)行了較為詳細(xì)的綜述

電子工程師 ? 來(lái)源:lp ? 2019-04-01 10:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:

來(lái)自百度的深度學(xué)習(xí)工程師,圍繞計(jì)算機(jī)視覺(jué)領(lǐng)域的八大任務(wù),包括:圖像分類、目標(biāo)檢測(cè)、圖像語(yǔ)義分割、場(chǎng)景文字識(shí)別、圖像生成、人體關(guān)鍵點(diǎn)檢測(cè)、視頻分類、度量學(xué)習(xí)等,進(jìn)行了較為詳細(xì)的綜述并形成此文。

這篇綜述中,介紹了這些任務(wù)的基本情況,以及目前的技術(shù)進(jìn)展、主要的模型和性能對(duì)比等。而且還逐一附上了GitHub傳送門,用于更進(jìn)一步的學(xué)習(xí)與安裝實(shí)踐指南。其中不少教程還是用中文寫成,非常友好。

總之,這篇綜述全程干貨,推薦收藏閱讀。

上篇

計(jì)算機(jī)視覺(jué)(Computer Vision)是研究如何使機(jī)器“看”的科學(xué),更進(jìn)一步的說(shuō),是使用攝像機(jī)機(jī)和電腦代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別、跟蹤和測(cè)量等的機(jī)器視覺(jué),并通過(guò)電腦處理成為更適合人眼觀察或傳送給儀器檢測(cè)的圖像。

形象地說(shuō),就是給計(jì)算機(jī)安裝上眼睛(攝像機(jī))和大腦(算法),讓計(jì)算機(jī)像人一樣去看、去感知環(huán)境。計(jì)算機(jī)視覺(jué)技術(shù)作為人工智能的重要核心技術(shù)之一,已廣泛應(yīng)用于安防、金融、硬件、營(yíng)銷、駕駛、醫(yī)療等領(lǐng)域。本文上篇中,我們將介紹基于PaddlePaddle的四種計(jì)算機(jī)視覺(jué)技術(shù)及其相關(guān)的深度學(xué)習(xí)模型。

一、圖像分類

圖像分類是根據(jù)圖像的語(yǔ)義信息對(duì)不同類別圖像進(jìn)行區(qū)分,是計(jì)算機(jī)視覺(jué)中重要的基礎(chǔ)問(wèn)題,是物體檢測(cè)、圖像分割、物體跟蹤、行為分析、人臉識(shí)別等其他高層視覺(jué)任務(wù)的基礎(chǔ)。

圖像分類在許多領(lǐng)域都有著廣泛的應(yīng)用。如:安防領(lǐng)域的人臉識(shí)別和智能視頻分析等,交通領(lǐng)域的交通場(chǎng)景識(shí)別,互聯(lián)網(wǎng)領(lǐng)域基于內(nèi)容的圖像檢索和相冊(cè)自動(dòng)歸類,醫(yī)學(xué)領(lǐng)域的圖像識(shí)別等。

得益于深度學(xué)習(xí)的推動(dòng),圖像分類的準(zhǔn)確率大幅度提升。在經(jīng)典的數(shù)據(jù)集ImageNet上,訓(xùn)練圖像分類任務(wù)常用的模型,包括AlexNet、VGG、GoogLeNet、ResNet、Inception-v4、MobileNet、MobileNetV2、DPN(Dual Path Network)、SE-ResNeXt、ShuffleNet等。

△AlexNet

△VGG

△GoogLeNet

△ResNet

△Inception-v4

△MobileNet

△SE-ResNeXt

△ShuffleNet

模型的結(jié)構(gòu)和復(fù)雜程度都不一樣,最終得到的準(zhǔn)確率也有所區(qū)別。下面這個(gè)表格中,列出了在ImageNet 2012數(shù)據(jù)集上,不同模型的top-1/top-5驗(yàn)證準(zhǔn)確率。

△圖像分類系列模型評(píng)估結(jié)果

在我們的GitHub頁(yè)面上,提供上述與訓(xùn)練模型的下載。以及詳細(xì)介紹了如何使用PaddlePaddle Fluid進(jìn)行圖像分類任務(wù)。包括安裝、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、評(píng)估等等全部過(guò)程。還有將Caffe模型轉(zhuǎn)換為PaddlePaddle Fluid模型配置和參數(shù)文件的工具。

上述頁(yè)面的傳送門在此:

https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleCV/image_classification

二、目標(biāo)檢測(cè)

目標(biāo)檢測(cè)任務(wù)的目標(biāo)是給定一張圖像或是一個(gè)視頻幀,讓計(jì)算機(jī)找出其中所有目標(biāo)的位置,并給出每個(gè)目標(biāo)的具體類別。

對(duì)于人類來(lái)說(shuō),目標(biāo)檢測(cè)是一個(gè)非常簡(jiǎn)單的任務(wù)。然而,計(jì)算機(jī)能夠“看到”的是圖像被編碼之后的數(shù)字,很難解圖像或是視頻幀中出現(xiàn)了人或是物體這樣的高層語(yǔ)義概念,也就更加難以定位目標(biāo)出現(xiàn)在圖像中哪個(gè)區(qū)域。

與此同時(shí),由于目標(biāo)會(huì)出現(xiàn)在圖像或是視頻幀中的任何位置,目標(biāo)的形態(tài)千變?nèi)f化,圖像或是視頻幀的背景千差萬(wàn)別,諸多因素都使得目標(biāo)檢測(cè)對(duì)計(jì)算機(jī)來(lái)說(shuō)是一個(gè)具有挑戰(zhàn)性的問(wèn)題。

在目標(biāo)檢測(cè)任務(wù)中,我們主要介紹如何基于PASCAL VOC、MS COCO數(shù)據(jù)訓(xùn)練通用物體檢測(cè)模型,包括SSD模型、PyramidBox模型、R-CNN模型。

?SSD模型,Single Shot MultiBox Detector,是一種單階段的目標(biāo)檢測(cè)器。與兩階段的檢測(cè)方法不同,單階段目標(biāo)檢測(cè)并不進(jìn)行區(qū)域推薦,而是直接從特征圖回歸出目標(biāo)的邊界框和分類概率。SSD 運(yùn)用了這種單階段檢測(cè)的思想,并且對(duì)其進(jìn)行改進(jìn):在不同尺度的特征圖上檢測(cè)對(duì)應(yīng)尺度的目標(biāo),是目標(biāo)檢測(cè)領(lǐng)域較新且效果較好的檢測(cè)算法之一,具有檢測(cè)速度快且檢測(cè)精度高的特點(diǎn)。

△SSD目標(biāo)檢測(cè)模型結(jié)構(gòu)

△SSD目標(biāo)檢測(cè)可視化

△目標(biāo)檢測(cè)SSD模型評(píng)估結(jié)果

在GitHub上,我們更詳細(xì)的介紹了如何下載、訓(xùn)練、使用這一模型。

傳送門在此:

https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleCV/object_detection

?PyramidBox模型,百度自主研發(fā)的人臉檢測(cè)模型,是一種語(yǔ)境輔助的單次人臉檢測(cè)新方法,能夠解決在不受控制的環(huán)境中檢測(cè)小的、模糊的及部分遮擋的人臉時(shí)的問(wèn)題,模型于18年3月份在WIDER Face數(shù)據(jù)集上取得第一名。

△Pyramidbox 人臉檢測(cè)模型

△Pyramidbox 預(yù)測(cè)可視化

△PyramidBox模型評(píng)估結(jié)果

如果想進(jìn)一步了解這個(gè)模型,傳送門在此(而且是全中文指導(dǎo)):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/face_detection

?R-CNN系列模型,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)系列模型是典型的兩階段目標(biāo)檢測(cè)器,相較于傳統(tǒng)提取區(qū)域的方法,R-CNN中RPN網(wǎng)絡(luò)通過(guò)共享卷積層參數(shù)大幅提高提取區(qū)域的效率,并提出高質(zhì)量的候選區(qū)域。Faster R-CNN和Mask R-CNN是R-CNN系列的典型模型。

Faster R-CNN 區(qū)域生成網(wǎng)絡(luò)(RPN)+Fast R-CNN的實(shí)現(xiàn),將候選區(qū)域生成、特征提取、分類、位置精修統(tǒng)一到一個(gè)深度網(wǎng)絡(luò)框架,大大提高運(yùn)行速度。

Mask R-CNN在原有Faster R-CNN模型基礎(chǔ)上添加分割分支,得到掩碼結(jié)果,實(shí)現(xiàn)了掩碼和類別預(yù)測(cè)關(guān)系的解藕,是經(jīng)典的實(shí)例分割模型。

△Faster R-CNN 結(jié)構(gòu)

△Faster R-CNN 預(yù)測(cè)可視化

△Mask R-CNN結(jié)構(gòu)

△Mask R-CNN 預(yù)測(cè)可視化

△Faster R-CNN評(píng)估結(jié)果

△Mask R-CNN評(píng)估結(jié)果

同樣,如果你想進(jìn)一步學(xué)習(xí)R-CNN安裝、準(zhǔn)備、訓(xùn)練等,可以前往下面這個(gè)傳送門:

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/rcnn

三、圖像語(yǔ)義分割

圖像語(yǔ)意分割,顧名思義是將圖像像素按照表達(dá)的語(yǔ)義含義的不同進(jìn)行分組/分割。

圖像語(yǔ)義是指對(duì)圖像內(nèi)容的理解,例如,能夠描繪出什么物體在哪里做了什么事情等,分割是指對(duì)圖片中的每個(gè)像素點(diǎn)進(jìn)行標(biāo)注,標(biāo)注屬于哪一類別。近年來(lái)用在無(wú)人車駕駛技術(shù)中分割街景來(lái)避讓行人和車輛、醫(yī)療影像分析中輔助診斷等。

分割任務(wù)主要分為實(shí)例分割和語(yǔ)義分割,實(shí)例分割是物體檢測(cè)加上語(yǔ)義分割的綜合體,上文介紹的Mask R-CNN是實(shí)例分割的經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)之一。在圖像語(yǔ)義分割任務(wù)中,我們主要介紹兼顧準(zhǔn)確率和速度的ICNet,DeepLab中最新、執(zhí)行效果最好的DeepLab v3+。

?DeepLab v3+,DeepLab語(yǔ)義分割系列網(wǎng)絡(luò)的最新作,通過(guò)encoder-decoder進(jìn)行多尺度信息的融合,同時(shí)保留了原來(lái)的空洞卷積和ASSP層, 其骨干網(wǎng)絡(luò)使用了Xception模型,提高了語(yǔ)義分割的健壯性和運(yùn)行速率,在 PASCAL VOC 2012 dataset取得新的state-of-art performance,89.0mIOU。

△DeepLab v3+ 基本結(jié)構(gòu)

△DeepLab v3+ 評(píng)估結(jié)果

照例,GitHub傳送門在此(中文):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/deeplabv3%2B

?ICNet,Image Cascade Network,主要用于圖像實(shí)時(shí)語(yǔ)義分割,主要思想是將輸入圖像變換為不同的分辨率,然后用不同計(jì)算復(fù)雜度的子網(wǎng)絡(luò)計(jì)算不同分辨率的輸入,然后將結(jié)果合并。ICNet由三個(gè)子網(wǎng)絡(luò)組成,計(jì)算復(fù)雜度高的網(wǎng)絡(luò)處理低分辨率輸入,計(jì)算復(fù)雜度低的網(wǎng)絡(luò)處理分辨率高的網(wǎng)絡(luò),通過(guò)這種方式在高分辨率圖像的準(zhǔn)確性和低復(fù)雜度網(wǎng)絡(luò)的效率之間獲得平衡。

△ICNet網(wǎng)絡(luò)結(jié)構(gòu)

△ICNet可視化

△ICNet評(píng)估結(jié)果

進(jìn)一步上手實(shí)踐的傳送門在此(也是中文):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/icnet

四、場(chǎng)景文字識(shí)別

許多場(chǎng)景圖像中包含著豐富的文本信息,對(duì)理解圖像信息有著重要作用,能夠極大地幫助人們認(rèn)知和理解場(chǎng)景圖像的內(nèi)容。場(chǎng)景文字識(shí)別是在圖像背景復(fù)雜、分辨率低下、字體多樣、分布隨意等情況下,將圖像信息轉(zhuǎn)化為文字序列的過(guò)程,可認(rèn)為是一種特別的翻譯過(guò)程:將圖像輸入翻譯為自然語(yǔ)言輸出。場(chǎng)景圖像文字識(shí)別技術(shù)的發(fā)展也促進(jìn)了一些新型應(yīng)用的產(chǎn)生,如通過(guò)自動(dòng)識(shí)別路牌中的文字幫助街景應(yīng)用獲取更加準(zhǔn)確的地址信息等。

在場(chǎng)景文字識(shí)別任務(wù)中,我們介紹如何將基于CNN的圖像特征提取和基于RNN的序列翻譯技術(shù)結(jié)合,免除人工定義特征,避免字符分割,使用自動(dòng)學(xué)習(xí)到的圖像特征,完成字符識(shí)別。這里主要介紹CRNN-CTC模型和基于注意力機(jī)制的序列到序列模型。

?CRNN-CTC模型,采取CNN+RNN+CTC架構(gòu),卷積層使用CNN,從輸入圖像中提取特征序列、循環(huán)層使用RNN,預(yù)測(cè)從卷積層獲取的特征序列的標(biāo)簽(真實(shí)值)分布、轉(zhuǎn)錄層使用CTC,把從循環(huán)層獲取的標(biāo)簽分布通過(guò)去重整合等操作轉(zhuǎn)換成最終的識(shí)別結(jié)果。

?基于注意力機(jī)制的序列到序列模型,提出了基于attention機(jī)制的文本識(shí)別方法,不需要檢測(cè),直接輸入圖片進(jìn)行識(shí)別,對(duì)于識(shí)別字符類別數(shù)很少的場(chǎng)景很實(shí)用,例如車牌識(shí)別、自然場(chǎng)景圖片的主要關(guān)鍵詞提取等。同時(shí)也不要求識(shí)別文本必須單行排列,雙行排列,多行排列都可以。在訓(xùn)練過(guò)程中則不需要文本框的標(biāo)注,訓(xùn)練數(shù)據(jù)的收集變得很方便。

△CRNN-CTC模型結(jié)構(gòu)

△基于注意力機(jī)制的序列到序列模型結(jié)構(gòu)

△OCR模型評(píng)估結(jié)果

GitHub傳送門在此(中文友好):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/ocr_recognition

下篇

上篇中我們介紹了計(jì)算機(jī)視覺(jué)技術(shù)在圖像分類、目標(biāo)檢測(cè)、圖像語(yǔ)義分割、場(chǎng)景文字識(shí)別四大基本任務(wù)場(chǎng)景下,如何幫助計(jì)算機(jī)從單個(gè)或者一系列的圖片中提取分析和理解的關(guān)鍵信息。當(dāng)下,視頻在人們生活中越來(lái)越重要,伴隨著技術(shù)成熟度的提高,計(jì)算機(jī)視覺(jué)技術(shù)的突破也從靜態(tài)圖像識(shí)別的“看到”轉(zhuǎn)向了視頻理解的“看懂”。

接下來(lái),我們一起探索基于PaddlePaddle的圖像生成、人體關(guān)鍵點(diǎn)檢測(cè)、視頻分類相關(guān)的深度學(xué)習(xí)模型。

一、圖像生成

圖像生成是指根據(jù)輸入向量,生成目標(biāo)圖像。這里的輸入向量可以是隨機(jī)的噪聲或用戶指定的條件向量。具體的應(yīng)用場(chǎng)景有:手寫體生成、人臉合成、風(fēng)格遷移、圖像修復(fù)、超分重建等。當(dāng)前的圖像生成任務(wù)主要是借助生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)實(shí)現(xiàn)。

生成對(duì)抗網(wǎng)絡(luò)(GAN)由兩種子網(wǎng)絡(luò)組成:生成器和識(shí)別器。生成器的輸入是隨機(jī)噪聲或條件向量,輸出是目標(biāo)圖像。識(shí)別器是一個(gè)分類器,輸入是一張圖像,輸出是該圖像是否是真實(shí)的圖像。在訓(xùn)練過(guò)程中,生成器和識(shí)別器通過(guò)不斷的相互博弈提升自己的能力。

在圖像生成任務(wù)中,我們主要介紹如何使用DCGAN和ConditioanlGAN來(lái)進(jìn)行手寫數(shù)字的生成,另外還介紹了用于風(fēng)格遷移的CycleGAN。

?ConditioanlGAN,顧名思義是帶條件約束的生成對(duì)抗模型,它在生成模型和判別模型的建模中均引入了額外的條件變量,對(duì)于生成器對(duì)數(shù)據(jù)的生成具有指導(dǎo)作用。ConditioanlGAN是把無(wú)監(jiān)督的GAN變成有監(jiān)督模型的改進(jìn),為后續(xù)的工作提供了指導(dǎo)作用。

△ConditioanlGAN結(jié)構(gòu)

△ConditioanlGAN預(yù)測(cè)效果圖

傳送門(中文):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/gan/c_gan

?DCGAN,為了填補(bǔ)CNN在監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)之間的gap,此篇論文提出了將CNN和GAN結(jié)合的DCGAN(深度卷積生成對(duì)抗網(wǎng)絡(luò)),并且DCGAN在無(wú)監(jiān)督學(xué)習(xí)中取得不錯(cuò)的結(jié)果。

△DCGAN結(jié)構(gòu)

△DCGAN預(yù)測(cè)效果圖

傳送門(中文):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/gan/c_gan

?CycleGAN,將一類圖片轉(zhuǎn)換成另一類圖片。傳統(tǒng)的 GAN 是單向生成,CycleGAN 是互相生成,本質(zhì)上是兩個(gè)鏡像對(duì)稱的GAN,構(gòu)成了一個(gè)環(huán)形網(wǎng)絡(luò),所以命名為 Cycle。風(fēng)格遷移類任務(wù)一般都需要兩個(gè)域中具有相同內(nèi)容的成對(duì)圖片作為訓(xùn)練數(shù)據(jù),CycleGAN的創(chuàng)新點(diǎn)就在于其能夠在沒(méi)有成對(duì)訓(xùn)練數(shù)據(jù)的情況下,將圖片內(nèi)容從源域遷移到目標(biāo)域。

△CycleGAN 結(jié)構(gòu)

△CycleGAN預(yù)測(cè)可視化

傳送門(中文):

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/gan/cycle_gan

二、人體關(guān)鍵點(diǎn)檢測(cè)

人體關(guān)鍵點(diǎn)檢測(cè),通過(guò)人體關(guān)鍵節(jié)點(diǎn)的組合和追蹤來(lái)識(shí)別人的運(yùn)動(dòng)和行為,對(duì)于描述人體姿態(tài),預(yù)測(cè)人體行為至關(guān)重要,是諸多計(jì)算機(jī)視覺(jué)任務(wù)的基礎(chǔ),例如動(dòng)作分類,異常行為檢測(cè),以及自動(dòng)駕駛等等,也為游戲、視頻等提供新的交互方式。

在人體關(guān)鍵點(diǎn)檢測(cè)任務(wù)中,我們主要介紹網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單的coco2018關(guān)鍵點(diǎn)檢測(cè)項(xiàng)目的亞軍方案。

?Simple Baselines for Human Pose Estimation in Fluid,coco2018關(guān)鍵點(diǎn)檢測(cè)項(xiàng)目的亞軍方案,沒(méi)有華麗的技巧,僅僅是在ResNet中插入了幾層反卷積,將低分辨率的特征圖擴(kuò)張為原圖大小,以此生成預(yù)測(cè)關(guān)鍵點(diǎn)需要的Heatmap。沒(méi)有任何的特征融合,網(wǎng)絡(luò)結(jié)構(gòu)非常簡(jiǎn)單,但是達(dá)到了state of the art效果。

△視頻Demo: Bruno Mars - That’s What I Like [官方視頻]

△Simple Baselines for Human Pose Estimation in Fluid 評(píng)估結(jié)果

GitHub傳送門:

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/human_pose_estimation

三、視頻分類

視頻分類是視頻理解任務(wù)的基礎(chǔ),與圖像分類不同的是,分類的對(duì)象不再是靜止的圖像,而是一個(gè)由多幀圖像構(gòu)成的、包含語(yǔ)音數(shù)據(jù)、包含運(yùn)動(dòng)信息等的視頻對(duì)象,因此理解視頻需要獲得更多的上下文信息,不僅要理解每幀圖像是什么、包含什么,還需要結(jié)合不同幀,知道上下文的關(guān)聯(lián)信息。

視頻分類方法主要包含基于卷積神經(jīng)網(wǎng)絡(luò)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)、或?qū)⑦@兩者結(jié)合的方法。

在視頻分類任務(wù)中,我們主要介紹視頻分類方向的多個(gè)主流領(lǐng)先模型,其中Attention LSTM,Attention Cluster和NeXtVLAD是比較流行的特征序列模型,TSN和StNet是兩個(gè)End-to-End的視頻分類模型。

Attention LSTM模型速度快精度高,NeXtVLAD是2nd-Youtube-8M比賽中最好的單模型, TSN是基于2D-CNN的經(jīng)典解決方案。Attention Cluster和StNet是百度自研模型,分別發(fā)表于CVPR2018和AAAI2019,是Kinetics600比賽第一名中使用到的模型。

?Attention Cluster模型為ActivityNet Kinetics Challenge 2017中最佳序列模型,通過(guò)帶Shifting Opeation的Attention Clusters處理已抽取好的RGB、Flow、Audio數(shù)據(jù)。

△Attention Cluster模型結(jié)構(gòu)

Attention LSTM 模型,采用了雙向長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM),將視頻的所有幀特征依次編碼。與傳統(tǒng)方法直接采用LSTM最后一個(gè)時(shí)刻的輸出不同,該模型增加了一個(gè)Attention層,每個(gè)時(shí)刻的隱狀態(tài)輸出都有一個(gè)自適應(yīng)權(quán)重,然后線性加權(quán)得到最終特征向量。

△Attention LSTM 模型結(jié)構(gòu)

?NeXtVLAD模型,第二屆Youtube-8M視頻理解競(jìng)賽中效果最好的單模型,提供了一種將楨級(jí)別的視頻特征轉(zhuǎn)化并壓縮成特征向量,以適用于大尺寸視頻文件的分類的方法。其基本出發(fā)點(diǎn)是在NetVLAD模型的基礎(chǔ)上,將高維度的特征先進(jìn)行分組,通過(guò)引入attention機(jī)制聚合提取時(shí)間維度的信息,這樣既可以獲得較高的準(zhǔn)確率,又可以使用更少的參數(shù)量。

△NeXtVLAD模型結(jié)構(gòu)

?StNet模型,框架為ActivityNet Kinetics Challenge 2018中奪冠的基礎(chǔ)網(wǎng)絡(luò)框架,提出“super-image”的概念,在super-image上進(jìn)行2D卷積,建模視頻中局部時(shí)空相關(guān)性。另外通過(guò)temporal modeling block建模視頻的全局時(shí)空依賴,最后用一個(gè)temporal Xception block對(duì)抽取的特征序列進(jìn)行長(zhǎng)時(shí)序建模。

△StNet模型結(jié)構(gòu)

?Temporal Segment Network (TSN),視頻分類領(lǐng)域經(jīng)典的基于2D-CNN的解決方案,主要解決視頻的長(zhǎng)時(shí)間行為判斷問(wèn)題,通過(guò)稀疏采樣視頻幀的方式代替稠密采樣,既能捕獲視頻全局信息,也能去除冗余,降低計(jì)算量。最終將每幀特征平均融合后得到視頻的整體特征,并用于分類。

△TSN模型結(jié)構(gòu)

△基于Youtube-8M數(shù)據(jù)集的視頻分類模型 評(píng)估結(jié)果

△基于Kinetics數(shù)據(jù)集的視頻分類模型 評(píng)估結(jié)果

這部分的詳情,可以移步GitHub,全程中文。傳送門:

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/video

四、度量學(xué)習(xí)

度量學(xué)習(xí)也稱作距離度量學(xué)習(xí)、相似度學(xué)習(xí),通過(guò)學(xué)習(xí)對(duì)象之間的距離,度量學(xué)習(xí)能夠用于分析對(duì)象時(shí)間的關(guān)聯(lián)、比較關(guān)系,在實(shí)際問(wèn)題中應(yīng)用較為廣泛,可應(yīng)用于輔助分類、聚類問(wèn)題,也廣泛用于圖像檢索、人臉識(shí)別等領(lǐng)域。

以往,針對(duì)不同的任務(wù),需要選擇合適的特征并手動(dòng)構(gòu)建距離函數(shù),而度量學(xué)習(xí)可根據(jù)不同的任務(wù)來(lái)自主學(xué)習(xí)出針對(duì)特定任務(wù)的度量距離函數(shù)。度量學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合,在人臉識(shí)別/驗(yàn)證、行人再識(shí)別(human Re-ID)、圖像檢索等領(lǐng)域均取得較好的性能,在這個(gè)任務(wù)中我們主要介紹基于Fluid的深度度量學(xué)習(xí)模型,包含了三元組、四元組等損失函數(shù)。

△度量學(xué)習(xí)模型 評(píng)估結(jié)果

GitHub的頁(yè)面上有安裝、準(zhǔn)備、訓(xùn)練等方面的指導(dǎo),傳送門:

https://github.com/PaddlePaddle/models/tree/develop/fluid/PaddleCV/metric_learning

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:計(jì)算機(jī)視覺(jué)八大任務(wù)全概述:PaddlePaddle工程師詳解熱門視覺(jué)模型

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    最適合 AI 應(yīng)用的計(jì)算機(jī)視覺(jué)類型是什么?

    著眼于使計(jì)算機(jī)能夠像人類一樣通過(guò)“看”來(lái)感知世界,從這一視角對(duì)人工智能 (AI) 進(jìn)行了探討。我將簡(jiǎn)要比較每一類計(jì)算機(jī)視覺(jué),尤其關(guān)注在本地而不是依賴基于云的資源收集和處理數(shù)據(jù),并根據(jù)數(shù)
    的頭像 發(fā)表于 12-18 13:09 ?7585次閱讀
    最適合 AI 應(yīng)用的<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b>類型是什么?

    機(jī)器視覺(jué)計(jì)算機(jī)視覺(jué)的關(guān)系簡(jiǎn)述

    初涉機(jī)器視覺(jué)領(lǐng)域,總是容易將其與計(jì)算機(jī)視覺(jué)這一概念混淆。實(shí)際上兩者確實(shí)存在一定的相同之處,但也不能因此而將這兩者視為同一概念,因?yàn)檫@兩者還存在著顯著的差別。而與此同時(shí),兩者也還有著密不
    發(fā)表于 05-13 14:57

    自動(dòng)駕駛系統(tǒng)要完成哪些計(jì)算機(jī)視覺(jué)任務(wù)?

    Geiger 的研究主要集中在用于自動(dòng)駕駛系統(tǒng)的三維視覺(jué)理解、分割、重建、材質(zhì)與動(dòng)作估計(jì)等方面。他主導(dǎo)了自動(dòng)駕駛領(lǐng)域著名數(shù)據(jù)集 KITTI 及多項(xiàng)自動(dòng)駕駛計(jì)算機(jī)視覺(jué)
    發(fā)表于 07-30 06:49

    對(duì)電力系統(tǒng)計(jì)算機(jī)應(yīng)用存在問(wèn)題及解決方法進(jìn)行了探討

    摘要:電力工業(yè)作為國(guó)民經(jīng)濟(jì)的支柱型產(chǎn)業(yè),計(jì)算機(jī)技術(shù)不僅種類繁多、范圍廣泛,而且非常復(fù)雜,一旦出現(xiàn)問(wèn)題,容易給整個(gè)電力系統(tǒng)帶來(lái)巨大的損失。本文對(duì)電力系統(tǒng)計(jì)算機(jī)應(yīng)用存在問(wèn)題及解決方法進(jìn)行了探討。關(guān)鍵詞
    發(fā)表于 09-10 06:31

    深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺(jué)簡(jiǎn)介

    文章目錄1 簡(jiǎn)介1.1 深度學(xué)習(xí)與傳統(tǒng)計(jì)算機(jī)視覺(jué)1.2 性能考量1.3 社區(qū)支持2 結(jié)論3 參考在計(jì)算機(jī)視覺(jué)領(lǐng)域中,不同的場(chǎng)景不同的應(yīng)用程序
    發(fā)表于 12-23 06:17

    DNA計(jì)算機(jī)的研究現(xiàn)狀

    為了幫助研究者進(jìn)一步認(rèn)識(shí)DNA計(jì)算機(jī)的研究現(xiàn)狀,通過(guò)查找文獻(xiàn)法和歸納法對(duì)DNA計(jì)算機(jī)的研究現(xiàn)狀進(jìn)行了梳理。首先介紹了DNA計(jì)算機(jī)的原理基礎(chǔ)和研制過(guò)程,然后
    發(fā)表于 04-12 16:08 ?0次下載

    計(jì)算機(jī)視覺(jué)與機(jī)器視覺(jué)區(qū)別

     “計(jì)算機(jī)視覺(jué)”,是指用計(jì)算機(jī)實(shí)現(xiàn)人的視覺(jué)功能,對(duì)客觀世界的三維場(chǎng)景的感知、識(shí)別和理解。計(jì)算機(jī)視覺(jué)
    的頭像 發(fā)表于 12-08 09:27 ?1.3w次閱讀

    深度學(xué)習(xí)后的計(jì)算機(jī)視覺(jué)應(yīng)用領(lǐng)域解析

    計(jì)算機(jī)視覺(jué)是使用計(jì)算機(jī)及相關(guān)設(shè)備對(duì)生物視覺(jué)的一種模擬,是人工智能領(lǐng)域的一個(gè)重要部分,它主要任務(wù)
    發(fā)表于 07-22 16:49 ?2015次閱讀

    簡(jiǎn)單闡述一下計(jì)算機(jī)視覺(jué)的幾大任務(wù)!

    計(jì)算機(jī)視覺(jué)的幾大任務(wù) 3025748808_702 在 周一, 04/01/2019 - 09:36 提交 計(jì)算機(jī)視覺(jué)的幾
    的頭像 發(fā)表于 03-24 15:16 ?7053次閱讀

    視覺(jué)問(wèn)答與對(duì)話任務(wù)研究綜述

    視覺(jué)問(wèn)答與對(duì)話是人工智能領(lǐng)堿的重要硏究任務(wù),是計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理交叉領(lǐng)域的代表性問(wèn)題之一。視覺(jué)
    發(fā)表于 04-08 10:33 ?10次下載
    <b class='flag-5'>視覺(jué)</b>問(wèn)答與對(duì)話<b class='flag-5'>任務(wù)</b>研究<b class='flag-5'>綜述</b>

    計(jì)算機(jī)視覺(jué)的概念和主要任務(wù)

    作為人工智能的關(guān)鍵領(lǐng)域之一的計(jì)算機(jī)視覺(jué)近期再次成為了熱點(diǎn),那么你真的了解什么是計(jì)算機(jī)視覺(jué)嗎?
    的頭像 發(fā)表于 07-17 11:20 ?1943次閱讀

    最適合AI應(yīng)用的計(jì)算機(jī)視覺(jué)類型是什么?

    計(jì)算機(jī)視覺(jué)是指為計(jì)算機(jī)賦予人類視覺(jué)這一技術(shù)目標(biāo),從而賦能裝配線檢查到駕駛輔助和機(jī)器人等應(yīng)用。計(jì)算機(jī)缺乏像人類一樣憑直覺(jué)產(chǎn)生
    的頭像 發(fā)表于 11-15 16:38 ?715次閱讀
    最適合AI應(yīng)用的<b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b>類型是什么?

    計(jì)算機(jī)視覺(jué)的十大算法

    視覺(jué)技術(shù)的發(fā)展起到了重要的推動(dòng)作用。一、圖像分割算法圖像分割算法是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)算法之一,它的主要任務(wù)是將圖像分割成不同的區(qū)域或?qū)ο蟆?/div>
    的頭像 發(fā)表于 02-19 13:26 ?1932次閱讀
    <b class='flag-5'>計(jì)算機(jī)</b><b class='flag-5'>視覺(jué)</b>的十大算法

    計(jì)算機(jī)視覺(jué)的主要研究方向

    計(jì)算機(jī)視覺(jué)(Computer Vision, CV)作為人工智能領(lǐng)域的一個(gè)重要分支,致力于使計(jì)算機(jī)能夠像人眼一樣理解和解釋圖像和視頻中的信息。隨著深度學(xué)習(xí)、大數(shù)據(jù)等技術(shù)的快速發(fā)展,
    的頭像 發(fā)表于 06-06 17:17 ?1870次閱讀

    深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用

    深度學(xué)習(xí)技術(shù)的引入,極大地推動(dòng)了計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展,使其能夠處理更加復(fù)雜和多樣化的視覺(jué)任務(wù)。本文將詳細(xì)
    的頭像 發(fā)表于 07-01 11:38 ?1795次閱讀