一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

曠視科技孫劍:云、端、芯上的視覺(jué)計(jì)算

5b9O_deeplearni ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-07-10 08:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2018 全球人工智能機(jī)器人峰會(huì)(CCF-GAIR)在深圳召開(kāi),峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了深圳市寶安區(qū)政府的大力指導(dǎo),是國(guó)內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流盛會(huì),旨在打造國(guó)內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺(tái)。

孫劍博士在CCF-GAIR現(xiàn)場(chǎng)演講

6 月 30 日,計(jì)算機(jī)視覺(jué)專場(chǎng)舉行,會(huì)場(chǎng)現(xiàn)場(chǎng)爆滿,不少聽(tīng)眾站著聽(tīng)完了長(zhǎng)達(dá)數(shù)小時(shí)的演講。上午場(chǎng)的議題為“計(jì)算機(jī)視覺(jué)前沿與智能視頻”,由香港科技大學(xué) RAM-LAB 主任劉明擔(dān)綱主持。在他的串聯(lián)下,ICCV 2011 與 CVPR 2022 大會(huì)主席權(quán)龍、曠視科技首席科學(xué)家孫劍、云從科技聯(lián)合創(chuàng)始人姚志強(qiáng)、臻識(shí)科技 CEO 任鵬、云飛勵(lì)天首席科學(xué)家王孝宇以及商湯聯(lián)合創(chuàng)始人林達(dá)華等學(xué)界、業(yè)界大咖進(jìn)行了 6 場(chǎng)深度分享,既有計(jì)算機(jī)視覺(jué)技術(shù)的前沿研究動(dòng)態(tài),也有相關(guān)技術(shù)落地的具體方向。

曠視科技首席科學(xué)家、研究院院長(zhǎng)孫劍博士為大家?guī)?lái)題為 “云、端、芯上的視覺(jué)計(jì)算”的精彩演講。孫劍認(rèn)為,計(jì)算機(jī)視覺(jué)簡(jiǎn)單講就是使機(jī)器能看,曠視科技希望能夠做到“賦能億萬(wàn)攝像頭”,讓?xiě)?yīng)用在所有領(lǐng)域的攝像頭都具備智能,不管是在云、端還是在芯上。

計(jì)算機(jī)視覺(jué)的發(fā)展史就是研究如何表示圖像的歷史。深度學(xué)習(xí)流行之前,最好的辦法是基于特征的,從圖像里抽取特征,再進(jìn)行分析;但是這個(gè)方法有兩個(gè)大缺點(diǎn):首先,該方法完成的非線性變換次數(shù)非常有限;其二,大多數(shù)參數(shù)都是人工設(shè)計(jì)的,包括 Feature。深度神經(jīng)網(wǎng)絡(luò)的辦法彌補(bǔ)了手工設(shè)計(jì)特征的缺陷,整個(gè)非線性變換可以做非常多次,換句話說(shuō)可以很深,所以特征表示能力非常強(qiáng),并且可以自動(dòng)地聯(lián)合訓(xùn)練所有參數(shù)。孫劍博士在微軟時(shí)提出 152 層的 ResNet,第一次在 ImageNet 大規(guī)模圖像分類任務(wù)上超過(guò)了人的能力。

接著,孫劍博士從計(jì)算機(jī)平臺(tái)的角度對(duì)出現(xiàn)的各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了分類:GoogleNet、ResNet 在“云”上;MobileNet 以及曠視提出的 ShuffleNet 屬于“端”這一類;BNN、XNOR Net 和曠視提出的 DorefaNet 則是在“芯”上。針對(duì)目前分平臺(tái)設(shè)計(jì)相關(guān)網(wǎng)絡(luò)的現(xiàn)狀,孫劍相信未來(lái)會(huì)有一個(gè)“MetaNet 出現(xiàn),能夠統(tǒng)一解決各個(gè)平臺(tái)上的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化問(wèn)題”。

最后,孫劍簡(jiǎn)單介紹了曠視在云、端、芯三個(gè)平臺(tái)上的計(jì)算機(jī)視覺(jué)應(yīng)用,包括人臉識(shí)別、車輛識(shí)別、人臉支付、智慧安防、智慧金融、城市大腦、倉(cāng)儲(chǔ)物流、新零售等。

以下為孫劍演講全文,雷鋒網(wǎng)進(jìn)行了不改變?cè)獾木庉嫛?/p>

目前人工智能一般劃分為感知和認(rèn)知兩塊,這一張圖可以看到計(jì)算機(jī)視覺(jué)在人工智能領(lǐng)域所處的位置,綠色表示技術(shù)上有重大突破或者應(yīng)用落地相對(duì)成熟、橙色和黃色表示還需重大突破。

曠視科技成立至今已經(jīng) 7 年,一直專注于計(jì)算機(jī)視覺(jué)領(lǐng)域。去年,曠視獲得了兩個(gè)非常好的榮譽(yù),MIT 評(píng)選的 2017 年度十大突破性技術(shù)中曠視科技的“刷臉支付技術(shù)”榜上有名,這是中國(guó)公司的技術(shù)第一次獲此殊榮;MIT 也將曠視列為 2017 年度全球五十大最聰明公司的第 11 位。曠視去年也完成了新一輪 4.6 億美金的融資,用于做更好、更深入的研究和商業(yè)落地。

簡(jiǎn)單來(lái)講,計(jì)算機(jī)視覺(jué)就是讓機(jī)器能看。曠視科技自創(chuàng)立就一直在回答“如果機(jī)器能自動(dòng)理解一張圖像或者一段視頻,我們能做什么?”這個(gè)問(wèn)題。當(dāng)然這么說(shuō)比較抽象,其實(shí)具體講我們想做的是“賦能億萬(wàn)攝像頭”。日常生活和各個(gè)行業(yè)中有很多的攝像頭,比如說(shuō)手機(jī)、安防、工業(yè)、零售、無(wú)人車、機(jī)器人、家庭、無(wú)人機(jī)、醫(yī)療、遙感等等。在這些地方,大多攝像頭還沒(méi)智能化,我們的使命是使這些攝像頭有智能,不管是在云、端還是在芯片上;我們要構(gòu)建智能大腦來(lái)理解智能攝像頭輸入的大量信息。

相對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō),計(jì)算機(jī)視覺(jué)應(yīng)用面非常廣泛。語(yǔ)音識(shí)別的輸入和輸出較為單一,核心目標(biāo)是把一段語(yǔ)音變成一句文字。但計(jì)算機(jī)視覺(jué)系統(tǒng)的輸出要豐富很多,你需要知道圖像/視頻里面的物體、運(yùn)動(dòng)、場(chǎng)景,其中有什么人、人的位置、行為、表情、注意力等等。你會(huì)在不同行業(yè)或場(chǎng)景中面臨各種各樣不同的任務(wù),這也讓計(jì)算機(jī)視覺(jué)成為一個(gè)很大并增長(zhǎng)很快的學(xué)術(shù)領(lǐng)域(今年計(jì)算機(jī)視覺(jué)年會(huì) CVPR 參會(huì)人達(dá)到近 7000 人),也誕生出眾多的優(yōu)秀創(chuàng)業(yè)公司。

計(jì)算機(jī)視覺(jué)的核心問(wèn)題包括分類、檢測(cè)、分割,分別是對(duì)一張圖、一張圖的不同區(qū)域和一張圖的每個(gè)像素做識(shí)別。另外如果輸入的是視頻,我們還需要利用時(shí)間關(guān)系做識(shí)別;其中最核心的是分類問(wèn)題,因?yàn)樗呛竺嫒齻€(gè)任務(wù)的核心和基礎(chǔ)。

其實(shí),人工智能一出現(xiàn)時(shí),計(jì)算機(jī)視覺(jué)也誕生了。計(jì)算機(jī)視覺(jué)有一個(gè)先驅(qū)人物叫 David Marr,他在 80 年代初期提出了 Primal Sketch 方法,以及一個(gè)研究計(jì)算機(jī)視覺(jué)的大框架,認(rèn)為圖像應(yīng)該先檢測(cè) Edge,然后出 2 ? Dsketch 和 3D 模型。但是 MIT 教授 Marvin Minsky 批評(píng)說(shuō)你這個(gè)理論很好,但是忽略了核心問(wèn)題的研究——如何表述一張圖像。

計(jì)算機(jī)視覺(jué)的早期圖像表示模型是 Part-based,比如人體可以分解成頭、胳膊、腿;人臉可以分解成眉毛、眼睛、鼻子,這樣就可以通過(guò) Part 這種組合式的方法表示物體。如果一個(gè)物體有結(jié)構(gòu),這種組合式方法很合適,但很多自然場(chǎng)景的物體沒(méi)有這么強(qiáng)的結(jié)構(gòu)就不合適了。

80 年代,早期的神經(jīng)網(wǎng)絡(luò)也成功運(yùn)用在人臉和手寫(xiě)數(shù)字識(shí)別上,但是僅限于這兩個(gè)領(lǐng)域。2001 年有一個(gè)叫作 Viola & Jones 的人臉檢測(cè)的方法,它先是定義一組 Haar 小波基,然后通過(guò)機(jī)器學(xué)習(xí)的方法學(xué)習(xí) Harr 小波基的組合來(lái)表示圖像。這個(gè)方法的好處是引入學(xué)習(xí)來(lái)構(gòu)造圖像表示,壞處是它限定在這個(gè)小波基上,對(duì)有結(jié)構(gòu)的物體做得好,對(duì)沒(méi)有結(jié)構(gòu)的物體就不一定合適了。

大概在 2000 - 2012 年,在深度學(xué)習(xí)之前最流行的表示是 Local Feature-based。該方法從一張圖片里面抽取數(shù)百個(gè) Feature,去人工形成一些諸如 SIFT/HOG 的 Descriptor,編碼獲得高維向量之后,再送給 SVM 分類器,這是深度學(xué)習(xí)之前最好的方法。

對(duì)人臉也類似。我以前的研究組也用同樣方法做過(guò)人臉關(guān)鍵點(diǎn)抽取,獲得高維 Feature,這也是當(dāng)時(shí)最好的人臉識(shí)別方式,但是它有兩個(gè)大缺點(diǎn):第一,這個(gè)方法整體上是從輸入向量到另外高維向量的非線性變換,這個(gè)向量的變換次數(shù)是有限的,如果真正算它的非線性變換也就三、四次,變多了是不行的,性能不會(huì)提高;第二,其中大多數(shù)參數(shù)是人工設(shè)計(jì)的,包括 Feature,但人設(shè)計(jì)復(fù)雜系統(tǒng)的能力是有限的。

今天的主流方法是深度神經(jīng)網(wǎng)絡(luò),這兩個(gè)特性就被改變了,整個(gè)非線性變換非常長(zhǎng),可以做非常多次,所以系統(tǒng)的表示能力非常強(qiáng);第二是所有的參數(shù)聯(lián)合訓(xùn)練。這兩點(diǎn)讓深度神經(jīng)網(wǎng)絡(luò)真正能夠取得非常好的效果,也包括當(dāng)時(shí)我們?cè)谖④浱岢龅?152 層的殘差網(wǎng)絡(luò) ResNet,第一次在 ImageNet 上超過(guò)了人的性能。

ResNet 為什么能夠工作呢?到今天也沒(méi)有一個(gè)明確答案,當(dāng)然有很多解釋。最直觀的解釋是說(shuō)當(dāng)你的非線性變換層數(shù)非常多,相鄰兩層變換的差別就非常小,與其直接學(xué)習(xí)這個(gè)映射,不如學(xué)習(xí)映射的變化,這樣的方式就讓整個(gè)學(xué)習(xí)過(guò)程,特別是訓(xùn)練優(yōu)化過(guò)程變得更容易。

還有一個(gè)解釋來(lái)自該論文(Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun. Deep Residual Learning For Image Recognition. CVPR 2016.)的第二作者張祥雨,他認(rèn)為 ResNet 的整個(gè)學(xué)習(xí)過(guò)程是一個(gè)由淺到深的動(dòng)態(tài)過(guò)程,在訓(xùn)練初期等效訓(xùn)練一個(gè)淺層網(wǎng)絡(luò),在訓(xùn)練后期等效訓(xùn)練一個(gè)深層網(wǎng)絡(luò)。

論文第一作者何愷明有另外一個(gè)更“科學(xué)”的解釋,他認(rèn)為整個(gè)訓(xùn)練過(guò)程相當(dāng)于深度學(xué)習(xí)的梯度下降過(guò)程中,最為困難的梯度消失問(wèn)題被 ResNet 解決了,該解釋也發(fā)表在 ECCV 2016 的一篇論文(Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity Mapping in Deep Residual Networks. ECCV 2016.)中,并在該論文中第一次訓(xùn)練了一個(gè) 1001 層的神經(jīng)網(wǎng)絡(luò)。

還有一些同行提出的解釋。一種是把 ResNet 和 RNN 關(guān)聯(lián)起來(lái),認(rèn)為如果有 Weight Share, ResNet 可以看作是一種 RNN。還有一種解釋把 ResNet 看成是指數(shù)多個(gè)不同深度網(wǎng)絡(luò)的集成。用“集成”這個(gè)詞其實(shí)有些問(wèn)題,因?yàn)橐话阄覀冏黾伤惴ú宦?lián)合訓(xùn)練,但這里面整個(gè) ResNet 里指數(shù)多個(gè)網(wǎng)絡(luò)是聯(lián)合訓(xùn)練的,所以很難定義它是不是集成。

我個(gè)人比較認(rèn)同的一種解釋是 Iterative Refinement,它是說(shuō)網(wǎng)絡(luò)初期的層學(xué)習(xí)表示,后期很多層不斷迭代和 Refine 這個(gè)表示。這跟人理解看圖識(shí)字很相似,一個(gè)不容易理解的東西你要看一會(huì),是基于當(dāng)前一些已看內(nèi)容的理解,反復(fù)看才能看懂。

還有從從優(yōu)化觀點(diǎn)的解釋,如果不用 ResNet 這種構(gòu)造,系統(tǒng)的損失函數(shù)會(huì)非常坑坑洼洼和高低不平,所以很難優(yōu)化。我們知道整個(gè)網(wǎng)絡(luò)訓(xùn)練是非凸的優(yōu)化問(wèn)題,如果是這種不光滑的損失函數(shù),訓(xùn)練很難跳出局部極小;如果是上圖右邊使用 ResNet 的情況,就可以比較容易地達(dá)一個(gè)很好的局部極小。最近研究表明,局部極小區(qū)域的面積和平坦性和一個(gè)方法的推廣能力非常強(qiáng)相關(guān)。

多層 ResNet 學(xué)習(xí)高度非線性映射的能力非常強(qiáng)。去年,ResNet 成功應(yīng)用于 DeepMind 的 AlphaGo Zero 系統(tǒng)中,用 一個(gè)40 或 80 層的網(wǎng)絡(luò)就可以學(xué)到從棋盤(pán)圖像到落子位置這樣一個(gè)高度復(fù)雜的映射,這非常讓人吃驚。

2012 年開(kāi)始有各種各樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)。如果從計(jì)算平臺(tái)的角度看這些工作,大概可以分成三類:第一類是在“云”上,像 GoogleNet、ResNet,其目標(biāo)是向著最高精度方向走,有 GPU、TPU 可以訓(xùn)練非常大的模型,來(lái)探知我們的認(rèn)知邊界;第二類平臺(tái)是在“端”上,特別是一些嵌入式設(shè)備,這些設(shè)備上的計(jì)算能力,內(nèi)存訪問(wèn)都有限制,但很多真實(shí)的場(chǎng)景就是如此,那你怎么去做這上面的研究工作呢?谷歌在去年提出 MobileNet 運(yùn)行在移動(dòng)端設(shè)備上,曠視科技去年提出 ShuffleNet,其目標(biāo)是說(shuō)如何在一個(gè)給定計(jì)算量的設(shè)備上得到最好的效果。

一個(gè)網(wǎng)絡(luò)的最基本結(jié)構(gòu)是多個(gè) 3×3 的卷積,ResNet 加了一個(gè)跳轉(zhuǎn)連接,我們?cè)?ResNet 中還引入一個(gè) Bottleneck 結(jié)構(gòu),先做 1×1,再做 3×3,再回到 1×1,這樣可以提高卷積的效率。

去年何愷明有一項(xiàng)工作叫 ResNeXt,它在 3x3 的基礎(chǔ)上引入分組卷積的方法,可以很好地提高卷積的有效性;谷歌的 MobileNet 是一個(gè) 3x3 分層卷積的方式,每個(gè)層各卷各的,這種方式非常有效,特別是在低端設(shè)備上。ShuffleNet 結(jié)合分組卷積和分層卷積的思想,對(duì) 1×1 Conv 分組;但是如果只分組的話,組間的信息不會(huì)交換,這樣會(huì)影響特征學(xué)習(xí),因此我們通過(guò)引入 Shuffle 操作,讓不同分組的信息更好地交換,然后做 3×3 的分層卷積,再回到 1×1 分組卷積,這就是 ShuffleNet 的核心思想。和其它方法相比,在相同的精度下,ShuffleNet 在真實(shí)設(shè)備上的速度要比 AlexNet 快 20 倍左右。

這是我們?nèi)ツ陮槭謾C(jī)設(shè)計(jì)的 ShuffleNet,它在 CPU/ARM 上效果非常好;如果在 GPU 上,它的性能并不好,因?yàn)?CPU 和 GPU 的特性不太一樣,這里面有很多原因,比如卷積的設(shè)計(jì),Group 卷積等等,我就不贅述了。

今年我們?cè)O(shè)計(jì)了 ShuffleNet v2,也就是第二版,拋棄分組卷積的思想,引入 Channel Split 和 Channel Shuffle 組合的新方法。這個(gè)方法把 Channel 先一分為二,并把每個(gè)分支用非常簡(jiǎn)單的結(jié)構(gòu)來(lái)做,然后在用 Shuffle 操作合并 Channel,這樣做的根源是我們?cè)诰W(wǎng)絡(luò)設(shè)計(jì)中發(fā)現(xiàn)的一些基本指導(dǎo)原則,比如說(shuō)我們需要平衡的卷積而不是稀疏的卷積,更加規(guī)整的卷積而不是零亂的卷積。

這項(xiàng)工作目前在 CPU 和 GPU 上都獲得了最好的精度和速度;不光在小模型,在大模型上同樣取得了非常好的效果,上圖最后一行是說(shuō) ShuffleNet v2 目前在計(jì)算量只有 12.7G Flops 情況下在 ImageNet 上取得了非常高的精度。

我們還需要將神經(jīng)網(wǎng)絡(luò)運(yùn)行在芯片上,這不光對(duì)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)有要求,還要對(duì)網(wǎng)絡(luò)內(nèi)部精度的表示做限制,現(xiàn)在最流行的方法是做低精度化,比如 BNN 和 XNOR Net,還有曠視科技提出的 DorefaNet。低精度方法是指神經(jīng)網(wǎng)絡(luò)的權(quán)重或激活值用低精度表示,比如 1 位,2 位,4 位。如果可以用低精度表示兩個(gè)向量,那么卷積計(jì)算就可以通過(guò)芯片上非常簡(jiǎn)單的位運(yùn)算完成計(jì)算。

我們提出的 DorefaNet 是第一個(gè)對(duì)梯度也做量化的研究工作,從而可以讓我們?cè)?FPGA 甚至 ASIC 上訓(xùn)練。在這些設(shè)備上計(jì)算量是一方面,但是它的內(nèi)存訪問(wèn)限制更大,DorefaNet 這種方法可以做到更好。上圖是我們?cè)?ImageNet 上得到的 1 位,2 位,4 位和 6 位量化精度下的最好分類結(jié)果。

上述分類問(wèn)題網(wǎng)絡(luò)設(shè)計(jì)需要考慮不同的平臺(tái),其它問(wèn)題多是以分類為基礎(chǔ),比如說(shuō)檢測(cè),上圖是檢測(cè)最近幾年的發(fā)展路程,從 R-CNN 到我們提出的 SPP-Net,到 Fast R-CNN,再到我們提出的 Faster R-CNN,它們都是先應(yīng)用基礎(chǔ)分類網(wǎng)絡(luò),然后構(gòu)建不同的物體檢測(cè)框架。

檢測(cè)方面的目前最有權(quán)威性的競(jìng)賽是 COCO,檢測(cè)精度用 mAP 來(lái)表示,越高越好。2015 年我們?cè)谖④泚喼扪芯吭河?ResNet 做到了 37.3,曠視研究院去年參加了這個(gè)競(jìng)賽,取得第一名的成績(jī) 52.5(滿分 100 分),又推進(jìn)了一大步。我們獲得 COCO 2017 冠軍的論文是 MegDet。COCO 可以對(duì)人進(jìn)行檢測(cè),也可以抽取特征,我們也在研究后者的工作(Yilun Chen, Zhicheng Wang, Yuxiang Peng, Zhiqiang Zhang, Gang Yu, Jian Sun.Cascaded Pyramid Network for Multi-Person Pose Estimation.CVPR 2018.),提取人體骨架,通過(guò)骨架表示人體運(yùn)動(dòng),進(jìn)行行為分析,這樣比直接分析圖片進(jìn)行行為訓(xùn)練更為有效。

最后介紹一些我們做的基于云、端、芯上的商業(yè)應(yīng)用。

在云上,曠視科技最早推出了面向開(kāi)發(fā)者的 www.faceplusplus.com 的 AI 云服務(wù)。第二個(gè)云服務(wù)產(chǎn)品是 www.FaceID.com,這是目前最大的在線身份認(rèn)證平臺(tái),為互聯(lián)網(wǎng)金融、銀行、出行等行業(yè)提供在線身份認(rèn)證服務(wù)。第三個(gè)非常大的云服務(wù)產(chǎn)品是城市大腦,它的核心是通過(guò)很多的傳感器,獲取大量信息,最后做出決策。視覺(jué)是目前最大的一個(gè)感知方式,因?yàn)橹袊?guó)有非常多的攝像頭,通過(guò)賦能這些視覺(jué)傳感器,我們可以知道人和車的屬性,了解交通和地域情況。其中一個(gè)很重要的應(yīng)用是公共安防,即如何用賦能億萬(wàn)攝像頭來(lái)協(xié)助城市安全和高效運(yùn)轉(zhuǎn)。

在端上的應(yīng)用更多,第一個(gè)就是手機(jī)。vivo V7 是第一款海外上市旗艦機(jī),搭載了我們的人臉解鎖技術(shù),還有小米 Note 3 的人臉解鎖。我們幫助 vivo 和小米在 iPhoneX 發(fā)布之前推出了人臉解鎖手機(jī)。華為榮耀 V10 和 7C 手機(jī)同樣使用了我們的技術(shù)。華為為什么請(qǐng)孫楊做代言人?因?yàn)樗L(zhǎng)期游泳,指紋已經(jīng)磨光了,必須用人臉解鎖才能很好地使用手機(jī)。

不光是人臉解鎖,還包括人臉 AI 相機(jī)的場(chǎng)景識(shí)別,實(shí)時(shí)知道你在拍什么,更好地調(diào)節(jié)相機(jī)參數(shù),還可以做人臉三維重建,自動(dòng)實(shí)現(xiàn) 3D 光效。另外一個(gè)很有趣的應(yīng)用是深圳和杭州的肯德基旗艦店,消費(fèi)者可以直接刷臉點(diǎn)餐,這些圖是我在現(xiàn)場(chǎng)刷臉支付喝到一杯果汁的過(guò)程。第二個(gè)是新零售,借助圖像感知系統(tǒng),能把線下的人、貨、場(chǎng)的過(guò)程數(shù)字化。線上零售是數(shù)字化的,可以根據(jù)數(shù)字化的用戶統(tǒng)計(jì)信息或者個(gè)人信息做用戶畫(huà)像、大數(shù)據(jù)分析,幫助提升新零售效率。我們?cè)诰€下零售,需要用圖像感知來(lái)做數(shù)字化。

最后是芯片。我們?nèi)ツ暝诎卜勒拱l(fā)布了一款智能人像抓拍機(jī)——MegEye-C3S,把 DorefaNet 跑在 FPGA 上,再放到相機(jī)里,這是業(yè)界第一款全畫(huà)幅(1080p)、全幀率(30fps)人臉實(shí)時(shí)檢測(cè)抓拍機(jī)。

再往下應(yīng)該怎么做呢?今天我們是分平臺(tái),根據(jù)平臺(tái)的特性設(shè)計(jì)不同的網(wǎng)絡(luò)。我們相信下一代會(huì)有一個(gè)“MetaNet”,統(tǒng)一解決各個(gè)平臺(tái)上的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化的問(wèn)題。

謝謝大家。

簡(jiǎn)介:

孫劍,目前在曠視科技(Face++)擔(dān)任首席科學(xué)家、曠視研究院院長(zhǎng)。孫劍博士2003年畢業(yè)于西安交通大學(xué)人工智能與機(jī)器人研究所,其主要研究方向是計(jì)算攝影學(xué)、人臉識(shí)別和基于深度學(xué)習(xí)的圖像理解。

自2002年以在CVPR,ICCV,ECCV,SIGGRAPH,PAMI五個(gè)頂級(jí)學(xué)術(shù)會(huì)議和期刊上發(fā)表學(xué)術(shù)論文100+篇,Google Scholar引用20,000+次,H-index 58,兩次獲得CVPR Best Paper Award(2009,2016)。孫劍博士于2010年被美國(guó)權(quán)威技術(shù)期刊MIT Technology Review 評(píng)選為“全球35歲以下杰出青年創(chuàng)新者”。孫劍博士帶領(lǐng)的團(tuán)隊(duì)于2015年獲得圖像識(shí)別國(guó)際大賽五項(xiàng)冠軍(ImageNet分類,檢測(cè)和定位,MS COCO檢測(cè)和分割),其團(tuán)隊(duì)開(kāi)發(fā)出來(lái)的“深度殘差網(wǎng)絡(luò)”和“基于區(qū)域的快速物體檢測(cè)”技術(shù)已經(jīng)被廣泛應(yīng)用在學(xué)術(shù)和工業(yè)界。同時(shí)孫劍帶領(lǐng)的團(tuán)隊(duì)的研究成果也廣泛被應(yīng)用在微軟Windows,Office,Bing,Azure,Surface,Xbox等多條產(chǎn)品線上。目前孫劍博士正在帶領(lǐng)曠視科技的研究團(tuán)隊(duì)推進(jìn)計(jì)算機(jī)視覺(jué)技術(shù)的進(jìn)步,和探索其在工業(yè)和商業(yè)上的實(shí)踐。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:孫劍:如何打造云、端、芯上的視覺(jué)計(jì)算 | CCF-GAIR 2018

文章出處:【微信號(hào):deeplearningclass,微信公眾號(hào):深度學(xué)習(xí)大講堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    科技與舟智維合作打造裝備維修智能一體化平臺(tái)

    近日,科技與舟智維攜手合作,共同打造裝備維修智能一體化平臺(tái),這是全球首個(gè)大型裝備智慧維保智能體,也是多模態(tài)技術(shù)加持傳統(tǒng)行業(yè)的重要里程碑。
    的頭像 發(fā)表于 06-17 17:14 ?433次閱讀
    <b class='flag-5'>曠</b><b class='flag-5'>視</b>科技與<b class='flag-5'>云</b>舟智維合作打造裝備維修智能一體化平臺(tái)

    Onenet網(wǎng)關(guān)方案應(yīng)用--基于米爾瑞微RK3576開(kāi)發(fā)板

    本文將介紹基于米爾電子MYD-LR3576開(kāi)發(fā)板(米爾基于瑞微RK3576開(kāi)發(fā)板)的Onenet網(wǎng)關(guān)應(yīng)用方案測(cè)試。 摘自優(yōu)秀創(chuàng)作者-小手涼涼 目錄: * 板卡說(shuō)明 * 操作說(shuō)明 * 軟件主要
    發(fā)表于 06-06 16:54

    攜手曙光與中科天璣合作打造城市智能空間

    近日,北京科技有限公司(以下簡(jiǎn)稱“”)、曙光計(jì)算集團(tuán)股份有限公司(以下簡(jiǎn)稱“曙光
    的頭像 發(fā)表于 03-20 09:13 ?700次閱讀

    發(fā)布AIS算法生產(chǎn)平臺(tái)V5.0版本

    近日,正式發(fā)布自研的算法生產(chǎn)平臺(tái)AIS(AI Service)5.0版!此次升級(jí),包括接入DeepSeek等三大核心能力重磅亮相,助力企業(yè)AI生產(chǎn)力再躍升!
    的頭像 發(fā)表于 03-12 17:18 ?764次閱讀

    運(yùn)動(dòng)猿入選2024年度智能體育典型案例

    2025年3月3日,工業(yè)和信息化部、國(guó)家體育總局聯(lián)合公布了“2024年度智能體育典型案例”名單,“運(yùn)動(dòng)猿智能體育教育產(chǎn)品方案”成功入選,成為智能青少年體育產(chǎn)品方向的典型案例。此次獲評(píng)是對(duì)
    的頭像 發(fā)表于 03-10 10:04 ?509次閱讀

    ??低?b class='flag-5'>視推出視覺(jué)大模型系列攝像機(jī)

    依托??涤^瀾大模型技術(shù)體系,??低?b class='flag-5'>視將大模型能力直接部署至側(cè),推出一系列視覺(jué)大模型攝像機(jī)。
    的頭像 發(fā)表于 03-05 14:06 ?733次閱讀

    朗迅2024年度精彩回顧

    這一年,朗迅堅(jiān)定信念,以創(chuàng)新為,以?shī)^斗為核,全力以赴守護(hù)質(zhì)量生命線。
    的頭像 發(fā)表于 01-17 17:09 ?708次閱讀

    中標(biāo)北京市大數(shù)據(jù)中心感知管理服務(wù)平臺(tái)二期建設(shè)項(xiàng)目

    近日,成功中標(biāo)北京市大數(shù)據(jù)中心感知管理服務(wù)平臺(tái)(二期)建設(shè)項(xiàng)目,此次中標(biāo)不僅是對(duì)技術(shù)實(shí)力和服務(wù)能力的認(rèn)可,更標(biāo)志著
    的頭像 發(fā)表于 12-31 09:20 ?787次閱讀

    機(jī)器視覺(jué)?|?從缺困境突圍?邁德威降本、提速、創(chuàng)新的三贏局面

    客戶概況:深圳市邁德威科技有限公司(MindVisionTechnologyCo.,Ltd.)成立于2011年,專注于機(jī)器視覺(jué)和工業(yè)自動(dòng)化領(lǐng)域,提供高性能的工業(yè)相機(jī)及解決方案。公司擁有近500名
    的頭像 發(fā)表于 12-27 11:35 ?693次閱讀
    機(jī)器<b class='flag-5'>視覺(jué)</b>?|?從缺<b class='flag-5'>芯</b>困境突圍?邁德威<b class='flag-5'>視</b>降本、提速、創(chuàng)新的三贏局面

    亮相2024數(shù)字科技生態(tài)大會(huì)

    2024數(shù)字科技生態(tài)大會(huì)上,展示了多項(xiàng)聯(lián)網(wǎng)領(lǐng)域的前沿技術(shù)及應(yīng)用成果,包括大模型、行業(yè)場(chǎng)景方案以及創(chuàng)新智能終端。
    的頭像 發(fā)表于 12-06 10:34 ?733次閱讀

    邊緣計(jì)算計(jì)算的區(qū)別

    邊緣計(jì)算計(jì)算是兩種不同的計(jì)算模式,它們?cè)?b class='flag-5'>計(jì)算資源的分布、應(yīng)用場(chǎng)景和特點(diǎn)存在顯著差異。以下是
    的頭像 發(fā)表于 10-24 14:08 ?1406次閱讀

    計(jì)算與邊緣計(jì)算的結(jié)合

    基于互聯(lián)網(wǎng)的計(jì)算方式,通過(guò)將數(shù)據(jù)和程序存儲(chǔ)在遠(yuǎn)程服務(wù)器,用戶可以通過(guò)網(wǎng)絡(luò)隨時(shí)隨地訪問(wèn)和使用。 計(jì)算提供超大規(guī)模存儲(chǔ)、高度可擴(kuò)展性、低成本和易于協(xié)作等優(yōu)勢(shì),適合需要集中
    的頭像 發(fā)表于 10-24 09:19 ?1161次閱讀

    重慶兩江新區(qū)與吉利汽車集團(tuán)、科技簽署合作協(xié)議

    日前,重慶兩江新區(qū)與吉利汽車集團(tuán)、科技簽署戰(zhàn)略合作協(xié)議。市委書(shū)記袁家軍,市委副書(shū)記、市長(zhǎng)胡衡華會(huì)見(jiàn)了吉利控股集團(tuán)董事長(zhǎng)李書(shū)福、科技董事長(zhǎng)兼CEO印奇一行并見(jiàn)證簽約。
    的頭像 發(fā)表于 09-02 14:13 ?860次閱讀

    如何理解計(jì)算?

    計(jì)算的工作原理是什么? 計(jì)算和傳統(tǒng)IT技術(shù)的區(qū)別? 華納如何幫助您實(shí)現(xiàn)
    發(fā)表于 08-16 17:02

    聚焦物聯(lián)網(wǎng)場(chǎng)景,科技核心技術(shù)能力持續(xù)升級(jí)

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)最近,上交所顯示,科技有限公司已更新提交相關(guān)財(cái)務(wù)資料。該公司早在2021年3月12日上市申請(qǐng)就獲受理,同年9月9日通過(guò)上市委會(huì)議,2021年9月30日提交注冊(cè)。作為
    的頭像 發(fā)表于 07-25 00:09 ?4983次閱讀