日韩AV在线高清字幕,欧美在线三级午夜极品人人

2018 全球人工智能與機(jī)器人峰會(huì)（CCF-GAIR）在深圳召開(kāi)，峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）承辦，得到了深圳市寶安區(qū)政府的大力指導(dǎo)，是國(guó)內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流盛會(huì)，旨在打造國(guó)內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺(tái)。

孫劍博士在CCF-GAIR現(xiàn)場(chǎng)演講

6 月 30 日，計(jì)算機(jī)視覺(jué)專場(chǎng)舉行，會(huì)場(chǎng)現(xiàn)場(chǎng)爆滿，不少聽(tīng)眾站著聽(tīng)完了長(zhǎng)達(dá)數(shù)小時(shí)的演講。上午場(chǎng)的議題為“計(jì)算機(jī)視覺(jué)前沿與智能視頻”，由香港科技大學(xué) RAM-LAB 主任劉明擔(dān)綱主持。在他的串聯(lián)下，ICCV 2011 與 CVPR 2022 大會(huì)主席權(quán)龍、曠視科技首席科學(xué)家孫劍、云從科技聯(lián)合創(chuàng)始人姚志強(qiáng)、臻識(shí)科技 CEO 任鵬、云飛勵(lì)天首席科學(xué)家王孝宇以及商湯聯(lián)合創(chuàng)始人林達(dá)華等學(xué)界、業(yè)界大咖進(jìn)行了 6 場(chǎng)深度分享，既有計(jì)算機(jī)視覺(jué)技術(shù)的前沿研究動(dòng)態(tài)，也有相關(guān)技術(shù)落地的具體方向。

曠視科技首席科學(xué)家、研究院院長(zhǎng)孫劍博士為大家?guī)?lái)題為 “云、端、芯上的視覺(jué)計(jì)算”的精彩演講。孫劍認(rèn)為，計(jì)算機(jī)視覺(jué)簡(jiǎn)單講就是使機(jī)器能看，曠視科技希望能夠做到“賦能億萬(wàn)攝像頭”，讓?xiě)?yīng)用在所有領(lǐng)域的攝像頭都具備智能，不管是在云、端還是在芯上。

計(jì)算機(jī)視覺(jué)的發(fā)展史就是研究如何表示圖像的歷史。深度學(xué)習(xí)流行之前，最好的辦法是基于特征的，從圖像里抽取特征，再進(jìn)行分析；但是這個(gè)方法有兩個(gè)大缺點(diǎn)：首先，該方法完成的非線性變換次數(shù)非常有限；其二，大多數(shù)參數(shù)都是人工設(shè)計(jì)的，包括 Feature。深度神經(jīng)網(wǎng)絡(luò)的辦法彌補(bǔ)了手工設(shè)計(jì)特征的缺陷，整個(gè)非線性變換可以做非常多次，換句話說(shuō)可以很深，所以特征表示能力非常強(qiáng)，并且可以自動(dòng)地聯(lián)合訓(xùn)練所有參數(shù)。孫劍博士在微軟時(shí)提出 152 層的 ResNet，第一次在 ImageNet 大規(guī)模圖像分類任務(wù)上超過(guò)了人的能力。

接著，孫劍博士從計(jì)算機(jī)平臺(tái)的角度對(duì)出現(xiàn)的各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了分類：GoogleNet、ResNet 在“云”上；MobileNet 以及曠視提出的 ShuffleNet 屬于“端”這一類；BNN、XNOR Net 和曠視提出的 DorefaNet 則是在“芯”上。針對(duì)目前分平臺(tái)設(shè)計(jì)相關(guān)網(wǎng)絡(luò)的現(xiàn)狀，孫劍相信未來(lái)會(huì)有一個(gè)“MetaNet 出現(xiàn)，能夠統(tǒng)一解決各個(gè)平臺(tái)上的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化問(wèn)題”。

最后，孫劍簡(jiǎn)單介紹了曠視在云、端、芯三個(gè)平臺(tái)上的計(jì)算機(jī)視覺(jué)應(yīng)用，包括人臉識(shí)別、車輛識(shí)別、人臉支付、智慧安防、智慧金融、城市大腦、倉(cāng)儲(chǔ)物流、新零售等。

以下為孫劍演講全文，雷鋒網(wǎng)進(jìn)行了不改變?cè)獾木庉嫛?/p>

目前人工智能一般劃分為感知和認(rèn)知兩塊，這一張圖可以看到計(jì)算機(jī)視覺(jué)在人工智能領(lǐng)域所處的位置，綠色表示技術(shù)上有重大突破或者應(yīng)用落地相對(duì)成熟、橙色和黃色表示還需重大突破。

曠視科技成立至今已經(jīng) 7 年，一直專注于計(jì)算機(jī)視覺(jué)領(lǐng)域。去年，曠視獲得了兩個(gè)非常好的榮譽(yù)，MIT 評(píng)選的 2017 年度十大突破性技術(shù)中曠視科技的“刷臉支付技術(shù)”榜上有名，這是中國(guó)公司的技術(shù)第一次獲此殊榮；MIT 也將曠視列為 2017 年度全球五十大最聰明公司的第 11 位。曠視去年也完成了新一輪 4.6 億美金的融資，用于做更好、更深入的研究和商業(yè)落地。

簡(jiǎn)單來(lái)講，計(jì)算機(jī)視覺(jué)就是讓機(jī)器能看。曠視科技自創(chuàng)立就一直在回答“如果機(jī)器能自動(dòng)理解一張圖像或者一段視頻，我們能做什么？”這個(gè)問(wèn)題。當(dāng)然這么說(shuō)比較抽象，其實(shí)具體講我們想做的是“賦能億萬(wàn)攝像頭”。日常生活和各個(gè)行業(yè)中有很多的攝像頭，比如說(shuō)手機(jī)、安防、工業(yè)、零售、無(wú)人車、機(jī)器人、家庭、無(wú)人機(jī)、醫(yī)療、遙感等等。在這些地方，大多攝像頭還沒(méi)智能化，我們的使命是使這些攝像頭有智能，不管是在云、端還是在芯片上；我們要構(gòu)建智能大腦來(lái)理解智能攝像頭輸入的大量信息。

相對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō)，計(jì)算機(jī)視覺(jué)應(yīng)用面非常廣泛。語(yǔ)音識(shí)別的輸入和輸出較為單一，核心目標(biāo)是把一段語(yǔ)音變成一句文字。但計(jì)算機(jī)視覺(jué)系統(tǒng)的輸出要豐富很多，你需要知道圖像/視頻里面的物體、運(yùn)動(dòng)、場(chǎng)景，其中有什么人、人的位置、行為、表情、注意力等等。你會(huì)在不同行業(yè)或場(chǎng)景中面臨各種各樣不同的任務(wù)，這也讓計(jì)算機(jī)視覺(jué)成為一個(gè)很大并增長(zhǎng)很快的學(xué)術(shù)領(lǐng)域（今年計(jì)算機(jī)視覺(jué)年會(huì) CVPR 參會(huì)人達(dá)到近 7000 人），也誕生出眾多的優(yōu)秀創(chuàng)業(yè)公司。

計(jì)算機(jī)視覺(jué)的核心問(wèn)題包括分類、檢測(cè)、分割，分別是對(duì)一張圖、一張圖的不同區(qū)域和一張圖的每個(gè)像素做識(shí)別。另外如果輸入的是視頻，我們還需要利用時(shí)間關(guān)系做識(shí)別；其中最核心的是分類問(wèn)題，因?yàn)樗呛竺嫒齻€(gè)任務(wù)的核心和基礎(chǔ)。

其實(shí)，人工智能一出現(xiàn)時(shí)，計(jì)算機(jī)視覺(jué)也誕生了。計(jì)算機(jī)視覺(jué)有一個(gè)先驅(qū)人物叫 David Marr，他在 80 年代初期提出了 Primal Sketch 方法，以及一個(gè)研究計(jì)算機(jī)視覺(jué)的大框架，認(rèn)為圖像應(yīng)該先檢測(cè) Edge，然后出 2 ? Dsketch 和 3D 模型。但是 MIT 教授 Marvin Minsky 批評(píng)說(shuō)你這個(gè)理論很好，但是忽略了核心問(wèn)題的研究——如何表述一張圖像。

計(jì)算機(jī)視覺(jué)的早期圖像表示模型是 Part-based，比如人體可以分解成頭、胳膊、腿；人臉可以分解成眉毛、眼睛、鼻子，這樣就可以通過(guò) Part 這種組合式的方法表示物體。如果一個(gè)物體有結(jié)構(gòu)，這種組合式方法很合適，但很多自然場(chǎng)景的物體沒(méi)有這么強(qiáng)的結(jié)構(gòu)就不合適了。

80 年代，早期的神經(jīng)網(wǎng)絡(luò)也成功運(yùn)用在人臉和手寫(xiě)數(shù)字識(shí)別上，但是僅限于這兩個(gè)領(lǐng)域。2001 年有一個(gè)叫作 Viola & Jones 的人臉檢測(cè)的方法，它先是定義一組 Haar 小波基，然后通過(guò)機(jī)器學(xué)習(xí)的方法學(xué)習(xí) Harr 小波基的組合來(lái)表示圖像。這個(gè)方法的好處是引入學(xué)習(xí)來(lái)構(gòu)造圖像表示，壞處是它限定在這個(gè)小波基上，對(duì)有結(jié)構(gòu)的物體做得好，對(duì)沒(méi)有結(jié)構(gòu)的物體就不一定合適了。

大概在 2000 - 2012 年，在深度學(xué)習(xí)之前最流行的表示是 Local Feature-based。該方法從一張圖片里面抽取數(shù)百個(gè) Feature，去人工形成一些諸如 SIFT/HOG 的 Descriptor，編碼獲得高維向量之后，再送給 SVM 分類器，這是深度學(xué)習(xí)之前最好的方法。

對(duì)人臉也類似。我以前的研究組也用同樣方法做過(guò)人臉關(guān)鍵點(diǎn)抽取，獲得高維 Feature，這也是當(dāng)時(shí)最好的人臉識(shí)別方式，但是它有兩個(gè)大缺點(diǎn)：第一，這個(gè)方法整體上是從輸入向量到另外高維向量的非線性變換，這個(gè)向量的變換次數(shù)是有限的，如果真正算它的非線性變換也就三、四次，變多了是不行的，性能不會(huì)提高；第二，其中大多數(shù)參數(shù)是人工設(shè)計(jì)的，包括 Feature，但人設(shè)計(jì)復(fù)雜系統(tǒng)的能力是有限的。

今天的主流方法是深度神經(jīng)網(wǎng)絡(luò)，這兩個(gè)特性就被改變了，整個(gè)非線性變換非常長(zhǎng)，可以做非常多次，所以系統(tǒng)的表示能力非常強(qiáng)；第二是所有的參數(shù)聯(lián)合訓(xùn)練。這兩點(diǎn)讓深度神經(jīng)網(wǎng)絡(luò)真正能夠取得非常好的效果，也包括當(dāng)時(shí)我們?cè)谖④浱岢龅?152 層的殘差網(wǎng)絡(luò) ResNet，第一次在 ImageNet 上超過(guò)了人的性能。

ResNet 為什么能夠工作呢？到今天也沒(méi)有一個(gè)明確答案，當(dāng)然有很多解釋。最直觀的解釋是說(shuō)當(dāng)你的非線性變換層數(shù)非常多，相鄰兩層變換的差別就非常小，與其直接學(xué)習(xí)這個(gè)映射，不如學(xué)習(xí)映射的變化，這樣的方式就讓整個(gè)學(xué)習(xí)過(guò)程，特別是訓(xùn)練優(yōu)化過(guò)程變得更容易。

還有一個(gè)解釋來(lái)自該論文（Kaiming He，Xiangyu Zhang，Shaoqing Ren，Jian Sun. Deep Residual Learning For Image Recognition. CVPR 2016.）的第二作者張祥雨，他認(rèn)為 ResNet 的整個(gè)學(xué)習(xí)過(guò)程是一個(gè)由淺到深的動(dòng)態(tài)過(guò)程，在訓(xùn)練初期等效訓(xùn)練一個(gè)淺層網(wǎng)絡(luò)，在訓(xùn)練后期等效訓(xùn)練一個(gè)深層網(wǎng)絡(luò)。

論文第一作者何愷明有另外一個(gè)更“科學(xué)”的解釋，他認(rèn)為整個(gè)訓(xùn)練過(guò)程相當(dāng)于深度學(xué)習(xí)的梯度下降過(guò)程中，最為困難的梯度消失問(wèn)題被 ResNet 解決了，該解釋也發(fā)表在 ECCV 2016 的一篇論文（Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity Mapping in Deep Residual Networks. ECCV 2016.）中，并在該論文中第一次訓(xùn)練了一個(gè) 1001 層的神經(jīng)網(wǎng)絡(luò)。

還有一些同行提出的解釋。一種是把 ResNet 和 RNN 關(guān)聯(lián)起來(lái)，認(rèn)為如果有 Weight Share， ResNet 可以看作是一種 RNN。還有一種解釋把 ResNet 看成是指數(shù)多個(gè)不同深度網(wǎng)絡(luò)的集成。用“集成”這個(gè)詞其實(shí)有些問(wèn)題，因?yàn)橐话阄覀冏黾伤惴ú宦?lián)合訓(xùn)練，但這里面整個(gè) ResNet 里指數(shù)多個(gè)網(wǎng)絡(luò)是聯(lián)合訓(xùn)練的，所以很難定義它是不是集成。

我個(gè)人比較認(rèn)同的一種解釋是 Iterative Refinement，它是說(shuō)網(wǎng)絡(luò)初期的層學(xué)習(xí)表示，后期很多層不斷迭代和 Refine 這個(gè)表示。這跟人理解看圖識(shí)字很相似，一個(gè)不容易理解的東西你要看一會(huì)，是基于當(dāng)前一些已看內(nèi)容的理解，反復(fù)看才能看懂。

還有從從優(yōu)化觀點(diǎn)的解釋，如果不用 ResNet 這種構(gòu)造，系統(tǒng)的損失函數(shù)會(huì)非常坑坑洼洼和高低不平，所以很難優(yōu)化。我們知道整個(gè)網(wǎng)絡(luò)訓(xùn)練是非凸的優(yōu)化問(wèn)題，如果是這種不光滑的損失函數(shù)，訓(xùn)練很難跳出局部極小；如果是上圖右邊使用 ResNet 的情況，就可以比較容易地達(dá)一個(gè)很好的局部極小。最近研究表明，局部極小區(qū)域的面積和平坦性和一個(gè)方法的推廣能力非常強(qiáng)相關(guān)。

多層 ResNet 學(xué)習(xí)高度非線性映射的能力非常強(qiáng)。去年，ResNet 成功應(yīng)用于 DeepMind 的 AlphaGo Zero 系統(tǒng)中，用一個(gè)40 或 80 層的網(wǎng)絡(luò)就可以學(xué)到從棋盤(pán)圖像到落子位置這樣一個(gè)高度復(fù)雜的映射，這非常讓人吃驚。

2012 年開(kāi)始有各種各樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)。如果從計(jì)算平臺(tái)的角度看這些工作，大概可以分成三類：第一類是在“云”上，像 GoogleNet、ResNet，其目標(biāo)是向著最高精度方向走，有 GPU、TPU 可以訓(xùn)練非常大的模型，來(lái)探知我們的認(rèn)知邊界；第二類平臺(tái)是在“端”上，特別是一些嵌入式設(shè)備，這些設(shè)備上的計(jì)算能力，內(nèi)存訪問(wèn)都有限制，但很多真實(shí)的場(chǎng)景就是如此，那你怎么去做這上面的研究工作呢？谷歌在去年提出 MobileNet 運(yùn)行在移動(dòng)端設(shè)備上，曠視科技去年提出 ShuffleNet，其目標(biāo)是說(shuō)如何在一個(gè)給定計(jì)算量的設(shè)備上得到最好的效果。

一個(gè)網(wǎng)絡(luò)的最基本結(jié)構(gòu)是多個(gè) 3×3 的卷積，ResNet 加了一個(gè)跳轉(zhuǎn)連接，我們?cè)?ResNet 中還引入一個(gè) Bottleneck 結(jié)構(gòu)，先做 1×1，再做 3×3，再回到 1×1，這樣可以提高卷積的效率。

去年何愷明有一項(xiàng)工作叫 ResNeXt，它在 3x3 的基礎(chǔ)上引入分組卷積的方法，可以很好地提高卷積的有效性；谷歌的 MobileNet 是一個(gè) 3x3 分層卷積的方式，每個(gè)層各卷各的，這種方式非常有效，特別是在低端設(shè)備上。ShuffleNet 結(jié)合分組卷積和分層卷積的思想，對(duì) 1×1 Conv 分組；但是如果只分組的話，組間的信息不會(huì)交換，這樣會(huì)影響特征學(xué)習(xí)，因此我們通過(guò)引入 Shuffle 操作，讓不同分組的信息更好地交換，然后做 3×3 的分層卷積，再回到 1×1 分組卷積，這就是 ShuffleNet 的核心思想。和其它方法相比，在相同的精度下，ShuffleNet 在真實(shí)設(shè)備上的速度要比 AlexNet 快 20 倍左右。

這是我們?nèi)ツ陮槭謾C(jī)設(shè)計(jì)的 ShuffleNet，它在 CPU/ARM 上效果非常好；如果在 GPU 上，它的性能并不好，因?yàn)?CPU 和 GPU 的特性不太一樣，這里面有很多原因，比如卷積的設(shè)計(jì)，Group 卷積等等，我就不贅述了。

今年我們?cè)O(shè)計(jì)了 ShuffleNet v2，也就是第二版，拋棄分組卷積的思想，引入 Channel Split 和 Channel Shuffle 組合的新方法。這個(gè)方法把 Channel 先一分為二，并把每個(gè)分支用非常簡(jiǎn)單的結(jié)構(gòu)來(lái)做，然后在用 Shuffle 操作合并 Channel，這樣做的根源是我們?cè)诰W(wǎng)絡(luò)設(shè)計(jì)中發(fā)現(xiàn)的一些基本指導(dǎo)原則，比如說(shuō)我們需要平衡的卷積而不是稀疏的卷積，更加規(guī)整的卷積而不是零亂的卷積。

這項(xiàng)工作目前在 CPU 和 GPU 上都獲得了最好的精度和速度；不光在小模型，在大模型上同樣取得了非常好的效果，上圖最后一行是說(shuō) ShuffleNet v2 目前在計(jì)算量只有 12.7G Flops 情況下在 ImageNet 上取得了非常高的精度。

我們還需要將神經(jīng)網(wǎng)絡(luò)運(yùn)行在芯片上，這不光對(duì)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)有要求，還要對(duì)網(wǎng)絡(luò)內(nèi)部精度的表示做限制，現(xiàn)在最流行的方法是做低精度化，比如 BNN 和 XNOR Net，還有曠視科技提出的 DorefaNet。低精度方法是指神經(jīng)網(wǎng)絡(luò)的權(quán)重或激活值用低精度表示，比如 1 位，2 位，4 位。如果可以用低精度表示兩個(gè)向量，那么卷積計(jì)算就可以通過(guò)芯片上非常簡(jiǎn)單的位運(yùn)算完成計(jì)算。

我們提出的 DorefaNet 是第一個(gè)對(duì)梯度也做量化的研究工作，從而可以讓我們?cè)?FPGA 甚至 ASIC 上訓(xùn)練。在這些設(shè)備上計(jì)算量是一方面，但是它的內(nèi)存訪問(wèn)限制更大，DorefaNet 這種方法可以做到更好。上圖是我們?cè)?ImageNet 上得到的 1 位，2 位，4 位和 6 位量化精度下的最好分類結(jié)果。

上述分類問(wèn)題網(wǎng)絡(luò)設(shè)計(jì)需要考慮不同的平臺(tái)，其它問(wèn)題多是以分類為基礎(chǔ)，比如說(shuō)檢測(cè)，上圖是檢測(cè)最近幾年的發(fā)展路程，從 R-CNN 到我們提出的 SPP-Net，到 Fast R-CNN，再到我們提出的 Faster R-CNN，它們都是先應(yīng)用基礎(chǔ)分類網(wǎng)絡(luò)，然后構(gòu)建不同的物體檢測(cè)框架。

檢測(cè)方面的目前最有權(quán)威性的競(jìng)賽是 COCO，檢測(cè)精度用 mAP 來(lái)表示，越高越好。2015 年我們?cè)谖④泚喼扪芯吭河?ResNet 做到了 37.3，曠視研究院去年參加了這個(gè)競(jìng)賽，取得第一名的成績(jī) 52.5（滿分 100 分），又推進(jìn)了一大步。我們獲得 COCO 2017 冠軍的論文是 MegDet。COCO 可以對(duì)人進(jìn)行檢測(cè)，也可以抽取特征，我們也在研究后者的工作（Yilun Chen, Zhicheng Wang, Yuxiang Peng, Zhiqiang Zhang, Gang Yu, Jian Sun.Cascaded Pyramid Network for Multi-Person Pose Estimation.CVPR 2018.），提取人體骨架，通過(guò)骨架表示人體運(yùn)動(dòng)，進(jìn)行行為分析，這樣比直接分析圖片進(jìn)行行為訓(xùn)練更為有效。

最后介紹一些我們做的基于云、端、芯上的商業(yè)應(yīng)用。

在云上，曠視科技最早推出了面向開(kāi)發(fā)者的 www.faceplusplus.com 的 AI 云服務(wù)。第二個(gè)云服務(wù)產(chǎn)品是 www.FaceID.com，這是目前最大的在線身份認(rèn)證平臺(tái)，為互聯(lián)網(wǎng)金融、銀行、出行等行業(yè)提供在線身份認(rèn)證服務(wù)。第三個(gè)非常大的云服務(wù)產(chǎn)品是城市大腦，它的核心是通過(guò)很多的傳感器，獲取大量信息，最后做出決策。視覺(jué)是目前最大的一個(gè)感知方式，因?yàn)橹袊?guó)有非常多的攝像頭，通過(guò)賦能這些視覺(jué)傳感器，我們可以知道人和車的屬性，了解交通和地域情況。其中一個(gè)很重要的應(yīng)用是公共安防，即如何用賦能億萬(wàn)攝像頭來(lái)協(xié)助城市安全和高效運(yùn)轉(zhuǎn)。

在端上的應(yīng)用更多，第一個(gè)就是手機(jī)。vivo V7 是第一款海外上市旗艦機(jī)，搭載了我們的人臉解鎖技術(shù)，還有小米 Note 3 的人臉解鎖。我們幫助 vivo 和小米在 iPhoneX 發(fā)布之前推出了人臉解鎖手機(jī)。華為榮耀 V10 和 7C 手機(jī)同樣使用了我們的技術(shù)。華為為什么請(qǐng)孫楊做代言人？因?yàn)樗L(zhǎng)期游泳，指紋已經(jīng)磨光了，必須用人臉解鎖才能很好地使用手機(jī)。

不光是人臉解鎖，還包括人臉 AI 相機(jī)的場(chǎng)景識(shí)別，實(shí)時(shí)知道你在拍什么，更好地調(diào)節(jié)相機(jī)參數(shù)，還可以做人臉三維重建，自動(dòng)實(shí)現(xiàn) 3D 光效。另外一個(gè)很有趣的應(yīng)用是深圳和杭州的肯德基旗艦店，消費(fèi)者可以直接刷臉點(diǎn)餐，這些圖是我在現(xiàn)場(chǎng)刷臉支付喝到一杯果汁的過(guò)程。第二個(gè)是新零售，借助圖像感知系統(tǒng)，能把線下的人、貨、場(chǎng)的過(guò)程數(shù)字化。線上零售是數(shù)字化的，可以根據(jù)數(shù)字化的用戶統(tǒng)計(jì)信息或者個(gè)人信息做用戶畫(huà)像、大數(shù)據(jù)分析，幫助提升新零售效率。我們?cè)诰€下零售，需要用圖像感知來(lái)做數(shù)字化。

最后是芯片。我們?nèi)ツ暝诎卜勒拱l(fā)布了一款智能人像抓拍機(jī)——MegEye-C3S，把 DorefaNet 跑在 FPGA 上，再放到相機(jī)里，這是業(yè)界第一款全畫(huà)幅（1080p）、全幀率（30fps）人臉實(shí)時(shí)檢測(cè)抓拍機(jī)。

再往下應(yīng)該怎么做呢？今天我們是分平臺(tái)，根據(jù)平臺(tái)的特性設(shè)計(jì)不同的網(wǎng)絡(luò)。我們相信下一代會(huì)有一個(gè)“MetaNet”，統(tǒng)一解決各個(gè)平臺(tái)上的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化的問(wèn)題。

謝謝大家。

簡(jiǎn)介：

孫劍，目前在曠視科技（Face++）擔(dān)任首席科學(xué)家、曠視研究院院長(zhǎng)。孫劍博士2003年畢業(yè)于西安交通大學(xué)人工智能與機(jī)器人研究所，其主要研究方向是計(jì)算攝影學(xué)、人臉識(shí)別和基于深度學(xué)習(xí)的圖像理解。

自2002年以在CVPR，ICCV，ECCV，SIGGRAPH，PAMI五個(gè)頂級(jí)學(xué)術(shù)會(huì)議和期刊上發(fā)表學(xué)術(shù)論文100+篇，Google Scholar引用20,000+次，H-index 58，兩次獲得CVPR Best Paper Award（2009,2016）。孫劍博士于2010年被美國(guó)權(quán)威技術(shù)期刊MIT Technology Review 評(píng)選為“全球35歲以下杰出青年創(chuàng)新者”。孫劍博士帶領(lǐng)的團(tuán)隊(duì)于2015年獲得圖像識(shí)別國(guó)際大賽五項(xiàng)冠軍（ImageNet分類，檢測(cè)和定位，MS COCO檢測(cè)和分割），其團(tuán)隊(duì)開(kāi)發(fā)出來(lái)的“深度殘差網(wǎng)絡(luò)”和“基于區(qū)域的快速物體檢測(cè)”技術(shù)已經(jīng)被廣泛應(yīng)用在學(xué)術(shù)和工業(yè)界。同時(shí)孫劍帶領(lǐng)的團(tuán)隊(duì)的研究成果也廣泛被應(yīng)用在微軟Windows，Office，Bing，Azure，Surf ace，Xbox等多條產(chǎn)品線上。目前孫劍博士正在帶領(lǐng)曠視科技的研究團(tuán)隊(duì)推進(jìn)計(jì)算機(jī)視覺(jué)技術(shù)的進(jìn)步，和探索其在工業(yè)和商業(yè)上的實(shí)踐。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴