大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界 - 全文

自從google發(fā)表著名的GFS、MapReduce、BigTable三篇paper以后，互聯(lián)網(wǎng)正式迎來了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)的顯著特點(diǎn)是大，哪里都大的大。本篇主要針對(duì)volume大的數(shù)據(jù)時(shí)，使用機(jī)器學(xué)習(xí)來進(jìn)行數(shù)據(jù)處理過程中遇到的架構(gòu)方面的問題做一個(gè)系統(tǒng)的梳理。

有了GFS我們有能力積累海量的數(shù)據(jù)樣本，比如在線廣告的曝光和點(diǎn)擊數(shù)據(jù)，天然具有正負(fù)樣本的特性，累積一兩個(gè)月往往就能輕松獲得百億、千億級(jí)的訓(xùn)練樣本。這樣海量的樣本如何存儲(chǔ)？用什么樣的模型可以學(xué)習(xí)海量樣本中有用的pattern？這些問題不止是工程問題，也值得每個(gè)做算法的同學(xué)去深入思考。

1.1簡(jiǎn)單模型or復(fù)雜模型

在深度學(xué)習(xí)概念提出之前，算法工程師手頭能用的工具其實(shí)并不多，就LR、SVM、感知機(jī)等寥寥可數(shù)、相對(duì)固定的若干個(gè)模型和算法；那時(shí)候要解決一個(gè)實(shí)際的問題，算法工程師更多的工作主要是在特征工程方面。而特征工程本身并沒有很系統(tǒng)化的指導(dǎo)理論（至少目前沒有看到系統(tǒng)介紹特征工程的書籍），所以很多時(shí)候特征的構(gòu)造技法顯得光怪陸離，是否有用也取決于問題本身、數(shù)據(jù)樣本、模型以及運(yùn)氣。

在特征工程作為算法工程師主要工作內(nèi)容的時(shí)候，構(gòu)造新特征的嘗試往往很大部分都不能在實(shí)際工作中work。據(jù)我了解，國內(nèi)幾家大公司在特征構(gòu)造方面的成功率在后期一般不會(huì)超過20%。也就是80%的新構(gòu)造特征往往并沒什么正向提升效果。如果給這種方式起一個(gè)名字的話，大概是簡(jiǎn)單模型+復(fù)雜特征；簡(jiǎn)單模型說的是算法比如LR、SVM本身并不服務(wù)，參數(shù)和表達(dá)能力基本呈現(xiàn)一種線性關(guān)系，易于理解。復(fù)雜特征則是指特征工程方面不斷嘗試使用各種奇技淫巧構(gòu)造的可能有用、可能沒用的特征，這部分特征的構(gòu)造方式可能會(huì)有各種trick，比如窗口滑動(dòng)、離散化、歸一化、開方、平方、笛卡爾積、多重笛卡爾積等等；順便提一句，因?yàn)樘卣鞴こ瘫旧聿]有特別系統(tǒng)的理論和總結(jié)，所以初入行的同學(xué)想要構(gòu)造特征就需要多讀paper，特別是和自己業(yè)務(wù)場(chǎng)景一樣或類似的場(chǎng)景的paper，從里面學(xué)習(xí)作者分析、理解數(shù)據(jù)的方法以及對(duì)應(yīng)的構(gòu)造特征的技法；久而久之，有望形成自己的知識(shí)體系。

深度學(xué)習(xí)概念提出以后，人們發(fā)現(xiàn)通過深度神經(jīng)網(wǎng)絡(luò)可以進(jìn)行一定程度的表示學(xué)習(xí)（representation learning），例如在圖像領(lǐng)域，通過CNN提取圖像feature并在此基礎(chǔ)上進(jìn)行分類的方法，一舉打破了之前算法的天花板，而且是以極大的差距打破。這給所有算法工程師帶來了新的思路，既然深度學(xué)習(xí)本身有提取特征的能力，干嘛還要苦哈哈的自己去做人工特征設(shè)計(jì)呢？

深度學(xué)習(xí)雖然一定程度上緩解了特征工程的壓力，但這里要強(qiáng)調(diào)兩點(diǎn)：1.緩解并不等于徹底解決，除了圖像這種特定領(lǐng)域，在個(gè)性化推薦等領(lǐng)域，深度學(xué)習(xí)目前還沒有完全取得絕對(duì)的優(yōu)勢(shì)；究其原因，可能還是數(shù)據(jù)自身內(nèi)在結(jié)構(gòu)的問題，使得在其他領(lǐng)域目前還沒有發(fā)現(xiàn)類似圖像+CNN這樣的完美CP。2.深度學(xué)習(xí)在緩解特征工程的同時(shí)，也帶來了模型復(fù)雜、不可解釋的問題。算法工程師在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)方面一樣要花很多心思來提升效果。概括起來，深度學(xué)習(xí)代表的簡(jiǎn)單特征+復(fù)雜模型是解決實(shí)際問題的另一種方式。

兩種模式孰優(yōu)孰劣還難有定論，以點(diǎn)擊率預(yù)測(cè)為例，在計(jì)算廣告領(lǐng)域往往以海量特征+LR為主流，根據(jù)VC維理論，LR的表達(dá)能力和特征個(gè)數(shù)成正比，因此海量的feature也完全可以使LR擁有足夠的描述能力。而在個(gè)性化推薦領(lǐng)域，深度學(xué)習(xí)剛剛萌芽，目前google play采用了WDL的結(jié)構(gòu)[1]，youtube采用了雙重DNN的結(jié)構(gòu)[2]。

不管是那種模式，當(dāng)模型足夠龐大的時(shí)候，都會(huì)出現(xiàn)模型參數(shù)一臺(tái)機(jī)器無法存放的情況。比如百億級(jí)feature的LR對(duì)應(yīng)的權(quán)重w有好幾十個(gè)G，這在很多單機(jī)上存儲(chǔ)都是困難的，大規(guī)模神經(jīng)網(wǎng)絡(luò)則更復(fù)雜，不僅難以單機(jī)存儲(chǔ)，而且參數(shù)和參數(shù)之間還有邏輯上的強(qiáng)依賴；要對(duì)超大規(guī)模的模型進(jìn)行訓(xùn)練勢(shì)必要借用分布式系統(tǒng)的技法，本文主要是系統(tǒng)總結(jié)這方面的一些思路。

1.2數(shù)據(jù)并行vs模型并行

數(shù)據(jù)并行和模型并行是理解大規(guī)模機(jī)器學(xué)習(xí)框架的基礎(chǔ)概念，其緣起未深究，第一次看到是在姐夫（Jeff Dean）的blog里，當(dāng)時(shí)匆匆一瞥，以為自己懂了。多年以后，再次開始調(diào)研這個(gè)問題的時(shí)候才想起長者的教訓(xùn)，年輕人啊，還是圖樣，圖森破。如果你和我一樣曾經(jīng)忽略過這個(gè)概念，今天不放復(fù)習(xí)一下。

這兩個(gè)概念在[3]中沐帥曾經(jīng)給出了一個(gè)非常直觀而經(jīng)典的解釋，可惜不知道什么原因，當(dāng)我想引用時(shí)卻發(fā)現(xiàn)已經(jīng)被刪除了。我在這里簡(jiǎn)單介紹下這個(gè)比喻：如果要修兩棟樓，有一個(gè)工程隊(duì)，怎么操作？第一個(gè)方案是將人分成兩組，分別蓋樓，改好了就裝修；第二種做法是一組人蓋樓，等第一棟樓蓋好，另一組裝修第一棟，然后第一組繼續(xù)蓋第二棟樓，改完以后等裝修隊(duì)裝修第二棟樓。咋一看，第二種方法似乎并行度并不高，但第一種方案需要每個(gè)工程人員都擁有“蓋樓”和“裝修”兩種能力，而第二個(gè)方案只需要每個(gè)人擁有其中一種能力即可。第一個(gè)方案和數(shù)據(jù)并行類似，第二個(gè)方案則道出了模型并行的精髓。
數(shù)據(jù)并行理解起來比較簡(jiǎn)單，當(dāng)樣本比較多的時(shí)候，為了使用所有樣本來訓(xùn)練模型，我們不妨把數(shù)據(jù)分布到不同的機(jī)器上，然后每臺(tái)機(jī)器都來對(duì)模型參數(shù)進(jìn)行迭代，如下圖所示

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

圖片取材于TensorFlow的paper[4]，圖中ABC代表三臺(tái)不同的機(jī)器，上面存儲(chǔ)著不同的樣本，模型P在各臺(tái)機(jī)器上計(jì)算對(duì)應(yīng)的增量，然后在參數(shù)存儲(chǔ)的機(jī)器上進(jìn)行匯總和更新，這就是數(shù)據(jù)并行。先忽略synchronous，這是同步機(jī)制相關(guān)的概念，在第三節(jié)會(huì)有專門介紹。

數(shù)據(jù)并行概念簡(jiǎn)單，而且不依賴于具體的模型，因此數(shù)據(jù)并行機(jī)制可以作為框架的一種基礎(chǔ)功能，對(duì)所有算法都生效。與之不同的是，模型并行因?yàn)閰?shù)間存在依賴關(guān)系（其實(shí)數(shù)據(jù)并行參數(shù)更新也可能會(huì)依賴所有的參數(shù)，但區(qū)別在于往往是依賴于上一個(gè)迭代的全量參數(shù)。而模型并行往往是同一個(gè)迭代內(nèi)的參數(shù)之間有強(qiáng)依賴關(guān)系，比如DNN網(wǎng)絡(luò)的不同層之間的參數(shù)依照BP算法形成的先后依賴），無法類比數(shù)據(jù)并行這樣直接將模型參數(shù)分片而破壞其依賴關(guān)系，所以模型并行不僅要對(duì)模型分片，同時(shí)需要調(diào)度器來控制參數(shù)間的依賴關(guān)系。而每個(gè)模型的依賴關(guān)系往往并不同，所以模型并行的調(diào)度器因模型而異，較難做到完全通用。關(guān)于這個(gè)問題，CMU的Erix Xing在[5]中有所介紹，感興趣的可以參考。

模型并行的問題定義可以參考姐夫的[6]，這篇paper也是tensorflow的前身相關(guān)的總結(jié)，其中圖

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

解釋了模型并行的物理圖景，當(dāng)一個(gè)超大神經(jīng)網(wǎng)絡(luò)無法存儲(chǔ)在一臺(tái)機(jī)器上時(shí)，我們可以切割網(wǎng)絡(luò)存到不同的機(jī)器上，但是為了保持不同參數(shù)分片之間的依賴，如圖中粗黑線的部分，則需要在不同的機(jī)器之間進(jìn)行concurrent控制；同一個(gè)機(jī)器內(nèi)部的參數(shù)依賴，即途中細(xì)黑線部分在機(jī)器內(nèi)即可完成控制。

黑線部分如何有效控制呢？如下圖所示

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

在將模型切分到不同機(jī)器以后，我們將參數(shù)和樣本一起在不同機(jī)器間流轉(zhuǎn)，圖中ABC代表模型的不同部分的參數(shù)；假設(shè)C依賴B，B依賴A，機(jī)器1上得到A的一個(gè)迭代后，將A和必要的樣本信息一起傳到機(jī)器2，機(jī)器2根據(jù)A和樣本對(duì)P2更新得到，以此類推；當(dāng)機(jī)器2計(jì)算B的時(shí)候，機(jī)器1可以展開A的第二個(gè)迭代的計(jì)算。了解CPU流水線操作的同學(xué)一定感到熟悉，是的，模型并行是通過數(shù)據(jù)流水線來實(shí)現(xiàn)并行的。想想那個(gè)蓋樓的第二種方案，就能理解模型并行的精髓了。

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

上圖則是對(duì)控制模型參數(shù)依賴的調(diào)度器的一個(gè)示意圖，實(shí)際框架中一般都會(huì)用DAG（有向無環(huán)圖）調(diào)度技術(shù)來實(shí)現(xiàn)類似功能，未深入研究，以后有機(jī)會(huì)再補(bǔ)充說明。

理解了數(shù)據(jù)并行和模型并行對(duì)后面參數(shù)服務(wù)器的理解至關(guān)重要，但現(xiàn)在讓我先蕩開一筆，簡(jiǎn)單介紹下并行計(jì)算框架的一些背景信息。

2. 并行算法演進(jìn)

2.1 MapReduce路線

從函數(shù)式編程中的受到啟發(fā)，google發(fā)布了MapReduce[7]的分布式計(jì)算方式；通過將任務(wù)切分成多個(gè)疊加的Map+Reduce任務(wù)，來完成復(fù)雜的計(jì)算任務(wù)，示意圖如下

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

MapReduce的主要問題有兩個(gè)，一是原語的語義過于低級(jí)，直接使用其來寫復(fù)雜算法，開發(fā)量比較大；另一個(gè)問題是依賴于磁盤進(jìn)行數(shù)據(jù)傳遞，性能跟不上業(yè)務(wù)需求。

為了解決MapReduce的兩個(gè)問題，Matei在[8]中提出了一種新的數(shù)據(jù)結(jié)構(gòu)RDD，并構(gòu)建了Spark框架。Spark框架在MR語義之上封裝了DAG調(diào)度器，極大降低了算法使用的門檻。較長時(shí)間內(nèi)spark幾乎可以說是大規(guī)模機(jī)器學(xué)習(xí)的代表，直至后來沐帥的參數(shù)服務(wù)器進(jìn)一步開拓了大規(guī)模機(jī)器學(xué)習(xí)的領(lǐng)域以后，spark才暴露出一點(diǎn)點(diǎn)不足。如下圖

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

從圖中可以看出，spark框架以Driver為核心，任務(wù)調(diào)度和參數(shù)匯總都在driver，而driver是單機(jī)結(jié)構(gòu)，所以spark的瓶頸非常明顯，就在Driver這里。當(dāng)模型規(guī)模大到一臺(tái)機(jī)器存不下的時(shí)候，Spark就無法正常運(yùn)行了。所以從今天的眼光來看，Spark只能稱為一個(gè)中等規(guī)模的機(jī)器學(xué)習(xí)框架。劇透一句，公司開源的Angel通過修改Driver的底層協(xié)議將Spark擴(kuò)展到了一個(gè)高一層的境界。后面還會(huì)再詳細(xì)介紹這部分。

MapReduce不僅是一個(gè)框架，還是一種思想，google開創(chuàng)性的工作為我們找到了大數(shù)據(jù)分析的一個(gè)可行方向，時(shí)至今日，仍不過時(shí)。只是逐漸從業(yè)務(wù)層下沉到底層語義應(yīng)該處于的框架下層。

2.2 MPI技術(shù)

沐帥在[9]中對(duì)MPI的前景做了簡(jiǎn)要介紹；和Spark不同，MPI是類似socket的一種系統(tǒng)通信API，只是支持了消息廣播等功能。因?yàn)閷?duì)MPI研究不深入，這里簡(jiǎn)單介紹下優(yōu)點(diǎn)和缺點(diǎn)吧；優(yōu)點(diǎn)是系統(tǒng)級(jí)支持，性能杠杠的；缺點(diǎn)也比較多，一是和MR一樣因?yàn)樵Z過于低級(jí)，用MPI寫算法，往往代碼量比較大。另一方面是基于MPI的集群，如果某個(gè)任務(wù)失敗，往往需要重啟整個(gè)集群，而MPI集群的任務(wù)成功率并不高。阿里在[10]中給出了下圖：

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

從圖中可以看出，MPI作業(yè)失敗的幾率接近五成。MPI也并不是完全沒有可取之處，正如沐帥所說，在超算集群上還是有場(chǎng)景的。對(duì)于工業(yè)屆依賴于云計(jì)算、依賴于commodity計(jì)算機(jī)來說，則顯得性價(jià)比不夠高。當(dāng)然如果在參數(shù)服務(wù)器的框架下，對(duì)單組worker再使用MPI未嘗不是個(gè)好的嘗試，[10]的鯤鵬系統(tǒng)正式這么設(shè)計(jì)的。

3. 參數(shù)服務(wù)器演進(jìn)

3.1 歷史演進(jìn)

沐帥在[12]中將參數(shù)服務(wù)器的歷史劃分為三個(gè)階段，第一代參數(shù)服務(wù)器萌芽于沐帥的導(dǎo)師Smola的[11]，如下圖所示：

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

這個(gè)工作中僅僅引入memcached來存放key-value數(shù)據(jù)，不同的處理進(jìn)程并行對(duì)其進(jìn)行處理。[13]中也有類似的想法，第二代參數(shù)服務(wù)器叫application-specific參數(shù)服務(wù)器，主要針對(duì)特定應(yīng)用而開發(fā)，其中最典型的代表應(yīng)該是tensorflow的前身[6]。

第三代參數(shù)服務(wù)器，也即是通用參數(shù)服務(wù)器框架是由百度少帥李沐正式提出的，和前兩代不同，第三代參數(shù)服務(wù)器從設(shè)計(jì)上就是作為一個(gè)通用大規(guī)模機(jī)器學(xué)習(xí)框架來定位的。要擺脫具體應(yīng)用、算法的束縛，做一個(gè)通用的大規(guī)模機(jī)器學(xué)習(xí)框架，首先就要定義好框架的功能；而所謂框架，往往就是把大量重復(fù)的、瑣碎的、做了一次就不想再來第二次的臟活、累活進(jìn)行良好而優(yōu)雅的封裝，讓使用框架的人可以只關(guān)注與自己的核心邏輯。第三代參數(shù)服務(wù)器要對(duì)那些功能進(jìn)行封裝呢？沐帥總結(jié)了這幾點(diǎn)，我照搬如下：

1）高效的網(wǎng)絡(luò)通信：因?yàn)椴还苁悄Ｐ瓦€是樣本都十分巨大，因此對(duì)網(wǎng)絡(luò)通信的高效支持以及高配的網(wǎng)絡(luò)設(shè)備都是大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)不可缺少的；

2）靈活的一致性模型：不同的一致性模型其實(shí)是在模型收斂速度和集群計(jì)算量之間做tradeoff；要理解這個(gè)概念需要對(duì)模型性能的評(píng)價(jià)做些分析，暫且留到下節(jié)再介紹。

3）彈性可擴(kuò)展：顯而易見

4）容災(zāi)容錯(cuò)：大規(guī)模集群協(xié)作進(jìn)行計(jì)算任務(wù)的時(shí)候，出現(xiàn)Straggler或者機(jī)器故障是非常常見的事，因此系統(tǒng)設(shè)計(jì)本身就要考慮到應(yīng)對(duì)；沒有故障的時(shí)候，也可能因?yàn)閷?duì)任務(wù)時(shí)效性要求的變化而隨時(shí)更改集群的機(jī)器配置。這也需要框架能在不影響任務(wù)的情況下能做到機(jī)器的熱插拔。

5）易用性：主要針對(duì)使用框架進(jìn)行算法調(diào)優(yōu)的工程師而言，顯然，一個(gè)難用的框架是沒有生命力的。

在正式介紹第三代參數(shù)服務(wù)器的主要技術(shù)之前，先從另一個(gè)角度來看下大規(guī)模機(jī)器學(xué)習(xí)框架的演進(jìn)

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

這張圖可以看出，在參數(shù)服務(wù)器出來之前，人們已經(jīng)做了多方面的并行嘗試，不過往往只是針對(duì)某個(gè)特定算法或特定領(lǐng)域，比如YahooLDA是針對(duì)LDA算法的。當(dāng)模型參數(shù)突破十億以后，則可以看出參數(shù)服務(wù)器一統(tǒng)江湖，再無敵手。

首先我們看看第三代參數(shù)服務(wù)器的基本架構(gòu)

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

上圖的resource manager可以先放一放，因?yàn)閷?shí)際系統(tǒng)中這部分往往是復(fù)用現(xiàn)有的資源管理系統(tǒng)，比如yarn或者mesos；底下的training data毋庸置疑的需要類似GFS的分布式文件系統(tǒng)的支持；剩下的部分就是參數(shù)服務(wù)器的核心組件了。

圖中畫了一個(gè)server group和三個(gè)worker group；實(shí)際應(yīng)用中往往也是類似，server group用一個(gè)，而worker group按需配置；server manager是server group中的管理節(jié)點(diǎn)，一般不會(huì)有什么邏輯，只有當(dāng)有server node加入或退出的時(shí)候，為了維持一致性哈希而做一些調(diào)整。

Worker group中的task schedule則是一個(gè)簡(jiǎn)單的任務(wù)協(xié)調(diào)器，一個(gè)具體任務(wù)運(yùn)行的時(shí)候，task schedule負(fù)責(zé)通知每個(gè)worker加載自己對(duì)應(yīng)的數(shù)據(jù)，然后去server node上拉取一個(gè)要更新的參數(shù)分片，用本地?cái)?shù)據(jù)樣本計(jì)算參數(shù)分片對(duì)應(yīng)的變化量，然后同步給server node；server node在收到本機(jī)負(fù)責(zé)的參數(shù)分片對(duì)應(yīng)的所有worker的更新后，對(duì)參數(shù)分片做一次update。

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

如圖所示，不同的worker同時(shí)并行運(yùn)算的時(shí)候，可能因?yàn)榫W(wǎng)絡(luò)、機(jī)器配置等外界原因，導(dǎo)致不同的worker的進(jìn)度是不一樣的，如何控制worker的同步機(jī)制是一個(gè)比較重要的課題。詳見下節(jié)分解。

3.2同步協(xié)議

本節(jié)假設(shè)讀者已經(jīng)對(duì)隨機(jī)梯度優(yōu)化算法比較熟悉，如果不熟悉的同學(xué)請(qǐng)參考吳恩達(dá)經(jīng)典課程機(jī)器學(xué)習(xí)中對(duì)SGD的介紹，或者我之前多次推薦過的書籍《最優(yōu)化導(dǎo)論》。

我們先看一個(gè)單機(jī)算法的運(yùn)行過程，假設(shè)一個(gè)模型的參數(shù)切分成三個(gè)分片k1，k2，k3；比如你可以假設(shè)是一個(gè)邏輯回歸算法的權(quán)重向量被分成三段。我們將訓(xùn)練樣本集合也切分成三個(gè)分片s1，s2，s3；在單機(jī)運(yùn)行的情況下，我們假設(shè)運(yùn)行的序列是（k1，s1）、（k2，s1）、（k3、s1）、（k1、s2）、（k2、s2）、（k3、s2）。。?？疵靼琢藛幔烤褪羌僭O(shè)先用s1中的樣本一次對(duì)參數(shù)分片k1、k2、k3進(jìn)行訓(xùn)練，然后換s2；這就是典型的單機(jī)運(yùn)行的情況，而我們知道這樣的運(yùn)行序列最后算法會(huì)收斂。

現(xiàn)在我們開始并行化，假設(shè)k1、k2、k3分布在三個(gè)server node上，s1、s2、s3分布在三個(gè)worker上，這時(shí)候如果我們還要保持之前的計(jì)算順序，則會(huì)變成怎樣？work1計(jì)算的時(shí)候，work2和worker3只能等待，同樣worker2計(jì)算的時(shí)候，worker1和work3都得等待，以此類推；可以看出這樣的并行化并沒有提升性能；但是也算簡(jiǎn)單解決了超大規(guī)模模型的存儲(chǔ)問題。

為了解決性能的問題，業(yè)界開始探索這里的一致性模型，最先出來的版本是前面提到的[11]中的ASP模式，就是完全不顧worker之間的順序，每個(gè)worker按照自己的節(jié)奏走，跑完一個(gè)迭代就update，然后繼續(xù)，這應(yīng)該是大規(guī)模機(jī)器學(xué)習(xí)中的freestyle了，如圖所示

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

ASP的優(yōu)勢(shì)是最大限度利用了集群的計(jì)算能力，所有的worker所在的機(jī)器都不用等待，但缺點(diǎn)也顯而易見，除了少數(shù)幾個(gè)模型，比如LDA，ASP協(xié)議可能導(dǎo)致模型無法收斂。也就是SGD徹底跑飛了，梯度不知道飛到哪里去了。

在ASP之后提出了另一種相對(duì)極端的同步協(xié)議BSP，spark用的就是這種方式，如圖所示

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

每個(gè)worker都必須在同一個(gè)迭代運(yùn)行，只有一個(gè)迭代任務(wù)所有的worker都完成了，才會(huì)進(jìn)行一次worker和server之間的同步和分片更新。這個(gè)算法和嚴(yán)格一直的算法非常類似，區(qū)別僅僅在于單機(jī)版本的batch size在BSP的時(shí)候變成了有所有worker的單個(gè)batch size求和得到的總的butch size替換。毫無疑問，BSP的模式和單機(jī)串行因?yàn)閮H僅是batch size的區(qū)別，所以在模型收斂性上是完全一樣的。同時(shí)，因?yàn)槊總€(gè)worker在一個(gè)周期內(nèi)是可以并行計(jì)算的，所以有了一定的并行能力。

以此協(xié)議為基礎(chǔ)的spark在很長時(shí)間內(nèi)成為機(jī)器學(xué)習(xí)領(lǐng)域?qū)嶋H的霸主，不是沒有理由的。此種協(xié)議的缺陷之處在于，整個(gè)worker group的性能由其中最慢的worker決定；這個(gè)worker一般稱為straggler。讀過GFS文章的同學(xué)應(yīng)該都知道straggler的存在是非常普遍的現(xiàn)象。

能否將ASP和BSP做一下折中呢？答案當(dāng)然是可以的，這就是目前我認(rèn)為最好的同步協(xié)議SSP；SSP的思路其實(shí)很簡(jiǎn)單，既然ASP是允許不同worker之間的迭代次數(shù)間隔任意大，而BSP則只允許為0，那我是否可以取一個(gè)常數(shù)s？如圖所示

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

不同的worker之間允許有迭代的間隔，但這個(gè)間隔數(shù)不允許超出一個(gè)指定的數(shù)值s，圖中s=3.

SSP協(xié)議的詳細(xì)介紹參見[14]，CMU的大拿Eric Xing在其中詳細(xì)介紹了SSP的定義，以及其收斂性的保證。理論推導(dǎo)證明常數(shù)s不等于無窮大的情況下，算法一定可以在若干次迭代以后進(jìn)入收斂狀態(tài)。其實(shí)在Eric提出理論證明之前，工業(yè)界已經(jīng)這么嘗試過了：）

順便提一句，考察分布式算法的性能，一般會(huì)分為statistical performance和hard performance來看。前者指不同的同步協(xié)議導(dǎo)致算法收斂需要的迭代次數(shù)的多少，后者是單次迭代所對(duì)應(yīng)的耗時(shí)。兩者的關(guān)系和precision\recall關(guān)系類似，就不贅述了。有了SSP，BSP就可以通過指定s=0而得到。而ASP同樣可以通過制定s=∞來達(dá)到。

3.3核心技術(shù)

除了參數(shù)服務(wù)器的架構(gòu)、同步協(xié)議之外，本節(jié)再對(duì)其他技術(shù)做一個(gè)簡(jiǎn)要的介紹，詳細(xì)的了解請(qǐng)直接閱讀沐帥的博士論文和相關(guān)發(fā)表的論文。

熱備、冷備技術(shù)：為了防止server node掛掉，導(dǎo)致任務(wù)中斷，可以采用兩個(gè)技術(shù)，一個(gè)是對(duì)參數(shù)分片進(jìn)行熱備，每個(gè)分片存儲(chǔ)在三個(gè)不同的server node中，以master-slave的形式存活。如果master掛掉，可以快速從slave獲取并重啟相關(guān)task。

除了熱備，還可以定時(shí)寫入checkpoint文件到分布式文件系統(tǒng)來對(duì)參數(shù)分片及其狀態(tài)進(jìn)行備份。進(jìn)一步保證其安全性。

Server node管理：可以使用一致性哈希技術(shù)來解決server node的加入和退出問題，如圖所示

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界

當(dāng)有server node加入或退出的時(shí)候，server manager負(fù)責(zé)對(duì)參數(shù)進(jìn)行重新分片或者合并。注意在對(duì)參數(shù)進(jìn)行分片管理的情況下，一個(gè)分片只需要一把鎖，這大大提升了系統(tǒng)的性能，也是參數(shù)服務(wù)器可以實(shí)用的一個(gè)關(guān)鍵點(diǎn)。

4. 大規(guī)模機(jī)器學(xué)習(xí)的四重境界

到這里可以回到我們的標(biāo)題了，大規(guī)模機(jī)器學(xué)習(xí)的四重境界到底是什么呢？

這四重境界的劃分是作者個(gè)人閱讀總結(jié)的一種想法，并不是業(yè)界標(biāo)準(zhǔn)，僅供大家參考。

境界1：參數(shù)可單機(jī)存儲(chǔ)和更新

此種境界較為簡(jiǎn)單，但仍可以使用參數(shù)服務(wù)器，通過數(shù)據(jù)并行來加速模型的訓(xùn)練。

境界2：參數(shù)不可單機(jī)存儲(chǔ)，可以單機(jī)更新

此種情況對(duì)應(yīng)的是一些簡(jiǎn)單模型，比如sparse logistic regression；當(dāng)feature的數(shù)量突破百億的時(shí)候，LR的權(quán)重參數(shù)不太可能在一臺(tái)機(jī)器上完全存下，此時(shí)必須使用參數(shù)服務(wù)器架構(gòu)對(duì)模型參數(shù)進(jìn)行分片。但是注意一點(diǎn)，SGD的更新公式

w’=w-α，其中可以分開到單個(gè)維度進(jìn)行計(jì)算，但是單個(gè)維度的wi=f(w)xi

這里的f(w)表示是全部參數(shù)w的一個(gè)函數(shù)，具體推倒比較簡(jiǎn)單，這里篇幅所限就不贅述了。只是想說明worker在計(jì)算梯度的時(shí)候可能需要使用到上一輪迭代的所有參數(shù)。而我們之所以對(duì)參數(shù)進(jìn)行分片就是因?yàn)槲覀儫o法將所有參數(shù)存放到一臺(tái)機(jī)器，現(xiàn)在單個(gè)worker有需要使用所有的參數(shù)才能計(jì)算某個(gè)參數(shù)分片的梯度，這不是矛盾嗎？可能嗎？

答案是可能的，因?yàn)閱蝹€(gè)樣本的feature具有很高的稀疏性（sparseness）。例如一個(gè)百億feature的模型，單個(gè)訓(xùn)練樣本往往只在其中很小一部分feature上有取值，其他都為0（假設(shè)feature取值都已經(jīng)離散化了）。因此計(jì)算f(w)的時(shí)候可以只拉取不為0的feature對(duì)應(yīng)的那部分w即可。有文章統(tǒng)計(jì)一般這個(gè)級(jí)別的系統(tǒng)，稀疏性往往在0.1%（or 0.01%，記得不是很準(zhǔn)，大致這樣）以下。這樣的稀疏性，可以讓單機(jī)沒有任何阻礙的計(jì)算f(w)。

目前公司開源的angel和AILab正在做的系統(tǒng)都處于這個(gè)境界。而原生spark還沒有達(dá)到這個(gè)境界，只能在中小規(guī)模的圈子里廝混。Angel改造的基于Angel的Spark則達(dá)到了這個(gè)境界。

境界3：參數(shù)不可單機(jī)存儲(chǔ)，不可單機(jī)更新，但無需模型并行

境界3順延境界2二來，當(dāng)百億級(jí)feature且feature比較稠密的時(shí)候，就需要計(jì)算框架進(jìn)入到這層境界了，此時(shí)單個(gè)worker的能力有限，無法完整加載一個(gè)樣本，也無法完整計(jì)算f(w)。怎么辦呢？其實(shí)很簡(jiǎn)單，學(xué)過線性代數(shù)的都知道，矩陣可以分塊。向量是最簡(jiǎn)單的矩陣，自然可以切成一段一段的來計(jì)算。只是調(diào)度器需要支持算符分段而已了。

境界4：參數(shù)不可單機(jī)存儲(chǔ)，不可單機(jī)更新，需要模型并行

進(jìn)入到這個(gè)層次的計(jì)算框架，可以算是世界一流了?？梢蕴幚沓笠?guī)模的神經(jīng)網(wǎng)絡(luò)。這也是最典型的應(yīng)用場(chǎng)景。此時(shí)不僅模型的參數(shù)不能單機(jī)存儲(chǔ)，而且同一個(gè)迭代內(nèi)，模型參數(shù)之間還有強(qiáng)的依賴關(guān)系，可以參見姐夫?qū)istbelief的介紹里的模型切分。

此時(shí)首先需要增加一個(gè)coordinator組件來進(jìn)行模型并行的concurrent控制。同時(shí)參數(shù)服務(wù)器框架需要支持namespace切分，coordinator將依賴關(guān)系通過namespace來進(jìn)行表示。

一般參數(shù)間的依賴關(guān)系因模型而已，所以較難抽象出通用的coordinator來，而必須以某種形式通過腳本parser來生產(chǎn)整個(gè)計(jì)算任務(wù)的DAG圖，然后通過DAG調(diào)度器來完成。對(duì)這個(gè)問題的介紹可以參考Erix Xing的分享[5]。

Tensorflow

目前業(yè)界比較知名的深度學(xué)習(xí)框架有Caffee、MXNet、Torch、Keras、Theano等，但目前最炙手可熱的應(yīng)該是google發(fā)布的Tensorflow。這里單獨(dú)拿出來稍微分解下。

前面不少圖片引自此文，從TF的論文來看，TF框架本身是支持模型并行和數(shù)據(jù)并行的，內(nèi)置了一個(gè)參數(shù)服務(wù)器模塊，但從開源版本所曝光的API來看，TF無法用來10B級(jí)別feature的稀疏LR模型。原因是已經(jīng)曝光的API只支持在神經(jīng)網(wǎng)絡(luò)的不同層和層間進(jìn)行參數(shù)切分，而超大規(guī)模LR可以看做一個(gè)神經(jīng)單元，TF不支持單個(gè)神經(jīng)單元參數(shù)切分到多個(gè)參數(shù)服務(wù)器node上。

當(dāng)然，以google的實(shí)力，絕對(duì)是可以做到第四重境界的，之所以沒有曝光，可能是基于其他商業(yè)目的的考量，比如使用他們的云計(jì)算服務(wù)。

綜上，個(gè)人認(rèn)為如果能做到第四重境界，目前可以說的上是世界一流的大規(guī)模機(jī)器學(xué)習(xí)框架。僅從沐帥的ppt里看他曾經(jīng)達(dá)到過，google內(nèi)部應(yīng)該也是沒有問題的。第三重境界應(yīng)該是國內(nèi)一流，第二充應(yīng)該是國內(nèi)前列吧。

5. 其他

5.1 資源管理

本文沒有涉及到的部分是資源管理，大規(guī)模機(jī)器學(xué)習(xí)框架部署的集群往往資源消耗也比較大，需要專門的資源管理工具來維護(hù)。這方面yarn和mesos都是佼佼者，細(xì)節(jié)這里也就不介紹了。

5.2 設(shè)備

除了資源管理工具，本身部署大規(guī)模機(jī)器學(xué)習(xí)集群本身對(duì)硬件也還是有些要求的，雖然理論上來說，所有commodity機(jī)器都可以用來搭建這類集群，但是考慮到性能，我們建議盡量用高內(nèi)存的機(jī)器+萬兆及以上的網(wǎng)卡。沒有超快速的網(wǎng)卡，玩參數(shù)傳遞和樣本加載估計(jì)會(huì)比較苦逼。

6. 結(jié)語

從后臺(tái)轉(zhuǎn)算法以來，長期沉浸于算法推理的論文無法自拔，對(duì)自己之前的后臺(tái)工程能力漸漸輕視起來，覺得工程對(duì)算法的幫助不大。直到最近一個(gè)契機(jī)，需要做一個(gè)這方面的調(diào)研，才豁然發(fā)現(xiàn)，之前的工程經(jīng)驗(yàn)對(duì)我理解大規(guī)模機(jī)器學(xué)習(xí)框架非常有用，果然如李宗盛所說，人生每一步路，都不是白走的。

在一個(gè)月左右的調(diào)研中，腦子每天都充斥這各種疑問和困惑，曾經(jīng)半夜4點(diǎn)醒來，思考同步機(jī)制而再也睡不著，干脆起來躲衛(wèi)生間看書，而那天我一點(diǎn)多才睡。當(dāng)腦子里有放不下的問題的時(shí)候，整個(gè)人會(huì)處于一種非常亢奮的狀態(tài)，除非徹底想清楚這個(gè)問題，否則失眠是必然的，上一次這種狀態(tài)已經(jīng)是很多年前了。好在最后我總算理清了這方面的所有關(guān)鍵細(xì)節(jié)。以此，記之。Carbon zhang于2017年8月26日凌晨！

致謝

感謝wills、janwang、joey、roberty、suzi等同學(xué)一起討論，特別感謝burness在TF方面的深厚造詣和調(diào)研。因?yàn)楸救怂剿?，錯(cuò)漏難免，另外還有相當(dāng)多的細(xì)節(jié)因?yàn)槠拗撇⑽匆灰徽归_，僅僅是從較高抽象層面上簡(jiǎn)述了下大規(guī)模機(jī)器學(xué)習(xí)框架的關(guān)鍵思路，其他如分片向量鎖、通信協(xié)議、時(shí)鐘邏輯、DAG調(diào)度器、資源調(diào)度模塊等均為展開來講，希望以后有機(jī)會(huì)能補(bǔ)上。

引用

1. Wide& Deep Learning for Recommender Systems

2. Deep Neural Networks for YouTube Recommendations
3. https://www.zhihu.com/question/53851014

4. TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems

6. Large Scale Distributed Deep Networks

7. MapReduce: Simplified Data Processing on Large
Clusters

8. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing

9. https://www.zhihu.com/question/55119470

10. KunPeng:Parameter Server based Distributed Learning Systems and Its Applications in
Alibaba and Ant Financial

11. An Architecture for Parallel Topic Models

12. Scaling Distributed Machine Learning with the Parameter Server

13. Piccolo:Building fast, distributed pro- grams with partitioned tables

14. More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server

15. Angel-A Flexible and Powerful Parameter Server；黃明ppt

原文鏈接： https://zhuanlan.zhihu.com/p/29968773

閱讀全文

上一頁 1 2全文

本文導(dǎo)航

第 1 頁：大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界
第 2 頁：3.2同步協(xié)議

機(jī)器學(xué)習(xí)(130422) 機(jī)器學(xué)習(xí)(130422)

評(píng)論

相關(guān)推薦

專注AI和機(jī)器學(xué)習(xí) 蘋果擴(kuò)大西雅圖AI團(tuán)隊(duì)規(guī)模

2月24日消息，據(jù)國外媒體報(bào)道，蘋果的西雅圖辦事處將在面積和勞動(dòng)力方面擴(kuò)大規(guī)模，專注于人工智能和機(jī)器學(xué)習(xí)技術(shù)。蘋果機(jī)器學(xué)習(xí)總監(jiān)Carlos Guestrin告訴美國科技媒體GeekWire，我們正在尋找最優(yōu)秀的人工智能和機(jī)器學(xué)習(xí)領(lǐng)域人才，能夠激發(fā)研究和長期思考，將這些想法帶入到產(chǎn)品中。

2017-02-24 13:40:31

2277

3G上網(wǎng)本大規(guī)模使用不會(huì)影響網(wǎng)速

3G上網(wǎng)本大規(guī)模使用不會(huì)影響網(wǎng)速 　近日，三大運(yùn)營商紛紛開始推廣3G上網(wǎng)本。所謂3G上網(wǎng)本，就是內(nèi)置了中國移動(dòng)、中國電信或者中國聯(lián)通3G無線上網(wǎng)模塊的筆記本電腦，這些電腦一般

2010-03-16 09:10:48

5G大規(guī)模MIMO天線陣列3D OTA測(cè)試

Reliable LowLatency Communications, uRLLC) 和大規(guī)模機(jī)器類型通信(massive Machine Type Communications, mMTC)。軟件定義

2019-06-10 07:36:36

5G大規(guī)模多入多出(MIMO)測(cè)試臺(tái)：從理論到現(xiàn)實(shí)

應(yīng)用程序框架。它包含了搭建世界上最通用的、靈活的、可擴(kuò)展的大規(guī)模MIMO測(cè)試臺(tái)所需的硬件和軟件，該測(cè)試臺(tái)支持實(shí)時(shí)處理以及在研發(fā)團(tuán)隊(duì)所感興趣的頻段和帶寬上進(jìn)行雙向通信。使用NI軟件無線電（SDRs

2014-12-24 14:13:12

5G毫米波終端大規(guī)模天線技術(shù)及測(cè)試方案介紹

【摘要】本文首先介紹了全球毫米波頻譜劃分情況，然后通過對(duì)毫米波特性的分析，總結(jié)了毫米波終端將面臨的技術(shù)挑戰(zhàn)，著重介紹了終端側(cè)大規(guī)模天線技術(shù)、毫米波射頻前端技術(shù)的研究進(jìn)展，并根據(jù)毫米波終端的特點(diǎn)分析了

2019-07-18 08:04:55

大規(guī)模FPGA設(shè)計(jì)中的多點(diǎn)綜合技術(shù)

大規(guī)模FPGA設(shè)計(jì)中的多點(diǎn)綜合技術(shù)

2012-08-17 10:27:46

大規(guī)模MIMO的利弊

IEEE Transactions on Information Forensics and Security上的一篇論文探討了這種類型的攻擊。他們發(fā)現(xiàn)，在某些情況下，當(dāng)使用大規(guī)模多入多出技術(shù)

2019-06-18 07:54:32

大規(guī)模MIMO的性能

軌跡產(chǎn)生的容量斜坡仍然比需求線平坦。面對(duì)此挑戰(zhàn)，3GPP 標(biāo)準(zhǔn)實(shí)體近來提出了數(shù)據(jù)容量“到2020 年增長1000 倍”的目標(biāo)，以滿足演進(jìn)性或革命性創(chuàng)意的需要。這種概念要求基站部署極大規(guī)模的天線陣

2019-07-17 07:54:10

大規(guī)模區(qū)域監(jiān)控與通信系統(tǒng)的SOPC芯片組，看完你就懂了

大規(guī)模區(qū)域監(jiān)控與通信系統(tǒng)的SOPC芯片組，看完你就懂了

2021-05-26 06:46:11

大規(guī)模天線技術(shù)商用測(cè)試

作為提升5G系統(tǒng)頻譜效率最直觀的物理層技術(shù)之一，大規(guī)模天線技術(shù)自問世以來，受到了來自學(xué)術(shù)界、工業(yè)界的廣泛關(guān)注。樣機(jī)測(cè)試為了克服信道信息獲取困難、解決導(dǎo)頻污染、以及計(jì)算復(fù)雜度大幅提升等問題，測(cè)試

2019-06-13 07:49:29

大規(guī)模天線陣列介紹

解讀5G通信的殺手锏大規(guī)模天線陣列

2021-01-06 07:11:35

大規(guī)模數(shù)據(jù)集的相似度計(jì)算原理

Spark MLlib 之 大規(guī)模數(shù)據(jù)集的相似度計(jì)算原理探索

2020-06-04 08:19:16

大規(guī)模特征構(gòu)建實(shí)踐總結(jié)

背景一般大公司的機(jī)器學(xué)習(xí)團(tuán)隊(duì)，才會(huì)嘗試構(gòu)建大規(guī)模機(jī)器學(xué)習(xí)模型，如果去看百度、頭條、阿里等分享，都有提到過這類模型。當(dāng)然，大家現(xiàn)在都在說深度學(xué)習(xí)，但在推薦、搜索的場(chǎng)景，據(jù)我所知，ROI并沒有很高，大家

2018-11-19 09:35:28

大規(guī)模集成電路在信息系統(tǒng)中的廣泛應(yīng)用

信息系統(tǒng)處理的共同點(diǎn)如下：1、處理種類不多，且多系固定的、復(fù)用的；2、要求實(shí)時(shí)性；3、是決定信息質(zhì)量的因素之一考慮到這些條件，設(shè)備結(jié)構(gòu)則以硬件控制為宜，因此，需要邏輯運(yùn)算和存儲(chǔ)器用的大規(guī)模

2014-09-11 11:27:25

機(jī)器學(xué)習(xí)的創(chuàng)新/開發(fā)和應(yīng)用能力

機(jī)器學(xué)習(xí)的未來在工業(yè)領(lǐng)域采用機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)和大數(shù)據(jù)工業(yè)人工智能生態(tài)系統(tǒng)

2020-12-16 07:47:35

機(jī)器學(xué)習(xí)的未來

機(jī)器學(xué)習(xí)的未來在工業(yè)領(lǐng)域采用機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)和大數(shù)據(jù)

2021-01-27 06:02:18

機(jī)器學(xué)習(xí)簡(jiǎn)介與經(jīng)典機(jī)器學(xué)習(xí)算法人才培養(yǎng)

上課時(shí)間安排：2022年05月27日 — 2022年05月30日No.1 第一天一、機(jī)器學(xué)習(xí)簡(jiǎn)介與經(jīng)典機(jī)器學(xué)習(xí)算法介紹什么是機(jī)器學(xué)習(xí)？機(jī)器學(xué)習(xí)框架與基本組成機(jī)器學(xué)習(xí)的訓(xùn)練步驟機(jī)器學(xué)習(xí)問題的分類

2022-04-28 18:56:07

Duang!一大波大規(guī)模邏輯設(shè)計(jì)流程時(shí)序優(yōu)化案例正在來襲

解決的方法。在這里，我們會(huì)分享大規(guī)模邏輯設(shè)計(jì)的開發(fā)流程，以及解決復(fù)雜時(shí)序問題的工程案例。此外，還將分享如何利用業(yè)界最新的大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)功能來優(yōu)化時(shí)序設(shè)計(jì)。3.28，讓我們相聚深圳，且聽資深工程師

2015-03-11 16:13:48

RFSoC數(shù)位射頻在大規(guī)模MIMO無線電系統(tǒng)有什么應(yīng)用？

)服務(wù)，與第四代無線網(wǎng)絡(luò)相比，約提升100倍。大規(guī)模MIMO，或稱大規(guī)模數(shù)組天線(Massive MIMO)是達(dá)成效能提升的關(guān)鍵技術(shù)，尤其適合于6GHz以下不常使用的時(shí)分雙工(TDD)頻段，如Band

2019-09-11 11:52:36

Veloce平臺(tái)在大規(guī)模SOC仿真驗(yàn)證中的應(yīng)用

隨著現(xiàn)代集成電路技術(shù)的發(fā)展,尤其是IP的大量使用,芯片的規(guī)模越來越大,系統(tǒng)功能越來越復(fù)雜,普通的EDA和FPGA仿真在速度和性能上已經(jīng)無法勝任芯片仿真驗(yàn)證的要求,功能驗(yàn)證已經(jīng)成為大規(guī)模芯片設(shè)計(jì)的一個(gè)

2010-05-28 13:41:35

tensorflow機(jī)器學(xué)習(xí)日志

tensorflow學(xué)習(xí)日志(四)機(jī)器學(xué)習(xí)（泛化,過擬合, 數(shù)據(jù)集，驗(yàn)證集，測(cè)試集）

2020-04-14 06:32:33

一個(gè)大規(guī)模電路是怎么設(shè)計(jì)出來的？？？

組合成電路，比如一個(gè)電視機(jī)的電路板上電子元件縱橫交錯(cuò)，怎么設(shè)計(jì)組合成那樣的，還有各與器件參數(shù)大小怎么算的?數(shù)字電路的各個(gè)門，模擬電路的三極管，單個(gè)是簡(jiǎn)單，就是不明白怎么組合成大規(guī)模電路的。書上就那么幾個(gè)簡(jiǎn)單的電路圖，網(wǎng)上也查詢過，還是沒得出答案，誰能幫忙解決下。非常感謝?。。?/div>

2012-12-24 20:34:42

一個(gè)benchmark實(shí)現(xiàn)大規(guī)模數(shù)據(jù)集上的OOD檢測(cè)

評(píng)價(jià)算法的性能。為此，這份工作建立了新的benchmark，在ImageNet-1k級(jí)別的數(shù)據(jù)集上設(shè)立了一個(gè)全新的benchmark。并提出了一種基于group的OOD檢測(cè)框架，該框架對(duì)大規(guī)模圖像分類

2022-08-31 15:11:09

一種工作于Sub-6G的5G大規(guī)模天線的系統(tǒng)架構(gòu)探討

本文針對(duì)第5代移動(dòng)通信的關(guān)鍵技術(shù)之一——大規(guī)模陣列天線，提出一種天線系統(tǒng)架構(gòu)，包括密集輻射陣、功分網(wǎng)絡(luò)、耦合校準(zhǔn)網(wǎng)絡(luò)、盲插型連接器和收發(fā)單元。并對(duì)5G大規(guī)模天線系統(tǒng)的每個(gè)組成部分進(jìn)行詳細(xì)介紹，對(duì)在

2019-07-16 08:12:54

中文版CMOS超大規(guī)模集成電路設(shè)計(jì)第4版

本帖最后由 lee_st 于 2018-2-27 09:09 編輯中文版CMOS超大規(guī)模集成電路設(shè)計(jì)第4版

2018-02-25 22:29:45

什么是機(jī)器學(xué)習(xí)? 機(jī)器學(xué)習(xí)基礎(chǔ)入門

大規(guī)模工作負(fù)載的云計(jì)算事實(shí)上，這個(gè)領(lǐng)域已經(jīng)如此專注于桌面和基于云計(jì)算的應(yīng)用，以至于許多嵌入式工程師沒有太多考慮機(jī)器學(xué)習(xí)如何影響他們。大多數(shù)情況下，并沒有。然而，隨著 TinyML 或微型機(jī)器學(xué)習(xí)(在

2022-06-21 11:06:37

介紹一種適合大規(guī)模數(shù)字信號(hào)處理的并行處理結(jié)構(gòu)

本文提出了一種基于FPGA的適合大規(guī)模數(shù)字信號(hào)處理的并行處理結(jié)構(gòu)。

2021-04-30 07:16:52

勻一枯大規(guī)模奪頂替

頂替枯大規(guī)模奪頂替頂替

2018-01-05 18:50:55

華為大規(guī)模邏輯設(shè)計(jì)指導(dǎo)書方法論

華為 大規(guī)模邏輯設(shè)計(jì)指導(dǎo)書方法論

2019-11-22 22:52:12

華為大規(guī)模邏輯設(shè)計(jì)指導(dǎo)書

華為大規(guī)模邏輯設(shè)計(jì)指導(dǎo)書。非常詳細(xì)地介紹了邏輯設(shè)計(jì)的規(guī)范要求及方法。

2020-01-27 17:58:38

華為_大規(guī)模邏輯設(shè)計(jì)指導(dǎo)書

本帖最后由 eyesee 于 2017-3-2 09:29 編輯華為_大規(guī)模邏輯設(shè)計(jì)指導(dǎo)書

2017-03-01 11:56:34

華為_大規(guī)模邏輯設(shè)計(jì)指導(dǎo)書

華為大規(guī)模邏輯設(shè)計(jì)指導(dǎo)書

2015-04-20 13:41:35

華為_大規(guī)模邏輯設(shè)計(jì)指導(dǎo)書

2012-08-18 08:11:53

基于SCADE Vision的主動(dòng)學(xué)習(xí)框架

基于SCADE Vision的主動(dòng)學(xué)習(xí)框架Ansys SCADE Vision-感知算法魯棒性分析測(cè)試工具

2021-02-05 06:31:06

如何去推進(jìn)FTTH大規(guī)模建設(shè)？

如何去推進(jìn)FTTH大規(guī)模建設(shè)？影響FTTH大規(guī)模建設(shè)的原因有哪些？

2021-05-27 06:58:13

小型絕緣電阻驅(qū)動(dòng)大規(guī)模電容負(fù)載驗(yàn)證設(shè)計(jì)

描述此 TI 驗(yàn)證設(shè)計(jì)采用各種運(yùn)算放大器，以絕緣電阻驅(qū)動(dòng) 100pF 至 1uF 的電容負(fù)載。OPA192 的亮點(diǎn)在于其能夠以小型絕緣電阻驅(qū)動(dòng)大規(guī)模電容負(fù)載。主要特色電源電壓：30 V (+/-15

2018-11-15 11:40:22

怎么實(shí)現(xiàn)大規(guī)模電動(dòng)汽車的生產(chǎn)

大規(guī)模電動(dòng)汽車生產(chǎn)需要先進(jìn)的電池化成和測(cè)試系統(tǒng)

2021-01-27 06:59:50

最值得學(xué)習(xí)的機(jī)器學(xué)習(xí)編程語言

如果你對(duì)人工智能和機(jī)器學(xué)習(xí)感興趣，而且正在積極地規(guī)劃著自己的程序員職業(yè)生涯，那么你肯定面臨著一個(gè)問題：你應(yīng)該學(xué)習(xí)哪些編程語言，才能真正了解并掌握 AI 和機(jī)器學(xué)習(xí)？可供選擇的語言很多，你需要通過戰(zhàn)略

2021-03-02 06:22:38

構(gòu)建大規(guī)模MIMO的難點(diǎn)在哪？

構(gòu)建大規(guī)模MIMO的難點(diǎn)在哪？高功率硅開關(guān)的應(yīng)用案列分析

2021-03-11 07:05:03

每秒幾十萬的大規(guī)模網(wǎng)絡(luò)爬蟲的煉成

每秒幾十萬的大規(guī)模網(wǎng)絡(luò)爬蟲是如何煉成的？

2019-05-27 15:02:25

深度學(xué)習(xí)框架只為GPU?

CPU優(yōu)化深度學(xué)習(xí)框架和函數(shù)庫機(jī)器學(xué)***器

2021-02-22 06:01:02

請(qǐng)教大神如何去管理大規(guī)模數(shù)據(jù)？

請(qǐng)教大神如何去管理大規(guī)模數(shù)據(jù)？

2021-05-11 06:56:54

請(qǐng)問F*s出廠時(shí)固化在ROM中的bootloader通過串口最大規(guī)模**的程序？

請(qǐng)問F***S出廠時(shí)，固化在ROM中的bootloader通過串口最大規(guī)模的程序？有的型號(hào)的芯片由于受地址總線尋址限制最大能夠加載16K的程序，如果程序規(guī)模超過16K，就得使用用戶bootloader程序二次加載，請(qǐng)問F***S是否有同樣的限制？

2018-08-31 15:17:50

請(qǐng)問一下大規(guī)模MIMO的原型怎么制作？

大規(guī)模MIMO的原型怎么制作？

2021-05-24 06:25:09

請(qǐng)問怎么用MATLAB畫含參量四重積分圖?

怎么會(huì)用MATLAB畫含參量四重積分圖？

2019-11-24 23:31:51

輪胎壓力監(jiān)測(cè)（TPM）系統(tǒng)有望獲得大規(guī)模應(yīng)用

輪胎壓力監(jiān)測(cè)（TPM）系統(tǒng)有望獲得大規(guī)模應(yīng)用。

2021-05-12 06:02:56

阿里巴巴統(tǒng)一的超大規(guī)模數(shù)據(jù)計(jì)算平臺(tái)MaxCompute的探索與實(shí)踐

阿里關(guān)濤談大規(guī)模計(jì)算—從數(shù)字化阿里到數(shù)字化城市的進(jìn)化

2019-05-16 07:46:04

怎樣在iOS機(jī)器學(xué)習(xí)框架Core ML

2017年的WWDC上，蘋果發(fā)布了Core ML這個(gè)機(jī)器學(xué)習(xí)框架?，F(xiàn)在，開發(fā)者可以輕松的使用Core ML把機(jī)器學(xué)習(xí)功能集成到自己的應(yīng)用里，讓應(yīng)用變得更加智能，給用戶更牛逼的體驗(yàn)。 Core ML

2017-09-25 15:59:34

大規(guī)模分布式機(jī)器學(xué)習(xí)系統(tǒng)分析

針對(duì)構(gòu)建大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)在可擴(kuò)展性、算法收斂性能、運(yùn)行效率等方面面臨的問題，分析了大規(guī)模樣本、模型和網(wǎng)絡(luò)通信給機(jī)器學(xué)習(xí)系統(tǒng)帶來的挑戰(zhàn)和現(xiàn)有系統(tǒng)的應(yīng)對(duì)方案。以隱含狄利克雷分布（ LDA）模型

2017-12-05 19:02:42

面向大規(guī)模圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化

摘在圖像分類任務(wù)中，為了獲得更高的分類精度，需要對(duì)圖像提取不同層次的特征信息．深度學(xué)習(xí)被越來越多的應(yīng)用于大規(guī)模圖像分類任務(wù)中．本文提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的?？蓱?yīng)用于大規(guī)模圖像分類的深度學(xué)習(xí)

2017-12-15 13:58:51

Airbnb機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)團(tuán)隊(duì)經(jīng)驗(yàn)分享

Airbnb資深機(jī)器學(xué)習(xí)科學(xué)家Shijing Yao、前Airbnb數(shù)據(jù)科學(xué)負(fù)責(zé)人Qiang Zhu、Airbnb機(jī)器學(xué)習(xí)工程師Phillippe Siclait分享了在Airbnb產(chǎn)品上大規(guī)模應(yīng)用深度學(xué)習(xí)技術(shù)的經(jīng)驗(yàn)。

2018-07-07 09:24:03

3610

你最看好哪個(gè)深度學(xué)習(xí)框架呢？

開源的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)正步入成熟，而現(xiàn)在有許多框架具備為個(gè)性化方案提供先進(jìn)的機(jī)器學(xué)習(xí)和人工智能的能力。

2018-09-21 17:02:53

6364

微軟新的機(jī)器學(xué)習(xí)框架核心產(chǎn)品機(jī)器學(xué)習(xí)引擎infer.NET的概述

感覺微軟對(duì)開源上癮了。在開源了跨平臺(tái)機(jī)器學(xué)習(xí)框架ML.NET之后，微軟又開源了一個(gè)非常重要的機(jī)器學(xué)習(xí)框架：infer.NET，而且采用的還是MIT許可證。

2018-10-14 11:01:45

3887

深度學(xué)習(xí)框架不能“包治百病”什么樣的深度學(xué)習(xí)框架才是適合自己的呢？

PaddlePaddle：百度出品，跟 TF 類似，PaddlePaddle 也是在百度內(nèi)部實(shí)際應(yīng)用的工業(yè)框架。值得一提的是，PaddlePaddle 為大量工業(yè)級(jí)模型提供官方支持；大規(guī)模分布式訓(xùn)練

2019-02-11 09:41:07

3690

微軟推出開源跨平臺(tái)的機(jī)器學(xué)習(xí)框架 ML.NET

微軟最近推出了ML.NET，這是一個(gè)用于構(gòu)建自定義機(jī)器學(xué)習(xí)庫解決方案的框架。

2019-05-22 14:17:22

2633

深度學(xué)習(xí)框架你了解多少

2019-07-08 10:31:30

2056

谷歌發(fā)布機(jī)器學(xué)習(xí)框架：一個(gè)名叫NSL的神經(jīng)結(jié)構(gòu)學(xué)習(xí)框架

神經(jīng)結(jié)構(gòu)學(xué)習(xí)框架（NSL）的作用很大，它可以制作計(jì)算機(jī)視覺模型、執(zhí)行自然語言處理（NLP）、從醫(yī)療記錄或知識(shí)圖等圖形數(shù)據(jù)集中運(yùn)行預(yù)測(cè)，還可以與 TensorFlow 機(jī)器學(xué)習(xí)平臺(tái)配合使用，適用于有經(jīng)驗(yàn)或缺乏經(jīng)驗(yàn)的機(jī)器學(xué)習(xí)從業(yè)者。

2019-09-20 14:30:51

3006

如何去擴(kuò)大機(jī)器學(xué)習(xí)規(guī)模

臉書將機(jī)器學(xué)習(xí)用于很多領(lǐng)域。在臉書主頁上，機(jī)器學(xué)習(xí)可以搜索內(nèi)容，翻譯語言，掃描動(dòng)態(tài)消息并識(shí)別用戶上傳的照片中的面孔，以及查廣告展示的內(nèi)容。

2020-03-14 09:52:11

408

LinkedIn機(jī)器學(xué)習(xí)解決方案

LinkedIn已實(shí)現(xiàn)了非常先進(jìn)的體系結(jié)構(gòu)，可大規(guī)模開發(fā)機(jī)器學(xué)習(xí)解決方案。

2020-05-03 18:37:00

1750

機(jī)器學(xué)習(xí)規(guī)模怎樣去擴(kuò)大

機(jī)器學(xué)習(xí)正在不斷發(fā)展，新的商業(yè)突破、科學(xué)進(jìn)步、框架改進(jìn)和實(shí)踐常常見諸各大媒體。

2020-05-01 21:15:00

243

7種最佳的開源AI /機(jī)器學(xué)習(xí)系統(tǒng)和框架

　Torch是為LuaJIT編寫的完整的科學(xué)計(jì)算環(huán)境，它是針對(duì)Lua語言的即時(shí)（JIT）編譯器。 Torch不僅是機(jī)器學(xué)習(xí)框架/庫，還是更大的科學(xué)計(jì)算環(huán)境，但是它提供的功能之一是對(duì)機(jī)器學(xué)習(xí)的支持。

2020-04-15 16:33:40

5532

OpenAI推出Jukebox機(jī)器學(xué)習(xí)框架，可自動(dòng)生成音樂

近日，由諸多硅谷大亨聯(lián)合建立的人工智能非營利組織OpenAI，推出了一款可自動(dòng)生成音樂的機(jī)器學(xué)習(xí)框架Jukebox。

2020-05-07 08:41:23

2008

Java和Python機(jī)器學(xué)習(xí)框架都有哪些

機(jī)器學(xué)習(xí)的爆炸性增長推動(dòng)了許多開源工具的發(fā)展，使得開發(fā)人員更容易學(xué)習(xí)其技術(shù)。接下來，我們來看看開發(fā)者最喜歡的Java和Python機(jī)器學(xué)習(xí)框架都有哪些？

2020-05-18 11:48:44

1331

阿里云機(jī)器學(xué)習(xí)研究員對(duì)大規(guī)模機(jī)器學(xué)習(xí)實(shí)踐的見解

近年來，機(jī)器學(xué)習(xí)技術(shù)的發(fā)展歸因于我們有極其龐大的數(shù)據(jù)用來訓(xùn)練算法。當(dāng)企業(yè)需要落地大規(guī)模機(jī)器學(xué)習(xí)時(shí)，往往會(huì)面臨很多難題，如何解決這些問題？如何系統(tǒng)了解大規(guī)模機(jī)器學(xué)習(xí)落地的技巧？其適用

2020-07-31 16:22:12

648

5G無線知識(shí)，從“大規(guī)模MIMO”開始

本期干貨講解5G無線里面的重要知識(shí)：大規(guī)模MIMO，即多輸入多輸出。它是開啟5G用戶體驗(yàn)的關(guān)鍵技術(shù)之一！如果，你也不是很了解。那就跟隨本期主題，一起學(xué)習(xí)大規(guī)模MIMO吧。 1、大規(guī)模MIMO

2020-10-16 10:55:05

3638

如何使用TensorFlow進(jìn)行大規(guī)模和分布式的QML模擬

發(fā)布人：Google 團(tuán)隊(duì) Cheng Xing 和 Michael Broughton 訓(xùn)練大型機(jī)器學(xué)習(xí)模型是 TensorFlow 的核心能力。多年來，訓(xùn)練規(guī)模已成為 NLP、圖像識(shí)別和藥物研發(fā)

2021-08-10 17:31:18

2321

2021 OPPO開發(fā)者大會(huì)主會(huì)場(chǎng)：端云協(xié)同的大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)

2021 OPPO開發(fā)者大會(huì)主會(huì)場(chǎng)：端云協(xié)同的大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)

2021-10-27 11:18:36

1221

2021 OPPO開發(fā)者大會(huì)：端云協(xié)同的大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)

2021 OPPO開發(fā)者大會(huì)：端云協(xié)同的大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng) 2021 OPPO開發(fā)者大會(huì)上介紹了端云協(xié)同的大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)。責(zé)任編輯：haq

2021-10-27 11:29:32

1315

達(dá)摩院發(fā)布開源新型聯(lián)邦學(xué)習(xí)框架FederatedScope

5月5日，達(dá)摩院發(fā)布并開源新型聯(lián)邦學(xué)習(xí)框架FederatedScope，該框架支持大規(guī)模、高效率的聯(lián)邦學(xué)習(xí)異步訓(xùn)練，能兼容不同設(shè)備運(yùn)行環(huán)境，且提供豐富功能模塊，大幅降低了隱私保護(hù)計(jì)算技術(shù)開發(fā)與部署難度。

2022-05-05 15:22:00

1104

一個(gè)大規(guī)模多任務(wù)學(xué)習(xí)框架μ2Net

這種方法可以提高每個(gè)任務(wù)的質(zhì)量，并在收斂時(shí)間、訓(xùn)練實(shí)例數(shù)量、能源消耗等方面提高模型效率。本文提出的機(jī)器學(xué)習(xí)問題框架，可以視作標(biāo)準(zhǔn)多任務(wù)和持續(xù)學(xué)習(xí)形式化的概括和綜合。

2022-07-21 10:19:04

1039

用于弱監(jiān)督大規(guī)模點(diǎn)云語義分割的混合對(duì)比正則化框架

為了解決大規(guī)模點(diǎn)云語義分割中的巨大標(biāo)記成本，我們提出了一種新的弱監(jiān)督環(huán)境下的混合對(duì)比正則化（HybridCR）框架，該框架與全監(jiān)督的框架相比具有競(jìng)爭(zhēng)性。

2022-09-05 14:38:00

998

扎克伯格承認(rèn)臉書大規(guī)模裁員

扎克伯格承認(rèn)臉書大規(guī)模裁員裁員不止是特斯拉的專項(xiàng)，還有臉書?，F(xiàn)在扎克伯格承認(rèn)臉書大規(guī)模裁員，Meta此前一直燒錢但是沒有什么產(chǎn)出，元宇宙沒有能夠快速讓臉書回血。而且在市場(chǎng)下行的情況下大佬都已

2022-11-09 16:22:09

374

基于隱式表達(dá)的大規(guī)模三維建圖的方法

/PRBonn/SHINE_mapping? ? 該工作提出了一種基于隱式表達(dá)的大規(guī)模三維建圖的方法，它利用分層八叉樹的結(jié)構(gòu)來存儲(chǔ)可學(xué)習(xí)的局部特征，并通過共享的淺層MLP將局部特征轉(zhuǎn)換為有符號(hào)距離場(chǎng)。相比于以往的工作，該

2023-06-27 11:01:55

464

深度學(xué)習(xí)框架pytorch入門與實(shí)踐

深度學(xué)習(xí)框架pytorch入門與實(shí)踐深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)分支，它使用多層神經(jīng)網(wǎng)絡(luò)對(duì)大量數(shù)據(jù)進(jìn)行學(xué)習(xí)，以實(shí)現(xiàn)人工智能的目標(biāo)。在實(shí)現(xiàn)深度學(xué)習(xí)的過程中，選擇一個(gè)適用的開發(fā)框架是非常關(guān)鍵

2023-08-17 16:03:06

1075

深度學(xué)習(xí)框架是什么？深度學(xué)習(xí)框架有哪些？

高模型的精度和性能。隨著人工智能和機(jī)器學(xué)習(xí)的迅猛發(fā)展，深度學(xué)習(xí)框架已成為了研究和開發(fā)人員們必備的工具之一。目前，市場(chǎng)上存在許多深度學(xué)習(xí)框架可供選擇。本文將為您介紹一些較為常見的深度學(xué)習(xí)框架，并探究它們的特點(diǎn)

2023-08-17 16:03:09

1585

深度學(xué)習(xí)框架pytorch介紹

深度學(xué)習(xí)框架pytorch介紹 PyTorch是由Facebook創(chuàng)建的開源機(jī)器學(xué)習(xí)框架，其中TensorFlow是完全基于數(shù)據(jù)流圖的。它是一個(gè)使用動(dòng)態(tài)計(jì)算圖的框架，允許用戶更靈活地定義和修改模型

2023-08-17 16:10:59

989

深度學(xué)習(xí)算法庫框架學(xué)習(xí)

深度學(xué)習(xí)算法庫框架學(xué)習(xí) 深度學(xué)習(xí)是一種非常強(qiáng)大的機(jī)器學(xué)習(xí)方法，它可以用于許多不同的應(yīng)用程序，例如計(jì)算機(jī)視覺、語言處理和自然語言處理。然而，實(shí)現(xiàn)深度學(xué)習(xí)技術(shù)需要使用一些算法庫框架。在本文中，我們將探討

2023-08-17 16:11:07

411

深度學(xué)習(xí)框架連接技術(shù)

深度學(xué)習(xí)框架連接技術(shù) 深度學(xué)習(xí)框架是一個(gè)能夠幫助機(jī)器學(xué)習(xí)和人工智能開發(fā)人員輕松進(jìn)行模型訓(xùn)練、優(yōu)化及評(píng)估的軟件庫。深度學(xué)習(xí)框架連接技術(shù)則是需要使用深度學(xué)習(xí)模型的應(yīng)用程序必不可少的技術(shù)，通過連接技術(shù)

2023-08-17 16:11:16

443

深度學(xué)習(xí)cntk框架介紹

深度學(xué)習(xí)cntk框架介紹? 深度學(xué)習(xí)是最近幾年來非常熱門的話題，它正在徹底改變我們生活和工作的方式。隨著越來越多的創(chuàng)新和發(fā)展，人工智能和機(jī)器學(xué)習(xí)的應(yīng)用范圍正在大大擴(kuò)展。而對(duì)于深度學(xué)習(xí)這個(gè)領(lǐng)域來說

2023-08-17 16:11:23

881

深度學(xué)習(xí)框架和深度學(xué)習(xí)算法教程

深度學(xué)習(xí)框架和深度學(xué)習(xí)算法教程深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要分支，多年來深度學(xué)習(xí)一直在各個(gè)領(lǐng)域的應(yīng)用中發(fā)揮著極其重要的作用，成為了人工智能技術(shù)的重要組成部分。許多深度學(xué)習(xí)算法和框架提供

2023-08-17 16:11:26

637

谷歌模型框架是什么軟件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌開發(fā)的用于機(jī)器學(xué)習(xí)和人工智能的軟件框架，其中最著名的是TensorFlow。TensorFlow是一個(gè)開源的機(jī)器學(xué)習(xí)框架，由谷歌的機(jī)器學(xué)習(xí)團(tuán)隊(duì)開發(fā)，用于構(gòu)建和訓(xùn)練各種機(jī)器學(xué)習(xí)模型。

2024-03-01 16:25:27

158

已全部加載完成

搜索歷史

大規(guī)模機(jī)器學(xué)習(xí)框架的四重境界 - 全文

2. 并行算法演進(jìn)

3. 參數(shù)服務(wù)器演進(jìn)

4. 大規(guī)模機(jī)器學(xué)習(xí)的四重境界

5. 其他

6. 結(jié)語

本文導(dǎo)航

評(píng)論