在深度學習領域,PyTorch、TensorFlow 等主流框架,毫無疑問占據(jù)絕大部分市場份額,就連百度這樣級別的公司,也是花費了大量人力物力,堪堪將 PaddlePaddle 推入主流。
在這樣資源主導、肉食者謀的競爭環(huán)境下,一家國產深度學習框架的創(chuàng)業(yè)公司 OneFlow 出現(xiàn)了。
它以處理大規(guī)模模型見長,甚至今年將全部源碼和實驗對比數(shù)據(jù),在 GitHub 進行了開源。
質疑不可避免的出現(xiàn)了:OneFlow 這種擅長解決大模型訓練的新架構有必要嗎?深度學習框架的效率有那么重要嗎?創(chuàng)業(yè)公司有可能在競爭中脫穎而出么?
我們借著 CosCon 20' 開源年會的機會,采訪了一流科技 CEO 袁進輝,了解到了他和一流科技的工程師們,1300 多個日日夜夜、數(shù)十萬行代碼背后的故事。
光環(huán)再多,創(chuàng)業(yè)也得一步一個腳印
2016 年 11 月,袁進輝在清華附近的一棟寫字樓里,寫下了 OneFlow 的第一版設計理念。此時的袁進輝剛剛從工作了近 4 年的微軟亞洲研究院(MSRA)離職。
「MSRA 前員工」并不是袁進輝身上唯一的 tag,2003 年從西安電子科技大學本科畢業(yè)后,他被保送到清華大學計算機系繼續(xù)直博學習,師從中國科學院院士、中國 AI 學科奠基人之一張鈸教授。
2008 年袁進輝從清華大學畢業(yè)后,先后加入網易、360 搜索。他開發(fā)的鷹眼系統(tǒng),被中國國家隊作為日常訓練輔助系統(tǒng)。除此之外,他在 MSRA 工作期間,專注于大規(guī)模機器學習平臺,還研發(fā)出了當時世界上最快的主題模型訓練算法和系統(tǒng) LightLDA,被應用于微軟在線廣告系統(tǒng)。
LightLDA 于 2014 年面世,僅僅兩年之后,獨具慧眼的袁進輝就又萌生了一個大膽地猜想:隨著業(yè)務需求和場景的豐富,能高效處理大模型訓練的分布式深度學習框架,必然成為繼 Hadoop、Spark 之后,數(shù)據(jù)智能時代基礎設施的核心。
但是當時主流的深度學習框架都是由 Google、Amazon、Facebook 等大廠牽頭開發(fā)的,即使是國內情況也類似。這由于開發(fā)深度學習框架不光需要雄厚的研發(fā)成本,更重要的是能耐得住寂寞,做好打持久戰(zhàn)的準備,因此尚沒有初創(chuàng)企業(yè)敢在該領域試水。
已有的深度學習框架都已經打的如火如荼了,一家初創(chuàng)企業(yè),又搞出來一個新框架,會有用戶買單嗎?行動派袁進輝不但敢想,他還敢干。
敲下 OneFlow 第一行代碼的時候,他還沒想清楚詳細地實現(xiàn)策略,更談不上完善的業(yè)務邏輯。他的想法很簡單,又很復雜,要做一款「開發(fā)者愛用」的產品。
一群天才+21 個月,OneFlow 初版上線
2017 年 1 月,袁進輝成立一流科技,召集了 30 多位工程師,開啟了 OneFlow 的正式「團戰(zhàn)」。盡管大家對困難已經做了充分預估,但是隨著開發(fā)的逐漸深入,涌現(xiàn)的重重困難還是出乎的團隊的意料。
深度學習框架的技術非常復雜,況且 OneFlow 采用了一個全新的技術架構,沒有先例可以參考,光是把技術設想跑通,就花了快兩年時間。
2018 年秋天,一流科技的發(fā)展進入了最艱難的階段。產品研發(fā)遲遲不能定型,一些員工的耐心跟信心消耗殆盡,加上公司下輪融資一波三折,團隊的士氣和信心面臨極大挑戰(zhàn)。
在創(chuàng)業(yè)圈有個「18 個月魔咒」的說法,意思是一年半沒看到希望,沒有正反饋,創(chuàng)業(yè)團隊的心態(tài)就會發(fā)生變化,失去耐心。袁進輝意識到,不能再等了,必須要盡早在真實場景去使用 OneFlow,讓大家看到 OneFlow 的創(chuàng)新的確是有價值的, 從而形成正反饋。
2018 年 9 月,在經歷了長達 1 年 9 個月的研發(fā)后,袁進輝和團隊推出了 OneFlow 閉源版。當時 OneFlow 還沒有開源,也存在大大小小的問題,但產品正式發(fā)布了,總算是給團隊成員吃了個定心丸。
專注大規(guī)模訓練,效率秒殺同類框架
2018 年 11 月,幸運之神降臨到一流科技。Google 推出了最強自然語言模型 BERT,開啟了 NLP 新時代。這驗證了袁進輝的預測,擅長處理大規(guī)模訓練的新架構,是必須且必要的。
很快,一流科技的工程師就基于 OneFlow 支持了 BERT-Large 的分布式訓練,這也是當時唯一一個支持分布式 BERT-Large 訓練的框架,性能和處理速度遠超已有的開源框架。
OneFlow 異構分布式流式系統(tǒng)架構圖
OneFlow 「一戰(zhàn)成名」,這也為一流科技積累第一批頭部互聯(lián)網企業(yè)用戶提供了契機。令人倍感意外的是,當時的袁進輝因為「仍對產品不滿意」,所以選擇了一條格外低調的路。
從 2018 年 9 月閉源版本發(fā)布,到 2020 年 7 月正式開源,袁進輝又用了 22 個月來打磨 OneFlow。他和團隊一邊持續(xù)優(yōu)化經典模型,一邊解決原來沒預計到的問題,在袁進輝看來,哪怕是產品文檔沒做好,他都不會輕易把 OneFlow 推到臺面上。
2020 年 7 月 31 日,OneFlow 正式在 GitHub 開源。這個以訓練大規(guī)模模型著稱的開源框架,第二次站到聚光燈下,完美詮釋了四個字--效率為王。
深度學習框架版圖幾乎由美國企業(yè)主導
國內開源的深度學習框架版圖中
只有 OneFlow 是由初創(chuàng)企業(yè)研發(fā)并開源
訓練速度更快、GPU 利用率更高、多機加速比更高、運維成本更低、用戶上手難度更低,五個強大優(yōu)勢讓 OneFlow 能快速適應各個場景,并進行快速延展。袁進輝和團隊對 OneFlow 的性能追求和優(yōu)化,達到了極致。
近期,OneFlow 發(fā)布了 v0.2.0 版本,更新的性能優(yōu)化多達 17 個,使得 CNN 和 BERT 的自動混合精度訓練速度大幅提升。
開發(fā)團隊還建立了一個名為 DLPerf 的開源項目,將實驗環(huán)境、實驗數(shù)據(jù)、可復現(xiàn)算法完全開源,測評了在相同的物理環(huán)境上(4臺 V100 16G x8的機器),OneFlow 和其他幾個主流框架在 ResNet50-v1.5 和 BERT-base 模型上的吞吐率及加速比。
7 個框架在 ResNet50-v1.5 模型上的吞吐率對比
結果證明 OneFlow 在單機單卡、多機多卡下的吞吐率都明顯領先其他框架,成為在主流旗艦顯卡(V100 16G)上訓練 ResNet50-v1.5 和 BERT-base 模型最快的框架,OneFlow ResNet50-v1.5 AMP 單卡比 NVIDIA 深度優(yōu)化過的 PyTorch 快 80%, 比 TensorFlow 2.3 快 35%。
直面質疑,做賽道的「少數(shù)派」
事實上,OneFlow 從誕生至今,受到的質疑并不在少數(shù),「上車晚且生存空間狹小」是最主流的聲音,對此袁進輝表現(xiàn)出了超乎尋常的坦然。
在他看來,深度學習框架本就是一個新生事物,技術和產業(yè)都在中早期,不存在上車早晚的問題。在技術收斂之前,性能高、易用性強、符合用戶使用價值的產品,就會受到用戶的青睞。
至于生存空間小一說,更是子虛烏有。開源讓小公司和大公司的產品有機會公平競技,優(yōu)秀的新生框架挑戰(zhàn)權威的框架,正是開源精神的內核之一。
質疑聲并沒有阻礙 OneFlow 的發(fā)展,相反,袁進輝和團隊加快了 OneFlow 的升級和完善進程,更新優(yōu)化性能、梳理開發(fā)者文檔、收集社區(qū)反饋……這些努力和堅持,為 OneFlow 吸引了更多用戶,其中不乏最初的「懷疑論者」。
在 COSCon'20中國開源年會上,袁進輝做了題為《深度學習訓練系統(tǒng)演進》的分享,向所有開發(fā)者介紹了 OneFlow 下一步的開發(fā)規(guī)劃,除了堅持效率為王、繼續(xù)性能優(yōu)化外,開發(fā)團隊還在努力降低用戶的學習成本和遷移成本。目前 PyTorch 用戶遷移到 OneFlow 的成本已經相當?shù)土耍驗槎叩挠脩?a target="_blank">接口幾乎一樣,已訓練好的模型轉換成 OneFlow 的成本也足夠低。
客觀講,OneFlow 在完備性和易用性上,與 TensorFlow 和 PyTorch 相比還有差距。但是,OneFlow 的特色是效率高、擴展性好以及分布式特別容易使用,非常適合大規(guī)模人臉識別、大規(guī)模廣告推薦系統(tǒng)、以及類似 GPT-3 這種模型參數(shù)巨大的模型訓練場景。
采訪的最后袁進輝老師也毫不掩飾對人才的渴望,他表示 OneFlow 正在招聘機器學習工程師以及深度學習工程師,非常歡迎有識之士加入這個朝氣勃勃、渴望勝利的團隊。
編輯:jq
-
框架
+關注
關注
0文章
404瀏覽量
17735 -
開源
+關注
關注
3文章
3533瀏覽量
43294 -
pytorch
+關注
關注
2文章
808瀏覽量
13682 -
OneFlow
+關注
關注
0文章
9瀏覽量
8873
原文標題:超越 PyTorch 和 TensorFlow,這個國產框架有點東西
文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
PyTorch 2.5.1: Bugs修復版發(fā)布

評論