摘要:?為什么要用Kubernetes去難為數(shù)據(jù)科學家呢?
2018年7月,阿里云將深度學習工具Arena貢獻給了開源社區(qū),數(shù)據(jù)科學家無需學習底層IT資源使用,即可在云端運行深度學習,一分鐘內(nèi)啟動深度學習任務(wù),十五分鐘內(nèi)創(chuàng)建異構(gòu)計算集群。
為什么要有Arena這樣的工具?
現(xiàn)在Kubernetres社區(qū)最流行的深度學習解決方案是KubeFlow,Arena是不是又重新造了個輪子?KubeFlow是基于Kubernetes構(gòu)建的可組合,便攜式, 可擴展的機器學習技術(shù)棧,支持實現(xiàn)從JupyterHub模型開發(fā),TFJob模型訓練到TF-serving,Seldon預(yù)測端到端的解決方案。但是KubeFlow需要用戶精通Kubernetes,比如寫一個TFJob的部署yaml文件,這對于機器學習平臺最主要的使用者---數(shù)據(jù)科學家來說是非常有挑戰(zhàn)的事情。
這與數(shù)據(jù)科學家的期望還有比較大的差距,數(shù)據(jù)科學家關(guān)心的是三件事:
數(shù)據(jù)從哪里來
如何運行機器學習的代碼
訓練結(jié)果(模型和日志)如何查看
數(shù)據(jù)科學家編寫一些簡單的腳本,在桌面機上運行機器學習代碼,這是他們熟悉和喜歡的工作方式。但是利用桌面機進行模型訓練,又會遇到由于硬盤空間有限導致處理數(shù)據(jù)量不足,無法使用分布式訓練導致計算力受限等問題。
為此我們開發(fā)了Arena,用一個命令行工具屏蔽所有底層資源、環(huán)境管理、任務(wù)調(diào)度和GPU調(diào)度分配的復雜性,它幫助數(shù)據(jù)科學家以一種簡單熟悉的方式提交訓練任務(wù)并且檢查訓練進展。數(shù)據(jù)科學家在調(diào)用Arena的時候可以指定數(shù)據(jù)來源,代碼下載和是否使用TensorBoard查看訓練效果。
Arena有怎樣的作用?
Arena目前支持單機訓練和PS-Worker模式的分布式訓練,其后端實現(xiàn)依賴于KubeFlow提供的TFJob,很快也會擴展到MPIJob,PytorchJob。
同時也支持實時訓練的運維包括:
? 利用top命令監(jiān)控GPU資源的分配和調(diào)度
? 支持CPU,GPU的資源監(jiān)控
? 訓練日志的實時查詢
未來我們希望能夠通過Arena實現(xiàn)深度學習生產(chǎn)流水線 - 集成訓練數(shù)據(jù)管理,實驗任務(wù)管理,模型開發(fā),持續(xù)訓練、評估,上線預(yù)測全流程。
Arena的目標就是讓數(shù)據(jù)科學家簡單的釋放KubeFlow的洪荒之力,像桌面機上訓練一樣簡單,同時又擁有了集群級別調(diào)度和管理的掌控性。為了能夠更好的在社區(qū)內(nèi)共享和合作,我們已經(jīng)在github上開源了自己的代碼:https://github.com/AliyunContainerService/arena,歡迎大家了解和使用,如果您覺得不錯,請給我們點贊。如果您希望貢獻代碼,我們非常歡迎。
Arena背后的故事,阿里云容器深度學習解決方案
開源工具Arena脫胎于阿里云深度學習解決方案, 該方案已經(jīng)支持多種深度學習框架(如Tensorflow、Caffe、Hovorod、Pytorch等),從始至終地支撐深度學習的整條生產(chǎn)流水線(集成訓練數(shù)據(jù)管理、實驗任務(wù)管理、模型開發(fā)、持續(xù)訓練及評估、上線預(yù)測等環(huán)節(jié))。
該方案深度整合阿里云資源與服務(wù),高效使用CPU、GPU等異構(gòu)資源,統(tǒng)一容器化編排管控,并提供多維度監(jiān)控告警和運維平臺。
寫在最后
“深度學習為人工智能帶來變革式的蓬勃發(fā)展,然而對計算和數(shù)據(jù)資源的依賴也急劇增加?!?阿里云相關(guān)技術(shù)負責人張凱表示:“基于容器和異構(gòu)計算技術(shù),阿里云為大規(guī)模訓練提供端到端的支持,不斷打磨使用更簡單、功能更強大的深度學習解決方案。”
更多阿里云上深度學習分享可以移步:https://yq.aliyun.com/teams/11/type_blog-cid_211-page_1
如《Kubeflow實戰(zhàn)系列-五篇》、《打造深度學習的云端實驗室-三篇》、《TensorFlow的實驗-六篇》
產(chǎn)品詳情,請移步:https://cn.aliyun.com/solution/devops/deeplearning
近期直播回放頁面:https://yq.aliyun.com/webinar/play/487
相關(guān)產(chǎn)品詳情頁面:https://promotion.aliyun.com/ntms/act/blockchainshow.html
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
評論