近日,北鯤云攜手西安電子科技大學(xué)(以下簡稱西電)舉辦了高性能計算平臺實操線上培訓(xùn),吸引了人工智能、電子信息、生物醫(yī)學(xué)工程、計算數(shù)學(xué)等多個專業(yè)的師生參與。這也是北鯤云超算平臺首次進入高校進行培訓(xùn)講解。
此次培訓(xùn)講座由北鯤云高級工程師陳仕鑫主講,通過理論+實操的方式詳細(xì)講解了如何使用北鯤云超算平臺,其中包括可視化提交、工作站提交、以及命令行提交作業(yè)。
可視化提交作業(yè)只需要選擇軟件,再選擇適合的作業(yè)模板。
然后進入設(shè)置軟件,并在此處上傳作業(yè)的輸入文件,并填寫相應(yīng)的參數(shù)。用戶可以根據(jù)自己的需要決定是否選擇使用案例模板,模板中已經(jīng)預(yù)置了輸入文件和參數(shù),可以直接運行。
點擊下一步,進入硬件設(shè)置。北鯤云超算平臺提供豐富的CPU和GPU計算資源,用戶可以根據(jù)需求選擇相應(yīng)的資源類型,并輸入對應(yīng)的資源數(shù)量。頁面右側(cè)將展示所選資源的核時或卡時的費用信息。接著,預(yù)覽作業(yè)配置,并填寫作業(yè)名稱。確認(rèn)無誤后即可提交。
提交后,作業(yè)將經(jīng)過校驗、創(chuàng)建集群等流程,最后進入執(zhí)行狀態(tài)。作業(yè)執(zhí)行過程中,用戶可以在界面上及時查看輸入、日志、結(jié)果和日志文件,也可以連接到節(jié)點上查看進程狀態(tài)。
圖形界面分為工作站和圖形應(yīng)用。
工作站包含Windows和Linux工作站,在界面上選擇用戶需要的操作系統(tǒng),比如Linux工作站,再選擇硬件配置后點擊確定。當(dāng)系統(tǒng)為用戶創(chuàng)建好節(jié)點后,用戶可以連接到節(jié)點并在上面安裝軟件或提交作業(yè)。
圖形應(yīng)用為Linux桌面,啟動流程和工作站類似。
當(dāng)用戶連接到節(jié)點后,將自動加載對應(yīng)的軟件。用戶可以使用計算軟件來提交作業(yè),或使用可視化軟件瀏覽計算結(jié)果。
當(dāng)用戶在工作站提交作業(yè)之后,建議在設(shè)置中進行作業(yè)結(jié)束配置。系統(tǒng)將根據(jù)你設(shè)置的條件判斷作業(yè)是否完成,滿足條件后會及時通知用戶作業(yè)計算完成或自動釋放當(dāng)前的節(jié)點。接收通知的方式請前往用戶中心-通知設(shè)置中進行查看。
命令行操作,北鯤云超算平臺技術(shù)支持建議用戶使用Linux管理節(jié)點提交作業(yè)。
首先,啟動管理節(jié)點。管理節(jié)點配置為2核4G。用戶可以在節(jié)點上調(diào)用軟件、編寫腳本和提交作業(yè)。
啓動成功後即可連接到節(jié)點上。
平臺預(yù)裝了300多種軟件,用戶可以輸入module avail 查看已經(jīng)安裝好的軟件,如果用戶在計算中需要使用某個軟件,可以在作業(yè)的腳本中通過module add再加軟件的名字就可以自動加載這個軟件。我們在這里演示如何加載Anaconda。這樣用戶就加載上Anaconda了
本平臺使用slurm進行作業(yè)調(diào)度。提交作業(yè)前,用戶可以通過sinfo查看可選的隊列,每個隊列對應(yīng)一種硬件規(guī)格,如c-4-1表示4核、每核1G內(nèi)存的cpu計算節(jié)點。g-v100-1表示v100單卡的gpu計算節(jié)點。
提交作業(yè)時,通過-p參數(shù)來指定這個作業(yè)想使用哪個隊列,系統(tǒng)將為用戶動態(tài)創(chuàng)建集群并執(zhí)行作業(yè)。
提交後用戶可以通過squeue命令及時查看作業(yè)的執(zhí)行狀態(tài)。啟動計算節(jié)點大概需要1分鐘的時間??梢钥吹阶鳂I(yè)已經(jīng)在運行狀態(tài)中了。用戶可以通過sacct命令來查看歷史作業(yè)??梢钥吹絼倓偺峤坏淖鳂I(yè)已經(jīng)執(zhí)行完成了。用戶也可以通過通知設(shè)置,在作業(yè)結(jié)束或異常時自動接收通知。
未來,北鯤云將和更多的高校及及科研所展開更多的合作,從產(chǎn)品咨詢、技術(shù)支持、技術(shù)培訓(xùn)、人才服務(wù)等各個方面,為高性能計算用戶提供更高效、更便捷的云端高性能計算服務(wù)和解決方案,滿足廣大科研人員日益增長的科研計算需求,助力國內(nèi)科研發(fā)展。
評論