工作內(nèi)容編輯
在軟件產(chǎn)品的整個生命周期中運維工程師都需要適時地參與并發(fā)揮不同的作用,因此運維工程師的工作內(nèi)容和方向非常多:
事件管理:目標是在服務(wù)出現(xiàn)異常時盡可能快速的恢復(fù)服務(wù),從而保障服務(wù)的可用性;同時深入分析故障產(chǎn)生的原因,推動并修復(fù)服務(wù)存在的問題,同時設(shè)計并開發(fā)相關(guān)的預(yù)案以確保服務(wù)出現(xiàn)故障時可以高效的止損。在這方面主要工作內(nèi)容有:
問題發(fā)現(xiàn):設(shè)計并開發(fā)高效的監(jiān)控平臺和告警平臺,使用機器學習、大數(shù)據(jù)分析等方法對系統(tǒng)中的大量監(jiān)控數(shù)據(jù)進行匯總分析,以期在系統(tǒng)出現(xiàn)異常的時候可以快速的發(fā)現(xiàn)問題和判斷故障的影響。
問題處理:設(shè)計并開發(fā)高效的問題處理平臺和工具,在系統(tǒng)出現(xiàn)異常的時候可以快速/自動決策并觸發(fā)相關(guān)止損預(yù)案,快速恢復(fù)服務(wù)。
問題跟蹤:通過分析問題發(fā)生時系統(tǒng)的各種表現(xiàn)(日志、變更、監(jiān)控)確定問題發(fā)生的根本原因,制定并開發(fā)預(yù)案工具。
變更管理:以可控的方式,盡可能高效的完成產(chǎn)品功能的迭代的變更工作。在這方面主要工作內(nèi)容有:
配置管理:通過配置管理平臺(自研、開源)管理服務(wù)涉及到的多個模塊、多個版本的關(guān)系以及配置的準確性。
發(fā)布管理:通過構(gòu)建自動化的平臺確保每一次版本變更可以安全可控地發(fā)布到生產(chǎn)環(huán)境。
容量管理:在服務(wù)運行維護階段,為了確保服務(wù)架構(gòu)部署的合理性同時掌握服務(wù)整體的冗余,需要不斷評估系統(tǒng)的承載能力,并不斷優(yōu)化之。在這方面主要工作內(nèi)容有:
容量評估:通過技術(shù)手段模擬實際的用戶請求,測試整個系統(tǒng)所能承擔的最大吞吐;通過建立容量評估模型分析壓力測試過程中的數(shù)據(jù)以評估整個服務(wù)的容量。
容量優(yōu)化:基于容量評估數(shù)據(jù),判斷系統(tǒng)的瓶頸并提供容量優(yōu)化的解決方案。比如通過調(diào)整系統(tǒng)參數(shù)、優(yōu)化服務(wù)部署架構(gòu)等方法來高效的提升系統(tǒng)容量。
架構(gòu)優(yōu)化:為了支持產(chǎn)品的不斷迭代,需要不斷的進行架構(gòu)優(yōu)化調(diào)整。以確保整個產(chǎn)品能夠在功能不斷豐富和復(fù)雜的條件下,同時保持高可用性。
能力要求編輯
基礎(chǔ)技能:
熟練掌握常用數(shù)據(jù)結(jié)構(gòu)和算法,并能靈活運用
熟悉網(wǎng)絡(luò)基礎(chǔ)知識
深入理解Linux操作系統(tǒng)
加分技能:
熟悉開源的監(jiān)控平臺工具,比如:Ganglia、Nagios、Zabbix等
熟練掌握Shell腳本熟悉Awk、Sed等基礎(chǔ)工具
熟悉分布式計算或者存儲系統(tǒng),比如Hadoop/Hbase/Storm等
熟悉機器學習原理能付諸實踐者更佳
熟悉TCP/IP、HTTP等網(wǎng)絡(luò)協(xié)議,精通socket網(wǎng)絡(luò)編程
軟素質(zhì)要求編輯
強烈的責任心與主動性,對所負責工作有owner意識,并能自我驅(qū)動成長
能承擔較大工作壓力,有較強獨立分析、解決問題的能力
工作中需要膽大心細,具備探索創(chuàng)新精神
-
運維工程師
+關(guān)注
關(guān)注
4文章
39瀏覽量
8375
發(fā)布評論請先 登錄
自動化運維工具Terraform和Ansible的區(qū)別


硬件工程師看了只會找個角落默默哭泣#硬件工程師 #MDD #MDD辰達半導(dǎo)體 #產(chǎn)品經(jīng)理 #軟件工程師


光伏電站監(jiān)控運維管理系統(tǒng)的監(jiān)控目標及內(nèi)容




硬件工程師的終極幻想:焊板子焊上人生巔峰!#半導(dǎo)體器件 #硬件工程師 #MDD辰達半導(dǎo)體


不同時期的硬件工程師,最怕發(fā)生的事 #電子工程師 #硬件工程師 #內(nèi)容過于真實 #YXC晶振 #揚興科技



評論