ITOps 專業人員感謝避免停機


查看低代碼/無代碼峰會的點播會議,了解如何通過提高公民開發人員的技能和規模來成功創新和實現效率。 立即觀看.


當我們進入一年中反思我們所感謝的事物的時候,我們往往會關注重要的基礎知識,例如健康、家人和朋友。

但在專業層面上,IT 運營 (ITOps) 從業者很慶幸避免了可能導致混亂、沮喪、收入損失和聲譽受損的災難性中斷。 這 非常 ITOps、網絡運營中心 (NOC) 或站點可靠性工程 (SRE) 團隊在吃火雞和與家人共度時光時最不想做的就是收到有關中斷的尋呼。 這些可能非常昂貴—— 每分鐘 12,913 美元,事實上,對於大型組織而言,每小時最高可達 150 萬美元。

然而,要了解避免停機帶來的安心,您必須親身經歷過停機帶來的痛苦和焦慮。 以下是 ITOps 專業人士慶幸在本賽季避免的一些恐怖故事。

一個 janky 命令結構的案例

晚上 7 點左右,一名長期 IT 專業人員和另外三名人員輪班。 機組人員收到了有關影響其全球交通管理設備前端用戶界面的問題的警報。 值得慶幸的是,數據庫中有它的運行手冊,看來問題會很快得到解決。 其中一名團隊成員看到了兩個要輸入的內容:一個命令和一個輔助輸入。 他輸入命令,根據 Runbook 的外觀,他正在等待命令行要求輸入,例如“你想重新啟動什麼?”

事件

智能安防峰會

12 月 8 日了解 AI 和 ML 在網絡安全和行業特定案例研究中的關鍵作用. 今天註冊您的免費通行證.

現在註冊

命令結構的設置方式,如果您不提供輸入,設備本身將重新啟動。 他輸入了他認為正確的命令——“bigstart,重啟”——然後整個前端全局流量管理器就被關閉了。

提醒一下,這發生在傍晚。 客戶是一家金融公司,系統就在企業關閉並嘗試處理賬簿和其他與財務相關的任務時出現故障。 糟糕的時機,至少可以這麼說。

中斷五分鐘後,ITOps 團隊意識到發生了什麼:他們用於 runbook 的工具默認使用文本換行,所以看起來像兩個單獨的命令實際上只是一個。 儘管停電時間相對較短,但它來得正是時候,造成了令人頭疼的連鎖反應。 吸取的教訓? 確保您的命令結構已優化。

當谷歌是你深夜最好的朋友

對於一名擁有 15 年以上 IT 經驗的老手來說,看似安靜的一夜之間的轉變很快就變成了一場充滿焦慮的噩夢。 “當我所在的遠程終端突然一片空白時,我從未發現自己如此恐慌,”他說。

他試圖做的是在遠程機器上工作時重新啟動服務,但他在這個過程中無意中禁用了網絡連接器。 打電話給某人並在半夜叫醒他們,告訴他們他已經“破壞”了一個網絡適配器,這並不理想,因此他和他的隊友開始進行一些挖掘。

在他所謂的“大量谷歌搜索”之後,他找到了戴爾服務器並從那裡重新啟動了網絡適配器。 修復的時間比應該修復的時間長,但問題最終得到了解決。

他的專業提示是:“不要在半夜禁用您遠程訪問的機器上的網絡適配器。” 這聽起來很明顯,但其中的根本教訓是要製定應急計劃,以防萬一出現嚴重錯誤。

ITOps:依靠電子郵件很棒 – 直到它不是

當電子郵件是 NOC 團隊接收警報的主要方式時,一位資深 IT 專業人員回憶說,有一位隊友的唯一工作基本上是派遣:監控電子郵件並為現在需要注意的事件創建票證,以及為以後可以處理的事件創建票證。 該系統運行良好,但考慮到這是一家大型跨國公司,它實際上是一顆等待爆炸的定時炸彈。

當公司的整個數據中心出現故障時,這種恐懼成為現實。

這本身就是一系列問題,但該事件產生瞭如此多的電子郵件警報,以至於還導致公司 Outlook 服務器崩潰。 “那時,你真的是瞎了眼,”這位 IT 英雄回憶道。

活動恰好發生在半夜,值班隊員只好忍痛開始叫醒隊友。 問題最終得到解決後,團隊對此產生了幽默感。 正如他們回憶的那樣:“我們曾經開玩笑說,我們用自己的警報噪音對自己進行 DDoS 攻擊。 美好時光!”

最後,這個故事的總體寓意是:任何時候手觸摸鍵盤,都有可能出錯的風險。 當然,這有時是不可避免的,但是能夠盡可能自動化和簡化其 IT 運營流程的團隊為自己提供了避免代價高昂的停機的最佳機會——這樣他們就可以不間斷地享受感恩節慶祝活動。

Mohan Kompella 是 BigPanda 的產品營銷副總裁.

數據決策者

歡迎來到 VentureBeat 社區!

DataDecisionMakers 是專家(包括從事數據工作的技術人員)可以分享與數據相關的見解和創新的地方。

如果您想了解前沿思想和最新信息、最佳實踐以及數據和數據技術的未來,請加入我們的 DataDecisionMakers。

您甚至可以考慮發表一篇您自己的文章!

閱讀來自 DataDecisionMakers 的更多信息

發佈留言