CrowdStrike 將全球服務中斷歸咎於測試軟體故障

錯誤的更新導致記憶體洩漏,觸發「致命異常」。

長話短說

  • CrowdStrike 將軟體故障歸因於其自身的錯誤更新。
  • 該錯誤導致 850 萬台機器故障視窗全球。
  • 該公司承諾將採取新措施,以防止這一問題再次發生。

CrowdStrike 更新錯誤影響 850 萬台 Windows 計算機

公司的安全計算機科學,群眾罷工,最近承認對850萬台機器故障負有責任視窗在錯誤的更新之後,在世界各地。這導致了通常所說的 BSOD(藍色畫面死機),迫使 Windows 電腦進入無限的重新啟動循環。

功能障礙及其受害者

這次大規模失敗的受害者包括航空公司、電視廣播公司、倫敦證券交易所等跨國公司。有些航空公司,如達美航空公司,仍處於恢復階段。要注意的是,只有配備了視窗受到影響。

不幸的更新驗證

根據一個事後回顧(PIR)公司發布的報告顯示,罪魁禍首是測試軟體中的錯誤。該公司表示:“由於內容驗證器中的錯誤,儘管數據有問題,但兩個更新之一仍通過了驗證。”

事實上,故障是由 7 月 19 日部署的兩個新「模板實例」之一引起的,該實例雖然只有 40 KB 大小,但包含了這些有問題的數據並通過了驗證。隨後,Windows作業系統出現異常,導致系統崩潰。

預防措施在望

在這次慘敗之後,CrowdStrike 承諾將採取多項措施,防止未來再次發生類似事件。這些措施包括對快速反應內容進行更嚴格的測試,包括本地開發測試、更新和回滾測試、壓力和穩定性測試以及改進的管理錯誤。

然而,工程師和分析師認為這些措施應該從一開始就採取到位。 「CrowdStrike 應該意識到這些更新是由驅動程式解釋的,並且可能會導致問題,」工程師 Florian Roth 評論道。