SRE 超載系統導緻,谷歌發布宕機事故分析報告
谷歌發布了 12 日大面積服務中斷事故的(de)分析報告,指出系 SRE 超載系統使得 Google 雲存儲錯誤率提高(gāo)導緻。
12 日全球各地(dì)的(de)許多用戶反映使用 Gmail、YouTube、Google Drive、谷歌音樂(yuè)與谷歌的(de)其它服務時都遇到了問題,包括北美洲、南美洲、歐洲和(hé)亞洲的(de)部分地(dì)區都受到影響,谷歌随後承認出現故障,谷歌雲平台狀态頁面(Google Cloud Status Dashboard)顯示,此次故障影響了谷歌雲存儲的(de)所有區域。
當地(dì)時間 14 日,谷歌發布了針對該事件的(de)分析報告。
谷歌表示內(nèi)部 blob(大型數據對象)存儲服務經曆了 4 小時 10 分鍾的(de)服務中斷。分析了根本原因,其指出在 3 月 11 日,Google SRE 被告警內(nèi)部 blob 服務使用的(de)元數據的(de)存儲資源顯著增加;3 月 12 日,為(wèi)了減少資源使用,SRE 進行了配置更改,其副作用是使系統的(de)關鍵部分超載以查找 blob 數據的(de)位置,而增加的(de)負載最終導緻級聯故障。
更具體的(de),12 日 18:40 到 22:50,谷歌內(nèi)部 blob 存儲服務錯誤率提高(gāo),平均錯誤率為(wèi) 20%,事件發生時錯誤率為(wèi) 31%,用戶可(kě)見的(de) Google 服務,包括使用 blob 存儲服務的(de) Gmail、照片和(hé) Google 雲硬盤錯誤率也提高(gāo)了,如(rú)果沒有這些服務中內(nèi)置的(de)緩存和(hé)冗餘機制極大地(dì)降低(dī)了用戶影響,那麽後果會更加嚴重。
此次事故中,重大的(de)影響包括:Google 雲存儲的(de)長(cháng)尾延遲較高(gāo),平均錯誤率為(wèi) 4.8%,所有存儲桶位置和(hé)存儲類都受到影響,依賴于雲存儲的(de) Google 雲平台服務也受到影響;Stackdriver Monitoring 在檢索曆史時間序列數據時出現了高(gāo)達 5% 的(de)錯誤率,最近的(de)時間序列數據可(kě)用,警報沒有受到影響。App Engine 的(de) Blobstore API 出現了較高(gāo)的(de)延遲和(hé)錯誤率,在獲取 blob 數據時達到峰值 21%,App Engine 部署出現了高(gāo)達 90% 的(de)錯誤,從 App Engine 提供靜态文件也會出現錯誤率提升。
谷歌表示非 Google 雲平台服務受到的(de)影響将會有單獨的(de)事件報告。
對于因此事件受到影響的(de)服務與應用客戶,谷歌深表歉意,并表示正在采取措施以提高(gāo)可(kě)用性并防止此類中斷再次發生。
詳情查看:https://status.cloud.google.com/incident/storage/19002
編輯:--謝崇斌