SRE 超載系統導緻，谷歌發布宕機事故分析報告

謝崇斌 2019-03-15 13:09:48 16356

谷歌發布了 12 日大面積服務中斷事故的(de)分析報告，指出系 SRE 超載系統使得 Google 雲存儲錯誤率提高(gāo)導緻。

12 日全球各地(dì)的(de)許多用戶反映使用 Gmail、YouTube、Google Drive、谷歌音樂(yuè)與谷歌的(de)其它服務時都遇到了問題，包括北美洲、南美洲、歐洲和(hé)亞洲的(de)部分地(dì)區都受到影響，谷歌随後承認出現故障，谷歌雲平台狀态頁面（Google Cloud Status Dashboard）顯示，此次故障影響了谷歌雲存儲的(de)所有區域。

當地(dì)時間 14 日，谷歌發布了針對該事件的(de)分析報告。

谷歌表示內(nèi)部 blob（大型數據對象）存儲服務經曆了 4 小時 10 分鍾的(de)服務中斷。分析了根本原因，其指出在 3 月 11 日，Google SRE 被告警內(nèi)部 blob 服務使用的(de)元數據的(de)存儲資源顯著增加；3 月 12 日，為(wèi)了減少資源使用，SRE 進行了配置更改，其副作用是使系統的(de)關鍵部分超載以查找 blob 數據的(de)位置，而增加的(de)負載最終導緻級聯故障。

更具體的(de)，12 日 18:40 到 22:50，谷歌內(nèi)部 blob 存儲服務錯誤率提高(gāo)，平均錯誤率為(wèi) 20％，事件發生時錯誤率為(wèi) 31％，用戶可(kě)見的(de) Google 服務，包括使用 blob 存儲服務的(de) Gmail、照片和(hé) Google 雲硬盤錯誤率也提高(gāo)了，如(rú)果沒有這些服務中內(nèi)置的(de)緩存和(hé)冗餘機制極大地(dì)降低(dī)了用戶影響，那麽後果會更加嚴重。

此次事故中，重大的(de)影響包括：Google 雲存儲的(de)長(cháng)尾延遲較高(gāo)，平均錯誤率為(wèi) 4.8％，所有存儲桶位置和(hé)存儲類都受到影響，依賴于雲存儲的(de) Google 雲平台服務也受到影響；Stackdriver Monitoring 在檢索曆史時間序列數據時出現了高(gāo)達 5％的(de)錯誤率，最近的(de)時間序列數據可(kě)用，警報沒有受到影響。App Engine 的(de) Blobstore API 出現了較高(gāo)的(de)延遲和(hé)錯誤率，在獲取 blob 數據時達到峰值 21％，App Engine 部署出現了高(gāo)達 90％的(de)錯誤，從 App Engine 提供靜态文件也會出現錯誤率提升。

谷歌表示非 Google 雲平台服務受到的(de)影響将會有單獨的(de)事件報告。

對于因此事件受到影響的(de)服務與應用客戶，谷歌深表歉意，并表示正在采取措施以提高(gāo)可(kě)用性并防止此類中斷再次發生。

詳情查看：https://status.cloud.google.com/incident/storage/19002

編輯:--謝崇斌

南順網絡

SRE 超載系統導緻，谷歌發布宕機事故分析報告