近些年,數據安全事件頻發。
作為企業的核心資產,數據的外洩、破壞都會導致不可挽回的經濟損失和核心競爭力缺失。規範的制度建設、權限管理和變更流程是保證數據安全的重要落地措施。
袋鼠雲DBA團隊承接多個客戶的容災架構設計需求,制定可靠、有效的容災架構方案並推動落地。備份重於一切。我們會優先考慮數據庫備份集的容災設計:兩地三中心VS混合雲、權限分配&監控告警&恢復演練。
IDC混合雲場景下的備份容災設計
基於混合雲的備份容災方案,已成功向多個客戶輸出。今天來談一下阿里雲—IDC混合雲場景下的備份容災設計:
1.阿里雲RDS等數據庫產品,備份集、binlog保留在OSS對象存儲,下載後可見;同時提供備份/日誌API接口,用於編程開發;
2.雲環境和IDC容災機房走了專線,帶寬根據備份、日誌量,傳輸時間窗口來規劃;
3.IDC容災機房重要是存儲的規劃:RAID&文件保留期限&容量&權限;
4.備份集、日誌文件的抽取、驗證程序;
5.運維監控平臺,收集、分析IDC容災機房程序日誌,發現、告警,運維及時響應;
具體實現:
- 元數據。阿里雲RDS提供了兩個API:備份文件信息DescribeBackups、日誌文件信息DescribeBinlogFiles,傳入參數instance_id即可獲取備份集、日誌文件的基礎信息:下載路徑、大小、文件名、checksum值等。
袋鼠雲智能運維中臺可以準實時同步RDS元數據信息,確保備份集、日誌文件的抽取時效。
- 文件抽取。依賴元數據信息,分為備份集和日誌文件兩個抽取程序,每個程序均配置有文件大小、checksum值雙重驗證。
對拉取進程超時、文件不完整等問題,會自動重新拉取。
控制抽取進程併發數量,避免專線擁擠。
- 運維監控平臺接入,分析同步任務運行日誌,配置抽取失敗、傳輸超時等告警;同時接入IDC存儲空間使用量、使用率變化趨勢告警,對異常問題主動發現、及時處理。
- 恢復演練。制定演練計劃,模擬以時間點恢復、數據誤操作等運維事件,收集操作過程,整理成冊。
- IDC存儲管理由機房運維部門負責,雲平臺運維部門操作存儲需嚴格按照審批流程進行申請。
從架構設計、權限管理到程序開發、告警響應、異常處理、恢復演練,多環節無死角確保備份集安全。
只要備份安全,數據一定能恢復。
更多技術技巧請關注公眾號“雲掣YUNCHE”。