雲計算

從Cloudflare事件看DNS服務的重要性

7.17事件

美國時間7月17日下午,知名互聯網服務商Cloudflare由於路由器發生錯誤,引起全球性互聯網訪問中斷,中斷持續了27分鐘,整個網絡上的流量下降了50%,造成包括Shopify、Politico、Discord和LOL(英雄聯盟)等在內的網站及服務無法訪問。隨後,Cloudflare從其全球的十二個數據中心重新路由了流量,逐漸恢復了互聯網訪問。

據悉,故障波及的範圍巨大,包括達拉斯、西雅圖、洛杉磯、芝加哥、華盛頓特區、亞特蘭大、倫敦、阿姆斯特丹、法蘭克福、巴黎、斯德哥爾摩、莫斯科、聖彼得堡、聖保羅等多地。

c22a8d44fb3e411caf4e989bf6037a7f.png
圖片來源:Cloudflare

事件起因——“不是攻擊的結果”

美國東部時間下午6:09,Cloudflare在其官網上發佈一條消息:“今天下午,我們看到了網絡中某些部分的中斷。這不是攻擊的結果。我們全球骨幹網中的路由器似乎宣佈了錯誤的路由,並導致網絡的某些部分不可用。我們相信我們已經解決了根本原因,並且現在正在監視系統的穩定性。”

隨後,Cloudflare博客中更新了此次中斷的原因:在處理與紐瓦克到芝加哥的網絡阻塞問題時,其網絡工程團隊更新了亞特蘭大路由器上的配置。然而,此配置包含了一個錯誤,該錯誤直接導致跨越Cloudflare主幹網絡的所有流量都發送到了亞特蘭大。這很快使亞特蘭大的路由器不堪重負,並導致連接到主幹網的Cloudflare網絡位置出現故障。

image.png
圖片來源:Cloudflare

時間線

具體的時間線是這樣的:
• 20:25 EWR和ORD之間的主幹鏈路丟失
• 20:25 ATL和IAD之間的骨幹網擁塞
• 21:12至21:39 ATL吸引了來自整個骨幹網的流量
• 21:39至21:47 ATL從主幹鏈路中刪除,服務已恢復
• 21:47至22:10 核心擁塞導致某些日誌下降,邊緣繼續運行
• 22:10 全面恢復,包括日誌和指標
下圖是Cloudflare內部流量管理器工具產生的影響視圖。

2b8083f7d470419c88b5fdc4610559d9.png
圖片來源:Cloudflare

事件後續

事後,Cloudflare公開發表聲明:“我們從未經歷過骨幹網中斷的情況,我們的團隊迅速響應以恢復受影響位置的服務,但這對於每個參與人員來說都是一個非常痛苦的時期。對於我們的客戶以及中斷期間無法訪問互聯網的所有用戶,我們深表歉意。我們已經對主幹配置進行了更改,以確保此類情況不會再次發生”。

穩定、安全的DNS服務的重要性

在2019年7月2日,Cloudflare就曾因CPU的大量激增導致主、次系統崩潰,遭受了約30分鐘的停機。短短一年時間,Cloudflare又一次發生如此重大的事故,這讓我們意識到一個穩定、安全的DNS服務是多麼重要。

隨著物聯網、5G、AI等技術的發展,互聯網加速了諸如無人駕駛、遠程辦公、智能家居等多個新興行業的誕生與發展。可以試想一下,當無人駕駛汽車運送您前往目的地時、當AI機器人正在為您提供服務時、當您正在進行一個遠程大型會議時……如果此時出現斷網、網絡攻擊等問題,將會造成怎樣的嚴重後果。

因此,在這樣的背景下,作為本著“用戶至上”理念的網絡DNS服務廠商,我們更加不能忽視網絡安全與穩定的問題。如何保證大量數據運行過程中服務器不宕機、網絡不中斷,如何反黑客、防止網絡攻擊,是我們始終需要思考的問題。

阿里雲DNS團隊擁有多年的DNS運營經驗,始終把互聯網基礎設施重要組成部分作為我們的目標,贏得業界好評。我們的產品深受用戶青睞,向來是用戶的首要選擇。阿里雲公共DNS服務,面向所有互聯網用戶,提供全球公共遞歸域名解析服務,旨在用優質的服務保障網站運營商的業務持續穩定、保障用戶的流暢上網體驗。

不論您是普通的互聯網用戶,還是瀏覽器的廠商,亦或是智能終端設備的供應商,阿里雲公共DNS,都能為您提供安全、穩定、快速的服務。

f140ad3de0024b008173797797817115.png

關於阿里雲公共DNS的更多產品介紹,請點此瞭解。在此,我們希望與您攜手,助您的互聯網業務安全穩定、暢通無阻!

歡迎使用釘釘掃碼,加入我們,期待與您在線交流~

fd9fecc013e44b438006a55438b4d897.png

Leave a Reply

Your email address will not be published. Required fields are marked *