開發與維運

阿里速度! SRE團隊全力保障多地健康碼順利上線

2020年初,新冠肺炎疫情爆發。春節後,企業要復產,百姓要復工,政府需儘快保障各項工作有序開展。如何精準防控,統籌疫情期間的各項工作,有序穩健恢復經濟社會秩序,成為當務之急。對此,阿里巴巴快速反應,除各種物資支持、政策響應外,還配合多地政府開發健康碼,充分運用大數據手段助力疫情防控和復工復產,實現數字化防疫,讓政府相關人員更快速、更清晰、更精準地進行防控管理決策。

健康碼開發期間,SRE團隊發揮團隊優勢,緊急召開專題會議,成立專項應急小組,協調各方資源,並在第一時間趕往各省市,配合相關團隊完成資源準備、業務壓測、業務優化等工作,保證了多地健康碼的順利上線。健康碼上線後,SRE團隊持續對各項關鍵指標數據進行監控,確保健康碼應用可以承受業務高峰壓力並順利運作。

1 河南健康碼——一“碼”當先

河南省疫情防控指揮部依據《國務院應對新型冠狀病毒肺炎疫情聯防聯控機制關於依法科學精準做好新冠肺炎疫情防控工作的通知》等相關法律法規,結合河南省實際情況,制定“健康碼”管理辦法。項目3月5日正式啟動,按照局方要求3月9日上線投入使用,團隊接到通知提前一天3月4日第一個到達現場。

團隊到現場後,首先梳理資源需求與系統部署架構,提前完成資源開通準備及遠程環境準備,以保障其它團隊可遠程交付。其次評估系統壓測目標,並對系統進行多輪多場景壓測,壓測過程中發現並處置1處業務邏輯問題、3處產品優化、1處APIServer資源瓶頸擴容問題,最終達到壓測目標並設置AHAS限流控制保障系統穩定運行。安全方面全部使用https域名證書並接入WAF,對系統安全訪問進行加固。運維監控方面接入ARMS、TAC、封神、銅雀等運維監控巡檢平臺保障系統運行穩定。系統順利於3月9日18:00正式上線,截至3月15日健康碼累計申領人數380W。接下來政府將對全省各市級推廣,阿里雲SRE團隊將繼續支持客戶保障健康碼業務穩定。
image.png

2 海南健康碼——一心戰“疫”

面對新型冠狀病毒肺炎疫情的迅猛爆發,針對海南省精準防控、疫情統籌與經濟社會秩序恢復的指導方針,海口市政府與市科工信局等單位立即展開多方協同,要求第一時間上線疫情申報相關應用,即海南省健康一碼通應用。這是首個全省健康碼應用,政府採取多種方式推廣,需要在上線第一週內完成全省900多萬市民的註冊和使用。

由於海口城市大腦雲平臺資源已經接近飽和,阿里雲SRE-TAM團隊緊急召開專題會議,迅速成立專項應急小組,與AM團隊一起爭分奪秒協調海南其他項目組,完成緊急資源釋放、擴容及相關併網,並通過全鏈路壓測、資源的提前儲備(ECS、SLB)、應用同步改異步(MQ)、數據庫讀寫分離(RDS)以及業務限流(AHAS)等優化手段,為海南健康碼保駕護航。健康碼準時上線並向全省推廣,在此期間阿里雲SRE-TAM團隊、應用團隊以及AM團隊聯合進行每日的護航保障,通過個性化運維監控方案實現關鍵資源、核心實例、業務指標等監控,並進行網絡相關保障,確保健康碼應用可以承受業務高峰壓力並順利運作。截止3月24日,健康碼應用註冊使用量達到300萬+,預計在4月底註冊使用量將超過1000萬。該系統將有助於更加科學高效地防範疫情,更好地服務廣大人民群眾安全,為打贏這場全民戰役貢獻一份力量!
image.png

圖2:海南健康碼成果圖

3 蘇州健康碼——阿里速度

為解決大量外來人口返蘇復工的管理難題,提升人員流動效率,蘇州市政府、蘇州市疫情防控指揮部決定上線蘇城碼(蘇州健康碼)。阿里雲數字政府華東大區江蘇團隊和集團GR團隊、螞蟻團隊、GTS團隊和數據智能團隊,從接到需求、立項、進場部署僅僅耗時40小時就完成了“蘇城碼”上線,這是除浙江省外第一個運用阿里數據引擎短時間完成上線的城市,我們充分運用數字化防疫,為中國最強地級市打造便捷、高效的管理模式!

【與時間賽跑,火速拉齊,投入戰鬥】
客戶根據本地情況提出了很多定製化開發的需求,面對客戶需求,團隊快速分析、展開調研、拿出最終方案,客戶最終同意將整個系統部署在蘇州城市大腦平臺上,充分發揮城市大腦在算力、數據融合方面的強大能力。
image.png

圖3:客戶現場討論方案

【不眠不休展開部署】
確定方案之後,項目團隊不眠不休,火速在現場展開各項部署,與時間賽跑。數字政府和支付寶團隊項目經理在現場合理組織交付節奏和方案實施。數據智能的精兵強將,現場與客戶的各個專班展開對接,確定客戶各項需求的實施方案。GTS的交付同學精準實施,從硬件到軟件的全維度保證了項目上線。

客戶對於蘇州團隊的努力和付出非常感動和認可,蘇州市副市長江海同志親自到現場慰問項目團隊,感謝團隊成員爭分奪秒為蘇州全市人民平穩復工復產所做出的努力。
image.png

圖4:市領導慰問現場項目團隊

【踐行客戶第一的價值觀,組織重保團隊力保穩定運行】
2020年2月22日晚9:30分,蘇州市疫情防控指揮部正式下發第9、10號公告,在全市正式推廣“蘇城碼”。在公告下發之後的2小時之內完成了40萬的健康碼發碼,平臺瞬間流量激增,業務平臺受到了極大考驗,現場GTS同學密切監控、隨時排障,蘇州城市大腦平臺經受住了考驗。
image.png

圖5:項目順利上線

為保證項目能夠長期穩定可靠地運行,GTS同學快速拉通GOC團隊建立項目重保機制,得到客戶首肯。江海副市長和李晶處長現場說,只有把業務放在阿里雲上才放心!並且表示要把蘇城碼在城市通行場景方面做有力探索,讓蘇城碼成為蘇州市民通行的電子碼。與此同時,也有其他政府部門開始思考蘇城碼與各自業務的結合,比如園林局考慮是否可以把蘇城碼和園林的進出和電子票進行結合,加強園林的管理和通行效率。

“一心戰一疫”,“客戶第一”!藉助蘇州健康碼項目的火速上線,再次刷新了健康碼快速上線的速度,既服務了客戶,也激發了團隊強大的戰鬥力,同時為數字政府在蘇州乃至江蘇的破局打下了堅實的基礎!

4 上海健康碼——健康出行

上海“一網通辦”依託移動端“隨申辦”打造的“隨申碼”於2月17日試點上線。依託上海市大數據資源平臺匯聚的國家及本市公共管理機構數據,經過數據建模、分析評估後,測算出紅色、黃色、綠色三種風險狀態供參考,賦予“隨申碼”健康出行、防控管理的相關信息。

結合新冠肺炎疫情防控的需求,隨申碼的發碼與查碼量不斷攀升,系統負載不斷加大,阿里雲GTS團隊迅速介入,幫助隨申碼搭建高可用高可靠系統平臺。GTS團隊用一個晚上的時間快速確定高併發方案,在確認方案後SRE團隊基於阿里雲中國政務雲平臺快速為隨申碼搭建可擴展的高可用雲平臺,TM和產品研發團隊基於雲平臺部署定製化的數據智能碼引擎,並通過全鏈路壓測、應用彈性擴容、基礎架構優化、應用邏輯優化、業務限流(AHAS)等優化手段將隨申碼的併發承載能力提升百倍以上。2月28日8:00阿里雲-隨申碼平臺正式上線,承載的用戶併發突破萬次每分鐘,累計查碼量突破一千萬次,覆蓋上海全部的兩千四百萬人口,並保持不斷的產品迭代,在後續的企業碼、親情碼業務中持續給與技術和資源支持。
image.png
image.png

圖6:項目人員加班加點保障上海隨申碼上線

我們是阿里雲智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。
image.png

Leave a Reply

Your email address will not be published. Required fields are marked *