一、背景介紹
先簡單分析一下電影節的搶票業務,典型特徵是在大流量搶購、高併發的場景下,讓用戶極快的鎖定座位然後出票,特別是熱門的影片,會異常的火爆。第一道壓力是查詢已售座位列表和鎖座,需要能快速的支撐用戶的鎖座請求,且實時查詢到已售賣的座位列表,避免發起無效的鎖座請求;第二道壓力是出票,如果鎖座成功,但一直出票失敗,會給用戶帶來很不好的體驗。
二、架構設計思考的方向
1.讓業務贏
在分層設計上,分成渠道接入層、業務層和服務層。在業務層,對外業務和管理後臺功能獨立,職責清晰,快速支撐業務;服務層沉澱基礎服務,構成穩定的業務和基礎服務。
圖1:業務技術大圖
2.讓系統穩定
在架構設計上,接入統一網關讓系統安全,有限流,對庫存中心和訂單中心進行數據隔離,且加入多級緩存方案,讓系統穩定。
圖2:技術架構圖
三、實現方案與技術解析
1.高併發流量如何抗?
電影節的流量是非常典型的秒殺場景,瞬時流量非常高,對於系統的高性能要求就註定很高,在雲智中,我們是如何抗高併發流量的?我們通過以下三點來進行闡述:熱點數據隔離、流量削峰漏斗、多級緩存。
1)熱點數據隔離
在熱點隔離這塊,雲智選擇的策略包括:數據隔離和業務隔離。
數據隔離:是把查詢已售賣座位和已鎖定座位等庫存相關的熱點數據,隔離出來,單獨業務數據庫,且使用分庫分表,減少系統性能壓力,提高吞吐量。
業務隔離:電影節的業務數據,獨立的業務數據生成能力,圈定參與活動的業務數據,進行緩存預熱,起到隔離的效果。
2)流量削峰漏斗
關鍵詞是“分層削峰”,漏斗式的減少請求流量,在業務鏈路的過程中,我們會進行業務校驗,層層過濾,如用戶的賬號安全、購買資格,影院、影廳等基礎信息狀態是否正常,要購買的商品信息狀態是否正常、秒殺是否已經結束等,每個層次都儘可能的過濾掉非法的請求,只在最後端處理真正有效的請求,最終減少請求到數據庫DB的寫操作流量,保證系統處理真正有效的請求。
以鎖座流程為例子:
圖3:流量削峰漏斗示例圖
3)多級緩存
在分層漏斗的前提下,雲智採用分佈式緩存和本地緩存LocalCache多級緩存的方案來抵抗高併發流量,以下簡要介紹一下在系統中使用的策略:
a)緩存預熱。在指定參加活動的場次後,會在限定時間內停止變更,在開售前,會自動進行預熱緩存,避免激增流量擊穿緩存;
b)緩存失效時長控制,對基礎數據實體的VO對象和DO對象採用失效時間長短的緩存控制,靜態數據和DO實體使用長失效時長的策略:不失效或24H;動態數據和實體Info使用比較短的失效時長策略:分鐘級,比如冪等性KEY的緩存時間為2min;
c)本地緩存LocalCache使用的緩存時長策略分3種:2s,60s,122s。優先讀本地的緩存,其次讀遠程分佈式的緩存,使得系統可以抵抗瞬間的高併發流量。
示例圖如下所示:
圖4:多級緩存示例圖
將緩存分2層結構:
第一層是本地緩存結構:用戶、權限、基礎信息等靜態數據,我們優先選擇本地緩存;
第二層是全量的緩存實體信息的DO和VO信息,這層採用的是Tair分佈式緩存。
2.系統的穩定性、高可用性如何保證?
對於任何檔期或者活動,系統的穩定性都是第一要素,針對電影節的活動場景,我們使用了很多設計上的穩定性模式,其中比較核心的有:多輪全鏈路壓測、限流、降級、動態擴容、流量調度、減少單點、依賴簡化等方式;除了以上幾點,本節我們重點聊一聊我們在電影節過程中是如何保障備戰的?
1)保障備戰體系
圖5:保障備戰體系圖
a)在戰前階段
這個階段的工作會比較多,只有做到事前充分準備,才能有更好的保障結果,主要包括以下幾個部分:
(1)梳理薄弱點,包括系統架構、系統薄弱點、核心主流程,識別出來後製定應對策略;
(2)全鏈路壓測,對系統進行全鏈路壓測,找出系統可以承載的最大QPS;
(3)限流配置,為系統配置安全的、符合業務需求的限流閥值;
(4)應急預案,收集各個域的可能風險點,製作應急處理方案;
(5)安全保障,主要聚焦在賬號權限管控,以最小夠用原則為準,防止權限濫用,安全無小事;
(6)戰前演練,通過演練來檢驗保障體系是否完善,演練開票現場,提高團隊響應和處理能力;
(7)作戰手冊,制定作戰手冊,明確作戰流程和關鍵點節點的任務以及溝通機制。
第九屆北京國際電影節保障現場
b)在戰中階段
活動開售,我們也稱為戰中,整個項目組主要專注三件事情,即“監控““響應”和“記錄”。項目組的同學都必須要保持作戰狀態,嚴格按照應用owner機制,負責巡檢應用情況,及時同步技術數據和業務數據是否有異常。同時,在戰中,我們臨時組建“保障虛擬小組”,用於應對大促期間可能出現的緊急客訴等問題,及時做出決策,控制影響範圍,同時也能提高整體作戰能力。記錄,是在戰中過程中必須要記錄下各應用的峰值,及時沉澱技術數據,為後續系統建設,流量評估等提供參考借鑑。
c)在戰後階段
這個階段的主要工作是項目覆盤,覆盤的內容主要包括:項目結果、項目回顧、項目沉澱和改進,將項目過程中收集到的問題和故障進行詳細分析,並將項目過程中沉澱出來的,關於系統穩定性保障的經驗沉澱到日常,讓活動保障的常態化逐步落地。
2)最佳實踐
a)精準監控
通過監控,實時發現各個服務是否觸發限流值,及時進行Review,調整限流值,保證業務成功率和系統穩定。
對系統基礎值班和業務量指標進行精準監控,如load,內存,PV,UV,錯誤量等,避免因內存洩露或代碼的Bug對系統產生影響,精準監控,提前感知內存洩露等問題。
b)數據大盤
通過數據大盤,實時彙總數據,展示業務數據,為系統、為業務提供更加直觀的業務支持,也可以更加有效的進行業務備戰。
第二十二屆上海國際電影節保障現場
3.如何保證不出現重賣?
在業務過程中,我們實現了很多業務,解決了很多困難,我們重點闡述以下兩個痛點,一個是惡意鎖座,一個是防止超賣。
1)如何解決惡意鎖座?
首先我們採用的扣減庫存方式是預扣庫存,用戶操作鎖定座位時即鎖定庫存,那我們如何解決惡意鎖座呢?
a)鎖座訂單中會生成一個“庫存失效時間”,超過該時間,鎖座訂單會失效釋放庫存;
b)限制用戶購買數量,一人最多隻能購買6張票;
c)接入黃牛防控系統;
2)如何防止庫存超賣?
電影票不同於電商業務普通的標品,是不允許出現超賣的情況,否則會出現重票,從而引發客訴輿論問題,所以在庫存數據一致性上,需要保障在高併發情況下不出現重票,我們的解決方案是:
a)使用分佈式緩存,在分佈式緩存中預減庫存,減少數據庫訪問;
b)使用數據庫唯一鍵,在鎖座表中,設定場次Id和座位Id作為唯一鍵。鎖定座位時,如果座位已經售賣,會報出數據庫異常,不允許某一個座位重複售賣。
四、總結
回顧電影節搶票,我們首先想到的是能抗高併發流量,能讓系統穩定。通過上述章節我們揭開了高性能、高可用等背後的技術,展示了一個典型搶票大戰的技術方案,核心技術包括:
- 讓業務贏 = 完整的業務應用 + 支撐核心業務
- 高性能、高可用 = 流量削峰 + 限流降級 + 多級緩存
- 平臺成熟化 = 完善的監控 + 保障方案
在這個過程中,我們沿著讓系統穩定、讓業務贏的設計思想,不斷的思考和落地這些技術細節,沉澱核心技術,以達到讓用戶體驗流暢的搶票過程。