雲網絡架構
阿里雲操作系統叫飛天,雲網絡平臺稱為洛神。作為飛天系統的核心組件,洛神平臺支撐了超大規模租戶、超大規模虛擬機的高性能雲網絡。
洛神平臺由很多網絡設備組成,在架構上主要可以分為兩類:虛擬交換機AVS和各種網關設備。AVS負責ECS的虛擬網絡接入,網關設備提供了豐富的網絡功能和服務。
早期的洛神平臺中,AVS和網關設備都是在x86物理機上基於kernel架構實現的,轉發性能不高。隨著DPDK技術的成熟,在洛神1.0架構中,AVS和網關設備基於DPDK進行了重構,使轉發性能有顯著提升,網關設備單物理機能提供100G+的轉發能力。此外,我們也基於DPDK開發了一套高性能的通用轉發平臺NetFrame,包含了收發包、協議棧等通用的網絡基礎特性,屏蔽了DPDK版本和底層硬件差異,並做了大量的算法庫優化和性能調優,使各網關產品能更專注於業務功能的快速演進。
在過去很長一段時間裡,這個架構很好的滿足了業務需求,並支撐了雲網絡的快速發展。但近幾年,隨著搬站和集團上雲的推進,網絡業務和流量出現了數量級增長,基於x86物理機軟轉發架構的問題也日益突出:
- • 單核性能瓶頸,大流量或攻擊場景容易打爆
- • 部分場景業務流量激增,達到數十Tbps,物理機轉發性能和業務述求間差了幾個數量級
- • 物理機擴容週期長,彈性不足,無法按需擴縮容
- • 開放能力不足,無法支持生態部署
- • ......
軟硬件一體化
上述問題中,最關鍵的兩個述求是高性能和高彈性。在這個背景下,洛神平臺升級到了2.0架構,通過軟硬件一體化,打造了連接全球、超大規模、彈性開放的新一代雲網絡平臺。
硬件是解決性能問題的最佳選擇。近幾年隨著SDN技術的普及,交換芯片和智能網卡都具備了不錯的可編程能力,已經能很好的滿足雲網絡基礎需求。洛神2.0中,AVS和基礎網關設備實現了硬件加速,使轉發性能顯著提升,單核問題和水位問題也都不復存在。
硬件性能很好,但可編程能力和資源都比較有限。對於路由、轉發,硬件很擅長;但對於NAT、SLB這些有狀態的複雜業務,硬件就有點力不從心了。除了硬件加速,洛神2.0還構建了新一代NFV平臺,擁抱雲原生,將網元邏輯部署在通用ECS上,提供彈性和開放能力,很好的彌補了硬件靈活性不足的問題。
通過軟硬件一體化,基礎網元通過硬件實現了超高的轉發性能,複雜的業務網元則基於NFV平臺實現了超高的靈活性和彈性。
雲網絡NFV平臺
NFV的關鍵技術是構建平臺能力,包括虛擬網絡的調度能力和NFV資源池的抽象管理能力。基於平臺能力,加上在ECS內實現的網絡功能,就可以包裝出各種網元產品了。
洛神2.0 NFV平臺的定位就是構建通用、靈活的平臺能力,降低業務網元NFV化的門檻和成本,提高產品能效。整個平臺由NFV轉發和NFV管控兩部分組成,在實現上主要有以下特點:
- • 基於ECS構建資源池,提供分鐘級交付和彈性伸縮能力
- • 支持多租戶模式,提供通用的負載均衡、彈性擴縮容、故障隔離等基礎能力
- • 支持網絡功能的服務鏈編排,將網絡產品和安全產品串接成解決方案
- • 支持第三方生態接入
NFV轉發平臺採用了分層設計,通過抽象轉發層和業務邏輯層,實現了轉發的快慢速分離。受益於洛神1.0中對於DPDK和NetFrame的積累,業務網元從物理機遷移到ECS後仍具備了很高的轉發性能,結合ECS的彈性和NFV架構的水平伸縮能力,能分鐘級交付單客戶100G+的轉發能力。
NFV管控平臺通過服務化形式,為各業務網元管控提供了通用的資源池化、彈性擴縮容、故障隔離、服務鏈編排等通用管控能力。通過NFV管控的抽象層,底層轉發資源、水位、調度、隔離對業務網元管控透明,業務網元管控可以更加專注於自身業務邏輯的快速演進。
豐富的NFV網元
作為洛神2.0的重要一部分,目前PrivateLink、NAT、SLB等網元產品已經演進到了新一代的NFV架構,並通過新架構獲得了很好的彈性和靈活性,後續也會有多的產品基於NFV架構進行構建和演進。
此外,通過NFV平臺,第三方廠商可以將其應用移到阿里雲,和阿里雲自建網元一樣獲取彈性和調度能力,並在雲市場裡對雲上的客戶進行售賣和提供服務,形成一個非常好的生態系統,豐富雲上客戶的選擇。