開發與維運

圖數據庫 Nebula Graph 在 Boss 直聘的應用

BOSS 直聘圖數據庫實踐

本文首發於 Nebula Graph 官方博客:https://nebula-graph.com.cn/posts/nebula-graph-risk-control-boss-zhipin/

摘要:在本文中,BOSS 直聘大數據開發工程師主要分享一些他們內部的技術指標和選型,以及很多小夥伴感興趣的 Dgraph 對比使用經驗。

業務背景

在 Boss 直聘的安全風控技術中,需要用到大規模圖存儲和挖掘計算,之前主要基於自建的高可用 Neo4j 集群來保障相關應用,而在實時行為分析方面,需要一個支持日增 10 億關係的圖數據庫,Neo4j 無法滿足應用需求。

針對這個場景,前期我們主要使用 Dgraph,踩過很多坑並和 Dgraph 團隊連線會議,在使用 Dgraph 半年後最終還是選擇了更貼合我們需求的 Nebula Graph。具體的對比 Benchmark 已經有很多團隊在論壇分享了,這裡就不再贅述,主要分享一些技術指標和選型,以及很多小夥伴感興趣的 Dgraph 對比使用經驗。

技術指標

硬件

配置如下:

  • 處理器:Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz 80(cores)
  • 內存:DDR4,128G
  • 存儲:1.8T SSD
  • 網絡:萬兆

Nebula Graph 部署 5 個節點,按官方建議 3 個 metad / 5 個 graphd / 5 個 storaged

軟件

  • Nebula Graph 版本:V1.1.0
  • 操作系統:CentOS Linux release 7.3.1611 (Core)

配置

主要調整的配置和 storage 相關
# 按照文檔建議,配置內存的 3 分之 1
--rocksdb_block_cache=40960

# 參數配置減小內存使用
--enable_partitioned_index_filter=true
--max_edge_returned_per_vertex=100000

指標

目前安全行為圖保存 3 個月行為,近 500 億邊,10 分鐘聚合寫入一次,日均寫入點 3,000 萬,日均寫入邊 5.5 億,插入延時 <=20 ms。

BOSS 直聘圖數據庫實踐

BOSS 直聘圖數據庫實踐

BOSS 直聘圖數據庫實踐

讀延時 <= 100 ms,業務側接口讀延時 <= 200 ms,部分超大請求 < 1 s

BOSS 直聘圖數據庫實踐

BOSS 直聘圖數據庫實踐

當前磁盤空間佔用 600G * 5 左右

BOSS 直聘圖數據庫實踐

CPU 耗用 500% 左右,內存使用穩定在 60 G 左右

BOSS 直聘圖數據庫實踐

Dgraph 使用對比

目前來說原生分佈式圖數據庫國內選型主要比對 Dgraph和 Nebula Graph,前者我們使用半年,整體使用對比如下,這些都是我們踩過坑的地方。

BOSS 直聘圖數據庫實踐

就我們使用經驗,Dgraph 設計理念很好,但是目前還不太滿足我們業務需求,GraphQL 的原生支持還是有很大吸引力,但是存儲結構決定容易 OOM(邊存儲也分組的話會優化很多,官方之前計劃優化);另外,採用自己編寫的 badger 和 ristretto,目前最大的問題是從官方釋放的使用案例來看,未經大規模數據場景驗證,在我們實際使用中,大數據量和高 QPS 寫入場景下容易出現崩潰和 OOM,且如果採用 SSD 存儲海量數據,Dgraph 的磁盤放大和內存佔用也需要優化。

如果沒有高 QPS 寫入,目前 Dgraph 還是值得一試,對於很多快速原型的場景,作為 GraphQL 原生圖數據庫使其非常適合做基於圖的數據中臺,這是目前的一個大趨勢,它也上線了自己的雲服務,業內標杆 TigerGraph 也在做相關探索,另外事務的完善支持也是它的優勢,這塊暫時用不到,所以沒做相關評測。實測 Dgraph 在線寫入併發不高或只是離線導入數據使用的情況下還是很穩定的,如果想借助它的高可用和事務功能,可以嘗試下。

對比來說,Nebula Graph 很優秀,特別是工程化方面,體現在很多細節,可以看出開發團隊在實際使用和實現上做較了較好的平衡:

  • 1.支持手動控制數據平衡時機,自動固然很好,但是容易導致很多問題
  • 2.控制內存佔用(enable_partitioned_index_filter 優化和設置單次最大返回邊數目),都放在內存固然快,但有時候也需要考慮數據量和性能的平衡
  • 3.多圖物理隔離,多張圖實在太有必要
  • 4.nGQL 最大程度接近最常用 MySQL 語句,2 期兼容 Cypher 更加完美;對比 GraphQL 固然香,但寫起復雜圖查詢真的讓人想爆炸,可能還是更加適合做數據中臺查詢語言
  • 5.和圖計算框架的結合,最近釋放的 Spark GraphX 結合算法非常有用,原先我們的圖計算都是基於 GraphX 從 Neo4j 抽取後離線計算團伙,後續打算嘗試 Nebula Graph 抽取

這裡主要從實際經驗對比分享,二者都在持續優化,都在快速迭代,建議使用前多看看最新版本 release說明。

建議

當前 Nebula Graph 做得很優秀,結合我們現在的需求也提一點點建議:

  • 1.更多離線算法,包括:現有的圖神經網絡這塊的支持,圖在線查詢多用在分析,真正線上應用目前很多還是圖計算離線算完後入庫供查詢
  • 2.Plato 框架的合併支持,Spark GraphX 相對計算效率還是低一些,如果能整合騰訊的 Plato 框架更好
  • 3.借鑑 TigerGraph 和 Dgraph,支持固化 nGQL 查詢語句直接生成服務 REST 端點HTTP 傳入參數即可查詢,這樣可快速生成數據查詢接口,不用後臺再單獨連接數據庫寫 SQL 提供數據服務

目前 Boss 直聘將 Nebula Graph 圖數據庫應用在安全業務,相關應用已經線上穩定運行大半年,本文分享了一點經驗,拋磚引玉,期望更多技術夥伴來挖掘Nebula這座寶庫。

Dgraph 遇到的一些問題,供有需要小夥伴參考

  • 給 Dgraph 一些 issues
  • 給 Dgraph 提交的 PRs

參考文章

本文系 Boss直聘·安全技術中心 文洲 撰寫

推薦閱讀

Leave a Reply

Your email address will not be published. Required fields are marked *