開發與維運

數智化時代合格數據架構師如何養成?

前言:
更多關於數智化轉型、數據中臺內容可掃碼加群一起探討

668d7f5941782665ed1f41529db3eb677f4b9379.png
阿里雲數據中臺官網 https://dp.alibaba.com/index


正文:
(來源:數據從業者 )

文章將從雲計算基建、大數據基建、數據構建、數據管理、數據應用5個角度,闡述數據架構師的必備技能和素養。

雲計算基建

傳統的IT架構已存在幾十年,隨著企業業務的快速發展,對於業務的可用性要求越來越高,對於成本的壓力也越來大。是否存在一種方式能以更低成本、更高性能和可用性的方式支持新時代的企業信息化要求?
部分互聯網公司由於自身業務快速發展的原因,做了大量嘗試。阿里巴巴率先發起的“去IOE運動”:將IBM機器替換成雲上服務器,將ORACLE數據庫替換成雲上數據庫,將EMC存儲替換成雲上存儲服務器。帶來的不僅僅是成本的降低,同時也提供了更加穩定、安全的環境。雲計算作為信息時代的水、電、煤已成為行業共識。隨著雲計算的興起,企業全面上雲的拐點已到。作為一名合格的數據架構師,對雲計算基礎設施需要有充分的理解。

  • 首先,相較於傳統的服務器,架構師需要了解雲上是如何實現穩定、彈性、安全、成本、易用、擴展的雲上服務器的。還包括如何實現物理資源的虛擬化,如何通過彈性伸縮從容面對業務的峰谷,如何通過多地域多可用區實現容災等。另外,數據架構師需要能評估服務器所需資源類型,通過技術調研和論證,得出所需要的服務器的資源,例如面對不同的業務和技術場景,企業需要的是緊湊型、通用型、均衡型、內存型、獨享型哪種類型的服務器。
  • 其次,網絡同樣也是數據架構師必須掌握的基礎知識,如何設計安全的網絡機制、如何規劃合理的網絡配置、如何進行可靠的網絡連接(包括不同虛擬網絡之間以及與客戶本地IDC進行連接方式等),都是數據架構師在工作中會遇到的各種挑戰。
  • 最後,數據架構師需要了解各種雲上數據庫(包括關係型數據庫、NoSQL數據庫等)的應用場景、產品特性等。以及如何保障其可靠性,安全性、可用性、擴展性、成本。另外還有對象存儲產品的特性,如何對視頻、圖片等數據進行有效的管理。如何通過CDN等手段提高用戶訪問響應速度。

大數據基建

大數據藉著雲計算的東風,也開始在信息時代發揮越來越重要的地位。阿里巴巴提出的數據中臺概念和實踐,也在雲上落地開花。面對體量巨大、時效要求高、形式多樣化、價值密度低的企業大數據,對於數據架構師,需要在採集、計算、存儲等基礎技術的原理和應用場景形成自己的知識體系。

  • 首先,數據架構師需要了解業界通用的PC端和無線端採集、爬蟲採集等場景的具體方案。理解從埋點申請、可視化埋點實施、驗證、發佈到監控的全生命週期管理。
  • 其次,對於離線計算和實時計算的模式和原理,以及對應場景的離線計算和實時計算的產品都應該熟悉掌握,在洞察客戶需求後,能合理的做計算模式的選擇和判斷。
  • 最後,大數據在存儲上與業務系統在場景和目標上的本質區別,需要理解如HDFS的大數據存儲原理、MPP架構的原理和常用場景、消息中間件用於實時計算的方式等。

數據構建

數據架構師很重要的職責就是思考如何對數據做合理有效的構建,形成標準、統一、可公用、可理解的公共數據,讓業務能夠盡情在建設好的數據上馳騁沙場,利用數據創造出業務價值。

  • 首先,好的數據體系能夠對數據進行有效的橫向分層,合理的縱向分類。通過數據體系的構建,能夠讓數據生產者更合理高效的組織數據,數據消費者能更有效的理解和獲取所需數據,數據管理者能更高效的管理好數據。因此數據架構師需要能從全局上對數據體系有個整體上長遠的規劃。
  • 其次,數據需要能夠被更好的組織和使用還需要有合理的數據建模方法論的支撐,例如基於維度建模的數據構建方式能夠讓數據以事實表和維度表的方式的方式向上提供數據服務,並且預先通過基於分析對象的彙總數據能夠提供統一標準的業務指標定義。數據架構師需要有理解業務、抽象實體、形成模型的知識體系,並且在遇到問題時能從合理性、可擴展性、易用性、可理解性等各種角度給出模型設計的合理解決方案。
  • 最後,就算數據架構師不需要做代碼開發,可是這個能力是對數據架構師最基本的要求,只有充分理解了數據加工的整個過程,才能基於數據的思維去設計好數據體系。在碰到項目開發同學遇到數據處理問題時,能夠及時提供有效的幫助,對於建立項目中的信任關係也起到了關鍵的作用。

數據管理

數據質量是數據能被信任的關鍵,也是數據中臺建設能否成功的關鍵。因此數據架構師需要設計事前、事中和事後的數據質量檢測和處理機制,保證數據在完整性、準確性、及時性、一致性上滿足業務的要求。

數據架構師還需要保證數據治理能夠形成有效的閉環,從發現治理問題、推送給責任人、引導治理動作、治理效果評估、到下一次進行新的治理問題發現,根本上杜絕數據“有人生、沒人養”的困局。就像環境治理一樣,只有基於體系化的長效機制才能還我們綠水青山。

數據是一把雙刃劍,因為它在給業務帶來價值的同時,數據安全的問題是另一把可致企業於死地的利劍。數據架構師要對數據安全規劃做在最前頭,從數據產生到消亡全生命週期進行安全制度和流程的規劃,同時需要通過如差分隱私、保序脫敏等各種技術手段保障數據安全。

數據只有讓業務充分使用才能產生價值,因此首先數據架構師需要思考如何提高數據的易用性,包括從數據的業務視角組織形式、數據標準口徑的定義方式、基於元數據幫助業務理解數據等方式。再次,數據是有成本的,因此需要能夠更好的衡量數據帶來的價值,形成數據資產ROI,再配合相應的數據運營手段,才能讓數據資產化和價值化互相促進發展,相愛相生。

數據應用

數據架構師需要能夠讓數據更好的服務業務,但是應拋棄疲於奔命於各種跑數取數的深淵中,需要能跳出一個個單點的需求,能更全面的思考如何主動服務業務。

  • 首先,數據架構師需要有很強的業務理解能力,對客戶的業務能基於行業視角有清晰的理解,並且能基於理解做進一步的抽象,抽象出業務的本質。
  • 其次,數據架構師能從業務方的需求、對業務和數據的理解沉澱出一系列的分析思路。也需要能通過算法結合數據,思考如何進行數據的深度挖掘,挖掘出高價值數據。最終能將思路和方法通過產品化的方式沉澱,主動服務業務,與業務共創數據價值。
  • 最後,數據的本質是為了賦能商業、創造商業,因此數據架構師需要有一定的商業思維,能理解數據如何使商業更加智能,如何驅動商業的發展,如何創造新的商業形態。

總結

技術到業務,方法論到產品化,全局規劃到細節把控,數據架構師需要在大數據的方方面面都承擔起重要的作用。更重要的是,需要有對大數據行業未來的信心、對職業發展方向的恆心、對漫長落地過程的耐心、對賦能商業的熱心。

Leave a Reply

Your email address will not be published. Required fields are marked *