大數據

大數據

這五年的 6 個編程感悟!

前言 沒接觸編程之前,總覺得它很神祕,很牛逼。每當有新的系統,新的軟件出來時,總想衝在前頭,然後 down 下來好好體驗。 後來加入了程序員大軍,才發現編程並非想象中的那麼美好,經常要面對完成不了的需求,和背不完的鍋,真的是一部辛酸編碼史。 儘管如此,我們的工作也算是在為機器注入靈魂,還是挺高大上的。只是很多時候不得不面對一些殘酷現實,下面就來聊一聊這幾年的編程感悟吧! 1、 bug 是修不完的 不知各位猿友有沒有這樣的體會:每當週五臨近下班時,測試總會向你扔來一大堆的 bug 工單。 而就在你以為所有的 bug 都解決完後,回過頭象徵性的驗一驗之前的接口時,突然發現,他媽的又不正常了。 這種感覺就像按下一個葫蘆,起來一個瓢,以為解決完了,才發現只是自己以為。 那為什麼會一直修不完呢?一方面是因為程序它就像一個精密的機械手錶,很多地方都是有關聯性的。 當你要改動一個地方的時候,往往得把它所有的關聯點都得考慮一遍,有點像深度優先遍歷。可想而知,一旦系統複雜,那大多時候我們也只能是走一步看一步。 另一方面只要我們的系統還有用戶在使用,那就會有改動,特別是對於三天兩頭加需求的互聯網行業來說,這更是家常便飯。 在這麼高頻率的改動下,設計得再好的系統也經不起折騰。就好像一輛高速運動的跑車,還總想著給它換零件一樣。 […]

大數據

對話李飛飛,揭祕國際體育賽事風“雲”背後的黑科技

Q:作為一名數據科學家,在比賽中你最關注什麼數據? 李飛飛:作為數據科學家,我關心大型體育賽事的一些關鍵指標。比如體育賽事在哪個國家或地區舉辦,比賽級別,也就是參賽運動員的競爭力如何,在同種賽事中他們的表現如何,是否處於領先地位,觀眾可以期待他們在比賽中有怎樣的表現,關鍵運動員的過往成績如何等等。 除此之外,作為一名數據科學家,我還關心運動員的生理數據,包括他們的耐力、力量、運動速度等。這些對我來說是關鍵指標,可以預測他們在比賽中的表現。還有一些環境因素,如觀眾支持誰、天氣狀況,以及所有推進成功的競技比賽的因素。 Q:我們都知道運動員都要經過多年艱苦訓練才能參加比賽,你能不能跟我們分享一下,我們的數據技術如何幫助運動員在訓練期間提高成績,如何給觀眾帶來更好的體驗? 李飛飛:我們以多種不同的方式使用數據驅動的數據分析來指導決策,在訓練期間幫助運動員提高成績。 例如,英特爾和阿里巴巴為運動員提供了互聯工具。該技術旨在帶來更深入的洞察力,使運動員的訓練更高效。例如,在100米短跑比賽中,我們正在使用基於人工智能的技術來幫助運動員及其教練獲得近乎實時的洞察力和疊加可視化,使解說員、教練和受訓者都可以利用這些洞察。 該技術由英特爾硅谷總部開發,並託管在阿里雲基礎設施上。它結合了計算機視覺技術、數據庫技術和被稱為“3DAT”(3D Athlete Tracking)的數據驅動分析。該技術採用攝像頭實時捕捉比賽情況,使用實時算法分析每個短跑運動員動作的生物力學,並結合該短跑賽事回放中產生的數據。這讓運動員、教練和觀眾能夠更好地享受比賽,改進訓練計劃,做出實時數據驅動的決策。 除了“3DAT”技術之外,我們還使用多種數據驅動的技術來幫助運動員、教練和觀眾在大型體育賽事中提高成績,改善觀賞體驗。例如,我們將實時捕獲比賽相關的數據,並將這些數據轉儲到數據庫中。在數據庫內部,我們進行復雜的分析和實時數據處理,以幫助賽事組織者、觀眾、運動員、教練和所有參與者更好地享受比賽,做出數據驅動的決策。例如,有多少觀眾觀看某場比賽,實時天氣狀況如何,比賽相關的時間和空間情況如何。這些不僅結合了阿里雲基礎設施上的數據驅動技術,還結合了連接運動員、觀眾與物理世界的物聯網技術,以便他們在比賽過程中更好地互動。以上這些結合在一起,讓參與者在一場大型體育賽事中獲得無與倫比的體驗。 Q:那阿里雲數據庫又如何支撐大型體育賽事呢? 李飛飛:阿里雲致力於提供世界領先的數據庫產品和技術,以提高大型體育賽事的運營效率和有效性,從而提升運動員、觀眾和工作人員的體驗。我們通過支持這種大型體育賽事展示了數據庫技術,尤其是雲原生數據庫產品和技術如何為不同行業帶來變革。 大型體育賽事是一項複雜工程,涉及競賽、技術、物流、交通、媒體運營等數十個職能部門。一場大型體育賽事往往需要主辦城市花費近十年的時間來準備,力求讓每個方面都盡善盡美。而成功完成這個任務的關鍵是利用與比賽相關的所有數據,將整個過程數字化。也就是說,數字化是最關鍵的。數十個職能部門依靠雲原生數據庫技術的高性能做出所有實時數據決策,為部門協作、運營和數據分析發現有用的洞察,幫助運動員、觀眾、賽事組織者等更好的參與組織比賽。 為此,阿里雲數據庫產品,包括我們的RDS、NoSQL數據庫、雲原生關係型數據庫PolarDB和雲原生數據倉庫AnalyticDB,被用於支撐大型體育賽事的複雜的活動管理系統,如競賽日程服務、後勤運營以及所有賽事運營相關事項。這對於大型體育賽事至關重要,是大型體育賽事順利承辦的基礎設施。 所有與賽事相關的數據都在阿里雲數據庫平臺上實時寫入和處理。這確保了數據在阿里雲RDS上100%安全、100%可靠且被實時處理。我們確保跨AZ高可用性、彈性以及橫向可擴展性。所有這些關鍵特性對大型複雜體育賽事的成功運營至關重要。除此之外,我們還提供數據倉庫解決方案,如使用我們的雲原生數據倉庫AnalyticDB來幫助運動員和賽事組織者做出更好的決策,從收集的數據中獲得洞察。總而言之,我們為大型複雜體育賽事數據管理的整個生命週期提供一站式解決方案。 Q:能否為我們總結一下阿里雲數據庫擁有哪些優勢? 李飛飛:阿里雲數據庫是全球數據庫產品和技術的領先者之一,尤其是在雲原生數據庫產品和技術領域。正如著名的奧運口號“更高、更快、更強”一樣,阿里雲數據庫的口號是“更快、更穩、更安全”。我們在響應客戶需求方面不斷取得重大進展,我們密切關注客戶需求,將客戶反饋納入我們世界領先數據庫技術的產品開發週期,致力於為客戶提供最好的雲原生數據庫產品。 事實上,我們在2020年Gartner全球數據庫魔力象限評估中,進入領導者象限。阿里雲數據庫市場份額在亞太地區排名第一,在全球所有云供應商中排名第四,在中國市場無疑是排名第一。我們的技術是業內最先進的技術之一,例如,我們的雲原生數據倉庫AnalyticDB在Forrester Wave最新雲化數據倉庫研究報告中進入“強勁表現者”象限,我們在業界廣泛接受的標準TPC-DS基準測試中排名第一,這個基準測試用於評估數據倉庫產品的性能和成本效益。 整合我們從關係型數據庫、數據倉庫到NoSQL數據庫的所有產品,阿里雲數據庫提供一站式全鏈路數據庫管理與服務。我們可以滿足客戶在整個數據管理生命週期的需求,從數據生產和集成到數據實時處理與存儲,到數據分析和發現,最後到數據開發和管理。

大數據

Spring認證_什麼是Spring GraphQL

Spring GraphQL 為構建在 GraphQL Java 上的 Spring 應用程序提供支持。兩個團隊之間的聯合聯合。我們的共同理念是少固執己見,更專注於全面和廣泛​​的支持。 Spring GraphQL 是 GraphQL Java 團隊的 GraphQL Java Spring 項目的繼承者。它將成為所有 Spring、GraphQL 應用程序的基礎。

大數據

DataWorks熟能生巧系列直播第四期:DataWorks數據集成獨享資源組與VPC數據源網絡打通

本篇文章主要介紹了DataWorks相關資源組的概念,包括分類、區別和使用場景等,並實操演示瞭如何打通數據集成獨享資源組與VPC數據源網絡。 分享人:DataWorks技術支持團隊 我們在開發者社區學習路線裡有發佈一個DataWorks的學習路線,裡面包含了入門講解和熟能生巧系列的直播內容,大家可以去學習一下,需要主賬號登陸學習哦:https://developer.aliyun.com/learning/course/81 本期視頻地址:https://developer.aliyun.com/learning/course/81/detail/1241 一、資源組相關概念介紹 什麼是資源組? – 資源組是任務分發、執行的服務器。 DataWorks資源組分為公共資源組、獨享資源組、自定義資源組。 公共資源組為所有用戶共享的機器,高峰期可能出現任務等待機器資源而暫時無法運行的情況,運行任務時按量付費。 獨享資源組需要用戶自行購買,包年包月形式售賣,購買後可分配到用戶自己的工作空間獨享使用。 自定義資源組為用戶自建的機器,由用戶自己維護。 資源組的區別和使用場景如下: 任務執行時如果資源不足,任務會等待資源: 調度資源組和數據集成資源組這兩種資源組等待資源的具體表現形式不同。如果調度資源組資源不足,那麼任務日誌中會打印“任務併發執行數已達上限,正在等待雲端的gateway資源”,而數據集成資源組不足的情況下,數據集成的任務實際不會分配到資源來運行,所以數據集成日誌中會長時間地打印wait這個狀態。 如果是使用公共資源組出現等待資源,可以考慮購買獨享資源組。如果是獨享資源組資源不夠,可以考慮擴容或者購買新的獨享資源組。注意獨享資源組僅在綁定的工作空間內使用,如果是多個工作空間,建議分開購買獨享資源組。合理規劃使用獨享資源組,可以保障任務按時執行和產出。 下面是獨享資源組的解釋,它可以在DataWorks管控臺的資源組列表裡購買。 也可以通過購買鏈接直接購買:https://common-buy.aliyun.com/?commodityCode=dide_resource_pre&request=%7B%22ord_time%22:%221:Month%22,%22order_num%22:1,%22region%22:%22cn-shenzhen%22,%22dide_ex_pre_type%22:%22dide_ex_alisa%22,%22dide_ex_alisa_spec%22:%228c16g%22,%22expand_num%22:2%7D 購買是請謹慎確認地域、資源組類型和資源組規格等信息: 在不同的數據集成任務場景中,數據源所在網絡環境比較複雜,需要通過一系列操作打通獨享數據集成資源組和數據源的網絡鏈接,下面的鏈接具體講解了各種場景。當然,目前DataWorks提供了數據源網絡連通性工具來幫助大家連通數據源,降低連通操作的複雜度。

大數據

案例酷 | 興城人居:數字時代的智慧物業讓生活更巴適

疫情期間,多地樓市迎來了一波小陽春,可還沒等歡呼雀躍就戛然而止了。隨著科技發展和城市年輕化,新興購房人群,特別是人才安居工程的建設,需要更創新的居住方式,更安全、更舒適、更智能的租住體驗,對互聯網、智能化、社交等新要素的追求也更為強烈。 多重因素作用下,提升物業服務成為地產企業要在行業中脫穎而出的亮點。作為房企品牌的軟實力,物業不僅承接房屋銷售後的售後服務,更是直接面對業主、建立口碑和挖掘潛在消費能力的寶貴資源池。而且,優秀的物業服務品牌亦能進一步拉動房企產品的銷售,形成良性循環。 阿里雲與興城人居集團,基於智能人居物聯網平臺,圍繞智慧社區、未來酒店、智慧康養以及大數據應用等方面展開重點合作,共同推進人居地產的數字化轉型,打造面向未來的人才公寓、智慧社區、智慧物業,為業主帶來居住體驗升級,服務體驗升級,助力興城人居實現“讓老百姓安居樂業,提升幸福感”的發展目標。 01數字時代呼喚物業管理傳統模式革新 很多傳統物業管理公司服務觀念落後,將自己定位為管理者,而不是服務者。隨著各類物業成本上漲,服務效率低和服務不規範現象頻發,傳統物業服務模式進入了瓶頸期。 興城人居藉助“互聯網+”的思維、智能化的技術和手段,大幅降低企業管理、運作、能耗和物耗等多方面的運營成本,提升組織能效,推進社區向現代物業服務企業轉型升級。 同時要發展新服務,打造更高品質的服務。藉助智能門禁、智慧停車、線上購物等科技集成,物業企業可打造線上線下相融合的智慧物業服務平臺,能以更加高效、精準服務不斷滿足和創造客戶需求,解決傳統物業服務中的癢點和痛點,為客戶提供更好體驗、更高品質的新型服務模式,提升人民的幸福感。 02精細運營助智慧物業平臺獲得增值服務 方向既明,興城人居攜手阿里雲逐步完成了智慧物業平臺數據可視化中心、手機APP客戶端以及五個子平臺和九大配套增值服務業態。而之前落地的社區人工智能面部識別門禁系統在疫情期間的社區防控中更是立下大功,有效加強了小區防疫安全,興城人居榮獲成都市住建局頒發的住建領域“疫情防控先進集體”稱號。 圖:興城人居智慧物業數據展示大屏 在興城人居的社區內,“智慧”的方向體現在多個方面,如電子通行證、線上報修、線上下單甚至是人臉識別,還有機器人配送、無人機殺毒等等。隨著科技手段的應用,讓智慧物業的功能得到廣泛驗證,也讓小區居民提高了對智慧物業的認識,對物業水平的認可度,也會有一個重新評估,是一次智慧物業發展的機遇。疫情下小區封閉期間,業主通過APP即可實現小區內送水、生活物品的採購及配送,一掃疫情帶來的生活陰霾,增加了小區業主的幸福感。 醫養健康小屋提供精密的醫療級別檢測設備,長期為客戶建立和完善健康檔案,實現健康信息的動態化的管理,業主使用移動應用端在健康小屋登錄體檢設備進行自助體檢,自助體檢並生成體檢報告。數據中臺則根據體檢報告進行合理膳食及健身建議。 無人健身房實現24小時自助運營,倉內放置有氧器械、空調和製氧機,滿足社區居民健身場景。此外,根據健康小屋體檢報告,由醫生和教練團隊製作針對性的運動和飲食方案,持續根據運動數據優化和調整,創造健康生活方式。 24小時智能無人便利店則是社區內的通用智能配套,打造完美“生活半徑”的便民零售體系。 無人書吧則因應社區業主文化需求,24小時提供線上+線下結合的書屋,提供全民閱讀綜合服務,通過“雲端 +智能終端 +內容資源 +落地服務”的模式實現租書、借書、分享、培訓的一站式文化之旅。書吧內可實現圖書資產和運行管理自動化、借閱場景自助化、借閱行為數據化、閱讀服務精準化。 小區設置的智能垃圾桶,不僅提示垃圾分類,而且支持人臉錄入家庭共同賬戶,垃圾分類全民參與。此外,還支持有償回收/信用機制:垃圾合理分類可獲得相應積分,積分兌換物業服務權益,如健康小屋體驗券,健身房體驗券,咖啡抵扣券、借書券,無人超市商品,支付寶紅包等,營造社區美好環境。 03基於平臺擴展社區生態合作體系,未來可期

大數據

案例酷 | 海升集團:走出智能農業的新路子

點擊觀看視頻:https://v.qq.com/x/page/h0735obgulo.html 成立於1996年的海升集團,不僅是國家級農業產業化重點龍頭企業,同時也是陝西首家在香港主板市場上市的企業。2012年起,集團確立打造中國果蔬領域高端品牌戰略,致力於全產業鏈融合的發展模式,業務涉及果蔬育苗、現代化種植、果品倉儲物流、生鮮銷售、果蔬多元化產品精深加工、現代農業觀光旅遊等,已經成功蛻變為一家品牌化運營的大型現代農業集團。 面臨的挑戰 海升集團需要藉助數據中臺,解決信息流通、數據共享的問題,讓海升集團的經營分析能夠更加準確和清晰,必須要迅速、成功的解決數據問題,更清晰的瞭解水果種植情況,並以此進行更加精準的決策。 ——海升集團熱帶水果事業部經理馮欣欣 雖然海升集團實現了機械化、自動化的高覆蓋率,但是在信息化方面仍然需要進一步解決農業種植的數字化、智能化進程的問題。海升集團需要先進的信息化系統,解決信息流通、數據共享的問題,特別是解決一直以來手工填寫Excel報表的問題,讓海升集團的經營分析能夠更加準確和清晰。 通過農業大數據中臺:使得數據標準化、將數據統一整合、並讓數據整體上雲。 農事管理系統:將數據統一錄入、實現可視化農事管理、並提供輔助指導種植決策。 ET農業大腦1.0:先建立數據化生產體系以及標準化生產服務、為ET農業大腦2.0打下基礎。 獲得的成效 通過與阿里雲合作,海升集團實現了數據的標準化、數據的系統化上雲、建立農業大數據中臺,為數據的流通、挖掘,種植業的數字化、智能化打下堅實基礎。 田間工程師可以基於農業大腦的數據管理功能,通過方便的手機端APP應用更為規範的進行數據錄入、表單管理工作,更為直觀的對彙總數據進行查看和進行GIS圖管理。同時,通過與一線自動化、機械化設備的直接對接,多種數據可以直接通過數據管理功能進入農業大數據中臺,減少了手工錄入的錯誤、延遲等問題。 不僅如此,通過全鏈路農業IoT數據傳感網,通過連通氣象站、土壤墒情儀、田間攝像頭、無人機和農機監控設備,實現了農場全鏈路數據IoT設備採集和自動化上傳,種植作物得到了“全生命週期數據感知”的加持,進一步提高了田間數據的採集效率和準確率。 並通過可視化的方式展示農事作業分基地、地塊、品類、種植年份在四大農事作業方面的主要作業內容及變化趨勢。這就相當於為海升集團的田間工程師提供了一個“全局細顆粒度視角”的數據展現、對比和監控。 其次,在方案管理功能中,由於可以在確定了作物物侯期之後,根據樹齡、樹種、樹木歷史施肥記錄、葉片檢測報告等多個維度篩選合適的歷史種植方案,農事管理幫助田間工程師挖掘出最優化的種植方案,結合田間工程師對肥料配方等方面項目的調整,即可生成建議的種植方案,這實際上構建了基於歷史數據和規格化的農事決策和預警引擎,對灌溉、施肥、施藥等農事操作給出初步的參考建議與種植方案,這一功能的實現為未來構建農事智能輔助決策引擎打下了堅實的基礎。 以農事管理為核心,阿里雲與海升集團共同完成了農業大腦I期項目的建設,有效提高了海升集團農業種植的可視化、流程化水平,特別是通過農業大數據中臺,實現了數據的系統化上雲,從而解決了長期困擾海升集團的數據整合與歷史數據整合問題,讓農業生產第一次有了一張清晰、準確、實時的“數字地圖”,而整個農業大腦I期項目上線應用,預估能夠幫助海升集團在種植生產中,每畝地生產成本將減少200元,總成本節省約2000萬元。 24 節氣不應是中國農業科技唯一沉澱 “24節氣”是中國種植業的最好的科技沉澱,它凝聚了千百年來中國農業歷史的經驗,但可惜的是,“24節氣”很可能是中國對現代種植業唯一的貢獻——隨著海升集團ET農業大腦的構建,數字化、智能化農事管理將梳理和構建出新的農業種植規律和操作範式,成為中國農業向全球農業的全新知識輸出,讓24節氣將不再是中國農業科技的唯一沉澱。 目前阿里雲與海升集團已經開始了第二階段的合作:實現農業種植的機器智能決策,讓AI成為海升集團的田間工程師。未來,利用農業大數據中臺和農業大腦,海升集團的種植經驗、知識和決策體系,將可以成為一種可複製、可輸出的數字化產品和智能服務。

大數據

Flink on Zeppelin 流計算處理最佳實踐

開源大數據社區 & 阿里雲 EMR 系列直播 第十二期 主題:Flink on Zeppelin 流計算處理最佳實踐 講師:簡鋒,阿里雲 EMR 數據開發平臺 負責人 內容框架: 大數據概覽 Flink 學習框架 EMR Studio

大數據

Hive1/2到Hive3升級規劃工具

如何使用 包含在 Github 自述文件中:https://github.com/dstreev/cloudera_upgrade_utils/blob/master/hive-sre/README.md 工具介紹 此應用程序有 3 個子程序: sre 用於查找由小文件和過多分區引起的潛在“Hive”性能問題。 u3 用於審查 Hive3 升級計劃的“Hive 1/2”環境。 cli是一個 hdfs 交互式客戶端。它是hive-sre應用程序的核心部分,因此我們通過hive-sre-cli可執行文件在此處公開了 shell 。

大數據

NBI可視化集成clickhouse,實現百億級數據分析能力

什麼是ClickHouseClickHouse是一款MPP架構的列式存儲數據庫,並允許使用SQL查詢實時生成分析報告,也是一個新的開源列式數據庫。隨著業務的迅猛增長,Yandex.Metrica目前已經成為世界第三大Web流量分析平臺,每天處理超過200億個跟蹤事件。能夠擁有如此驚人的體量,在它背後提供支撐的ClickHouse功不可沒。ClickHouse已經為Yandex.Metrica存儲了超過20萬億行的數據,90%的自定義查詢能夠在1秒內返回,其集群規模也超過了400臺服務器。雖然ClickHouse起初只是為了Yandex.Metrica而研發的,但由於它出眾的性能,目前也被廣泛應用於Yandex內部其他數十個產品上。ClickHouse的核心特性:1、ClickHouse擁有完備的管理功能,所以它稱得上是一個DBMS ( Database Management System,數據庫管理系統 ),而不僅是一個數據庫。作為一個DBMS,它具備了一些基本功能,如下所示。(1)DDL ( 數據定義語言 ):可以動態地創建、修改或刪除數據庫、表和視圖,而無須重啟服務。(2)DML ( 數據操作語言 ):可以動態查詢、插入、修改或刪除數據。(3)權限控制:可以按照用戶粒度設置數據庫或者表的操作權限,保障數據的安全性。(4)數據備份與恢復:提供了數據備份導出與導入恢復機制,滿足生產環境的要求。(5)分佈式管理:提供集群模式,能夠自動管理多個數據庫節點。2、列式存儲與數據壓縮列式存儲和數據壓縮,對於一款高性能數據庫來說是必不可少的特性。一個非常流行的觀點認為,如果你想讓查詢變得更快,最簡單且有效的方法是減少數據掃描範圍和數據傳輸時的大小,而列式存儲和數據壓縮就可以幫助我們實現上述兩點。列式存儲和數據壓縮通常是伴生的,因為一般來說列式存儲是數據壓縮的前提。3、向量化執行引擎向量化執行,可以簡單地看作一項消除程序中循環的優化,需要利用CPU的SIMD指令。SIMD的全稱是Single Instruction Multiple Data,即用單條指令操作多條數據。現代計算機系統概念中,它是通過數據並行以提高性能的一種實現方式 ( 其他的還有指令級並行和線程級並行 ),它的原理是在CPU寄存器層面實現數據的並行操作。4、關係模型與SQL查詢因為關係型數據庫和SQL語言,可以說是軟件領域發展至今應用最為廣泛的技術之一,擁有極高的”群眾基礎”。也正因為ClickHouse提供了標準協議的SQL查詢接口,使得現有的第三方分析可視化系統可以輕鬆與它集成對接。5、多樣化的表引擎ClickHouse共擁有合併樹、內存、文件、接口和其他6大類20多種表引擎。其中每一種表引擎都有著各自的特點,用戶可以根據實際業務場景的要求,選擇合適的表引擎使用。6、分佈式架構ClickHouse在數據存取方面,既支持分區 ( 縱向擴展,利用多線程原理

大數據

數據中臺的智能進化—阿里巴巴十二年數據平臺發展歷程

本文轉自微信公眾號“輕金融”:https://mp.weixin.qq.com/s/DUBo6eJ7msbdA8Cbm3RngQ 分享人:阿里雲智能計算平臺事業部研究員 關濤  從2016年誕生起,“中臺”概念就一路火熱至今,對互聯網與金融行業數字化轉型產生了極為深遠的影響。   作為“中臺”概念的提出者和先行者,阿里巴巴用12年的實踐探索了中臺能力建設和數據應用。在不斷升級和重構的過程中,阿里巴巴的中臺建設經歷了從分散的數據分析到數據中臺化能力整合,再到全局數據智能化的時代。   在當下如火如荼的金融行業中臺建設浪潮中,不少金融機構對於中臺建設仍存諸多迷思,中臺建設將走向何方?數據資產到底該如何管理?阿里巴巴的中臺建設之路應該能為金融機構帶來借鑑。   日前,在阿里雲舉辦的2021阿里雲金融數據智能峰會上,阿里雲智能計算平臺事業部研究員關濤對阿里巴巴如何構建數據中臺核心三要素中的平臺技術部分進行了全盤分享,其中包括數據平臺發展的四個典型階段,支持中臺業務的四大技術挑戰,以及數據平臺的四大技術趨勢等。   在阿里中臺的成功實踐中,方法論、組織、平臺能力是“數據中臺”的核心三要素,而其中平臺能力建設最為關鍵,難度也最大。阿里巴巴在打造強大的數據中臺底座方面已經進行了積極探索,並且還在不斷與時俱進夯實底座,構建面向未來的能力。 阿里巴巴數據平臺發展的四大階段 構建數據中臺,一個強大的數據平臺作為底座必不可少。 阿里巴巴數據平臺發展的四個階段,一定程度上其實也是阿里巴巴數據中臺發展的四個階段。這四個階段裡,你可以看到阿里巴巴對自身數據的商業價值的萃取,對原有分而治之的數據系統的聚合,對計算數據資產化和數據高效應用的新思路以及對數據平臺治理過程中面臨的組織變革等。 階段一:業務百花齊放,發現數據價值 2009年到2012年,阿里巴巴電商業務進入爆發期,湧現出非常多有名的業務團隊,比如淘寶、1688、AliExpresss、一淘等。每個業務都是基於數據驅動的全場景業務,業務方對數據有著強烈的訴求。   那個時候,阿里巴巴技術幾乎都是IOE架構,核心數據系統是Oracle。2年時間內,阿里巴巴建成了全亞洲最大的Oracle集群。但是在2010年,Oracle已經不能滿足計算的要求,有非常多數據延遲和不滿足性,再加上昂貴的成本,沒辦法繼續支撐業務發展。   阿里巴巴開始認真審視建設下一代數據平臺的重要性,同時啟動了兩個並行項目:一個是“雲梯1”,基於開源Hadoop技術體系,多個業務團隊構建多個Hadoop集群,集群規模達到4000臺服務器。

Scroll to Top