客戶感言
利用阿里雲新一代雲原生多模數據庫Lindorm“靈動”引擎驅動的政府、企業數字信息系統智能運維解決方案,東軟做到了實時、海量、異構監控數據一站式存儲,實現指標、日誌、代碼鏈路和網絡包等異構數據融合分析,高可靠數據保障和遍在可達實時監控數據存儲雲端服務。如圖1所示,阿里Lindorm數據庫在賦能政企數字運維團隊更強大的運維大數據分析能力的同時,大幅度提升了政府、企業數字系統性能和在線服務的客戶數字體驗,降低了低價值密度監控數據存儲管理成本。
客戶簡介
東軟創立於1991年,是中國第一家上市的軟件公司,一直以來致力於以信息技術的創新,推動社會發展,創造美好生活。東軟集團以軟件技術為核心,業務領域覆蓋智慧城市、醫療健康、智能汽車互聯及軟件產品與服務。目前,東軟在全球擁有近20000名員工,在中國建立了覆蓋60多個城市的研發、銷售及服務網絡,在美國、日本、歐洲等地設有子公司。此外,東軟連續四次入選普華永道“全球軟件百強企業”,還曾榮獲最具全球競爭力中國公司20強、中國50強全球挑戰者、亞洲最受賞識的知識型企業、亞太地區最佳僱主等獎項。
業務要求與挑戰
線上互聯網化的信息服務繁榮發展為政府、企業數字系統運維應用維穩和客戶數字體驗保障提出了更高要求。在互聯網服務場景下,運維監控數據量激增,採集監控的數據類型更加多樣(時序指標、日誌、代碼鏈路等),現有運維繫統採用的單模引擎(如RRD數據庫、openTSDB時序數據庫、ElasticSearch檢索類數據庫)應對這些實時、高併發採集,且價值密度較低的監控數據存儲和檢索場景時,已經顯得力不從心。
跟據Forrest統計數據,目前有57%的企業客戶IT運維部反饋至少每週會發生一次影響應用性能和可用性的問題;每天都發生問題的比例佔到了28%。對於愈加依賴應用面向客戶實現企業價值,提升工作效率的當今企業來說,這種問題越來越無法忍受。統計數據顯示有超過一半的企業認為由於應用性能問題直接導致業務用戶和IT部門生效率降低和時間浪費;有42%的企業認為應用性能問題直接影響了企業收入。總得來說,造成這種現象的主要問題原因,可總結為以下兩個方面:
(1) 新需求推動IT系統監控數據量激增: 移動智能終端設備的普及使應用逐漸滲入到我們工作生活的方方面面,企業應用數量激增。企業面向客戶、合作伙伴和內部員工建設IT系統及應用複雜度和數量會隨著產品智能、互聯化的深入持續增長,對映可用性保障運維監控採集數據採集種類,以及需要存儲的數據量同步激增,現有監控系統基於RRD數據庫或關係數據庫搭建的單模引擎的存儲、檢索能力和需求脫節。
(2) 產品數字化導致應用結構愈加複雜,監控數據類型更加多樣: 技術方面,諸如混合雲、數據分析、物聯網、車聯網、體域網等新技術的持續演進也使得應用結構愈加複雜,保障應用性能更加困難。據統計,超過一半(52%)的企業IT運維部門在監控管理工具上的投入是被動、針對特定問題且分散的。但由於存儲能力有限,單模存儲引擎功能單一,數據存儲分散、碎片化,難以應對未來以應用為核心的IT監控運維新需求和技術演進。隨著時間的推移,現有IT運維數據存儲分析問題會惡化。
激增的應用複雜度及監控數據採集量和在網運維繫統有限的監控運維數據存儲檢索能力之間的矛盾在加劇。目前,東軟在物聯網、互聯網等新場景下面臨的IT系統運維主要問題與挑戰有:多模型數據融合分析困難,面向海量數據採集終端同時寫入數據的併發能力弱,數據量大且價值密度低導致存儲成本高,基於開源軟件自建數據存儲集群穩定性低運維成本高等問題,東軟急需新型運維大數據存儲引擎支撐,來對運維繫統存儲引擎升級改造。
解決方案
東軟集團圍繞運營商、政務雲和汽車等行業新一代數字信息系統IT運維場景海量監控數據存儲分析痛點,將從遍佈全國多地域的手機、平板等終端連接應用系統業務服務的數字足跡和客戶數字體驗數據、雲端&數據中心網絡抓包分析數據,應用運行代碼鏈路和日誌數據全量採集存儲於阿里雲Lindorm靈動雲原生多模數據庫(如圖2所示)。
以阿里雲的雲端Lindorm雲原生多模數據庫為核心,東軟圍繞運營商、汽車等目標場景監控運維特點,進一步擴展了應用智能運維產品RealSight APM和雲管理產品SaCa Aclome能力,實現了高通量、高併發監控數據的實時、低成本存儲。利用內置多模數據引擎處理能力,阿里雲Lindorm完美適配東軟客戶IT運維監控場景數據存儲分析需求。東軟基於Lindorm打造,面向政企互聯網化數字信息系統運維監控場景的新一代IT智能運維系統部署架構如圖3所示,其中Lindorm作為核心運維數據存儲、檢索引擎全量接收來自移動終端、網絡嗅探器、業務監控探針、日誌採集器等多種數據來源實時採集的異構監控數據,以高併發、高通量數據寫入方式將數據入庫。在運維過程中,用戶通過實時監控儀表盤、統計分析報表或風險定位、檢測工具對接Lindorm多模引擎海量數據檢索、分析能力,來滿足不同應用場景的運維大數據信息提取需要。
適用場景:
- 實時狀態大屏展現
- 應用海量日誌檢索
- 定點用戶行為追蹤
- 故障數據全量回溯分析
- AI輔助異常檢測等場景
客戶價值:
- 一體化指標、日誌、代碼鏈路、網絡包等結構化、半結構化、無結構數據存儲、檢索、分析能力,降低開發部署複雜度;
- 雲端低成本海量運維數據存儲,TCO大幅降低;
- 高性能、高通量監控數據入庫,輕鬆搞定大日活量應用系統監控;
- 實時日誌、指標等多模異構數據監控和回溯分析,簡化低價值密度數據的信息提取;
- 99.99%數據可用性,降低數據丟失風險;
- 雲端接入遍在可達,簡化網絡配置管理;
- 開箱即用免維護,進一步降低系統維護成本;
- 提供實時高精度全量監控數據存儲和分析能力,為監控目標系統保駕護航,間接提升客戶數字體驗。
建設效果:
目前系統已經在阿里雲端支撐某行業領先車企存儲、檢索從全球客戶終端採集的用戶數字足跡和客戶體驗數據,節約數據存儲和系統維護成本達4成,建設效果如圖4所示。