開發與維運

實時計算案例:新華智雲

挑戰

新華智雲通過大數據及人工智能為內容生產者提供涉及內容採集、編輯、存儲、分發等全新聞鏈路的專有技術,致力於通過大數據技術驅動媒體變革。數芯是新華智雲推出的實時輿情分析平臺,旨在滿足用戶一系列輿情分析需求。信息處理與算法部分是輿情分析的關鍵,擔負著將原始數據加工成信息與知識的重任,數芯的數據處理既需要對抓取的實時數據進行數據流的數據清洗、目標提取、結果聚合,也需要提供算法服務預先訓練好模型,供實時計算調用。

解決方案

面對多個數據上游、多個數據下游,數據處理過程複雜,既有清洗、結構化的工作,又有多維度統計工作的挑戰,新華智雲的數芯平臺選擇放棄開源 Spark 技術方案,而整體遷移到一站式、高性能實時大數據處理平臺阿里雲實時計算。

整體系統架構上,數芯對輿情規劃、信息獲取、信息處理與算法以及最終為用戶呈現的服務四個部分進行全面優化。在核心的信息處理中,阿里雲實時計算的實時數倉為數芯提供數據的實時清洗、歸併、結構化,並將結構化的數據按照維度聚合並聯合原始信息存儲供下游算法服務使用。依託阿里雲實時計算強大的實時數據處理功能,數芯成功串聯了整個輿情分析的數據流,滿足了用戶對輿情實時分析的需求。

業務優勢

數芯遷移後的實時計算架構不再需要人力運維,信息處理對接的上下游也實現了免開發的直接註冊,阿里雲實時 計算實時處理歸檔後的數據能夠進一步分析發現系統問題、新事件與新模型,整體上提升了系統效果;從開發而 言,實時計算強大的 Flink SQL 提供 SQL 語義的流式數據分析能力,不需要寫複雜代碼,使用通用 SQL 即可,幫 助數芯大幅降低流數據分析的門檻,輕鬆實現業務的實時數據處理與數據的全鏈路流動。

客戶評價

數芯的 ETL 作業是實時計算的典型場景之一,阿里雲實時計算在整個業務系統的運轉中既承接數據清洗、目標提 取與結構化整合的重任,又與上下游算法服務一脈相承。以阿里雲實時計算為基礎構建的實時計算架構使業務部 門的使用體驗非常愉快,具體表現在:

  • 實時計算幫助我們擺脫了人力運維並且能夠高度保障數據安全。
  • 實時計算強大的 Flink SQL 可以對接上下游,直接註冊,不需要寫複雜代碼,使用通用 SQL 即可,數據分析 的門檻低。
  • 在數據流處理上我們用實時計算串起整個數據流,ETL 用 UDX,統計用 SQL,十分方便。

實時計算 Flink 版產品交流群

test

阿里雲實時計算Flink - 解決方案:
https://developer.aliyun.com/article/765097
阿里雲實時計算Flink - 場景案例:
https://ververica.cn/corporate-practice
阿里雲實時計算Flink - 產品詳情頁:
https://www.aliyun.com/product/bigdata/product/sc

Leave a Reply

Your email address will not be published. Required fields are marked *