大數據

【行業應用】阿里雲實時計算 Flink 版內容資訊解決方案

行業挑戰

2017 年 6 月,PC 端的新聞資訊月度覆蓋人數達到 4.8 億(在 PC 網民中的滲透率同比上升 1.8% 至 90.1%);移動端新聞資訊服務月覆蓋獨立設備數達到 6.2 億,同比增長 34.8%(在移動網民中的滲透率同比上升 10.5% 至 55.5%)。

因此,移動端互聯網使得獲取資訊服務的門檻和成本都大大降低,也使得用戶的資訊消費行為更頻繁和多元化。雖然移動網絡新聞行業滲透率仍然較低(55.5%),但市場整體增速較快(2017 年月覆蓋人數同比增長 34.8%,滲透率同比增長 10.5%),發展潛能巨大。

移動內容資訊行業已進入下半場,**精細化運營是主調。

  1. 伴隨著移動流量增長,門戶網站先後推出了移動客戶端,同時,一些聚合類資訊平臺也開始出現在移動端。
  2. 移動新聞資訊用戶增多,市場力量顯現,為了尋求差異化優勢,各平臺紛紛探索直播、短視頻、語音等多元內容輸出形式,同時結合個性化推薦提升運營效率;在這個階段,傳統新聞機構也開始了移動化佈局。
  3. 在技術的加持下,移動新聞資訊行業獲得了資本關注,競爭趨勢明顯,各大平臺都開始通過打造自媒體生態和富媒體內容佈局來提高產品壁壘。
  4. 伴隨著行業熱度的持續發酵,精細化運營將成為移動新聞資訊行業下半場的主調。一方面,平臺的內容價值將顯現;另一方面,技術迭代將成為平臺新鮮活力的來源。

因此,在日益激烈的行業競爭態勢下,各個主流內容資訊提供商都在探索 AI+大數據的解決方案,來進行精細化運營,助力業務發展新模式,從業務需求上來講,在大數據方面遇到的挑戰如下:

  1. 數據量大,增速迅猛:主流內容分享平臺在新增用戶數、日均 UV/PV 等核心指標上,產品初期每年都會有翻倍的增長。
  2. 業務形態複雜:大量內容分享產品的母公司都在探索新的內容輸出方式,如新聞類、短視頻類、直播類等。各種業務形態差異大,對平臺的通用化要求高。
  3. 實時性要求高:內容分享平臺的核心繫統有個性化推薦、廣告計費、風控等業務,業務上要實現精細化運營,對數據的實時性要求更高。

解決方案

1 內容.jpg

在內容資訊行業,實時計算 Flink 版的典型使用場景:

  1. 實時數倉:數據 ETL 及實時指標計算,Flink Batch 提供異構數據源互導功能。Flink SQL,大大簡化計算模型,降低用戶使用 Flink 的門檻。
  2. 實時機器學習平臺:實時特徵處理,樣本拼接,為下游機器學習模型訓練準備數據。
  3. 實時風控和實時安全:Flink CEP 提供基於 Event 的規則配置功能,簡單易上手。
  4. 廣告系統:廣告平臺實時數倉建設,廣告實時計費系統以及廣告算法部分的數據預處理。
  5. 運營團隊:活動運營監控,如實時監控紅包發放狀態來調整發放策略。

成功案例

字節跳動

客戶簡介

北京字節跳動科技有限公司成立於 2012 年 3 月,是最早將人工智能應用於移動互聯網場景的科技企業之一。公司以建設“全球創作與交流平臺”為願景,是目前國內最大的內容分享平臺,其應用程序包括:

  • 今日頭條
  • 抖音短視頻(抖音短視頻火山版)
  • Tiktok
  • 西瓜視頻
  • 懂車帝

分佈於多個行業領域,發展勢頭非常迅猛。

業務需求

在字節跳動內部,實時計算的使用場景:

  1. 實時數倉:

    1. 用戶行為日誌清洗和解析
    2. 用 Flink SQL 構建實時數倉,實時指標計算
    3. 使用 Flink Batch 進行異構數據源導入導出
  2. 風控和安全團隊:

    1. 使用 Flink CEP 進行規則判斷
  3. 機器學習

    1. 數據預處理
    2. 正負樣本拼接
    3. 模型訓練的資源調度
  4. 廣告:

    1. 廣告算法部分使用場景包括數據預處理、樣本拼接
    2. 廣告平臺,使用 Flink 構建實時數倉
  5. 視頻團隊

    1. 實時指標監控系統
    2. 運營活動監控(控制紅包發放等)

技術架構

2.jpg

業務結果

字節跳動引入 Flink 已經有3年時間,支持了核心業務的實時需求,目前字節跳動內部 Flink 應用規模:

  • 5+ Yarn 集群,機器規模達到 10000+
  • 作業數 2000+
  • 用戶 300+
  • 支持數十個產品,包括今日頭條,抖音,火山小視頻等核心產品

未來展望

Flink 在字節跳動數據處理鏈路的作用將會越來越大,為了更好的支持各類業務方,未來我們對 Flink 的規劃:

  1. Flink Streaming:推動 Flink 作業 Docker 化,支持 Flink Job 橫向擴展
  2. Flink SQL:

    1. 未來一年,推動 Flink SQL 任務達到 50%
    2. 探索 Streaming/Batch 新的使用場景
  3. Flink Batch:

    1. 推測執行,提升穩定性
    2. Flink Gelly 支持全圖離線計算應用場景

實時計算 Flink 版產品交流群

test

阿里雲實時計算Flink - 解決方案:
https://developer.aliyun.com/article/765097
阿里雲實時計算Flink - 場景案例:
https://ververica.cn/corporate-practice
阿里雲實時計算Flink - 產品詳情頁:
https://www.aliyun.com/product/bigdata/product/sc

Leave a Reply

Your email address will not be published. Required fields are marked *