開發與維運

Flink on Zeppelin (4) – 機器學習篇

今天我來講下如何在 Zeppelin 裡做機器學習。機器學習的重要性我就不多說了,我們直奔主題。

Flink 在機器學習這個領域發力較晚,社區版沒有一個完整的機器學習算法庫可以用,Alink[1]是目前 Flink 生態圈相對比較完整的機器學習算法庫,Alink 也在往 Flink 社區貢獻的路上。今天我主要講的就是如何在 Zeppelin 裡使用 Alink。

為什麼在 Zeppelin 平臺使用 Alink

Zeppelin 已經很好的集成了 Flink,在 Zeppelin 中使用 Alink 可以充分利用 Zeppelin 集成 Flink 所提供的特性,包括:

  • 支持豐富的執行模式:Local/Remote/Yarn
  • 支持對接 Hive
  • 支持 UDF (Scala,Python)
  • 支持 SQL (Batch SQL, Streaming SQL)
  • 支持可視化

有關 Flink on Zeppelin 的具體特性支持可以參考下面的文章和釘釘直播視頻。

Flink on Zeppelin 文章系列:

  • Flink on Zeppelin(1)入門篇
  • Flink on Zeppelin(2)Batch 篇
  • Flink on Zeppelin(3)Streaming 篇

Flink on Zeppelin 直播系列:

準備工作

首先你需要安裝 Zeppelin + Flink + Alink:

  • 安裝 Zeppelin 和 Flink,請參考 Flink on Zeppelin 入門篇
  • 運行下面的命令安裝 pyalink
pip install pyalink
  • 安裝 Alink jar 包

    • 安裝完 pyalink 之後,你可以在 python 目錄裡找到 Alink 的 jar 包,然後把這些 jar 包 copy 到 Flink 的 lib 目錄下,這是我的機器上的 jar 包位置:

1 640.png

驗證 Alink

現在你可以就可以在 Zeppelin 裡運行 Alink 了,有關 Alink 的具體用法我就不再詳述,大家可以參考1。首先我們來運行下面的代碼來驗證下前面的準備工作是否正確完成,是否能在 Zeppelin 裡運行 Alink。

2 640.jpg

如果你看到了下面的輸出,那麼說明 Alink 已經正確安裝。

Warning: useCustomEnv will do nothing, since useCustomEnv is used to initialize MLEnv.
   a  b
0  1  2
1  2  5
2  3  1

上面最重要的一行代碼是這行:

mlenv = useCustomEnv(gateway,
                     b_env,bt_env_2, s_env, st_env_2)

mlenv 是 Alink 的入口,b_env, bt_env_2, s_env, st_env_2 是 Zeppelin 為 Flink 創建的變量(代表 ExecutionEnvironment,BatchTableEnvironment, StreamExecutionEnvironment, StreamTableExecutionEnvironment)。這裡的 bt_env_2 和 st_env_2 代表支持 Flink Planner 的 TableEnvironment,因為 Alink 目前是基於 DataSet 的,只支持 Flink Planner,所以這裡需要用 bt_env_2, st_env_2。(具體可參考Batch篇)

Logsitic Regression

接下來我會以 Alink 的 Logstic Regression 算法來演示如何在 Zeppelin 中使用 Alink。在這個 demo 中,我會選用 bank 數據,這也是我在 Batch 篇中使用的數據。機器學習的模型訓練往往只是整個機器學習任務的一小步,在做機器學習之前往往需要清理數據,數據分析等等。這裡的 Bank 數據就是我的 Batch 篇中用 Flink 引擎清理過的數據。

bank 數據:
https://archive.ics.uci.edu/ml/datasets/bank+marketing

Step 1. 定義訓練數據+測試數據

補 640.jpg

Step 2. 定義訓練特徵和目標

3 640.jpg

Step 3. 構建 Pipeline

4 640.jpg

運行 Step 1 和 Step 2 都會非常快,因為沒有觸發 Flink Job,Step 3 會觸發 Flink Job,開始真正的機器學習訓練,右上角你會看到 Flink 的 Job Link。

Step 4. 查看 Model Metrics

5 640.jpeg

訓練模型結束之後只是整個機器學習任務的一小步,之後你往往需要反覆修改代碼來改進模型,查看模型的 Metrics 就是其中很重要的一步,從模型的 Metrics 之中你往往可以看出一些端倪,給改進模型尋找方向。

■ Step 5. 錯誤數據診斷

6 640.jpg

除了查看 Model Metrics,你還可以看看那些沒有被正確分類的數據,從這些數據中尋找線索。

這個就是如何在 Zeppelin 中使用 Alink 來做機器學習,正如之前所述,模型訓練只是機器學習的一小步,機器學習之前你往往需要做數據清理,數據探索等等,這時候你就可以利用 Zeppelin 中集成的 Flink 能力來做這些事情,總之你可以在 Zeppelin 這個平臺完成整個端到端的數據處理,數據分析,機器學習整條鏈路。

如果有碰到任何問題,請加入下面這個釘釘群討論。

640.jpeg

Leave a Reply

Your email address will not be published. Required fields are marked *