大數據

開源機器學習平臺 Alink 1.1.1 在易用性上有哪些優化?

2019年11月28日,在 Flink Forward Asia 大會上,機器學習算法平臺 Alink 宣佈開源,成為眾多開發者關注的焦點。今年2月,Alink 1.10 發佈,對 Flink 1.10 和 Flink 1.9 提供了支持。近期 Alink 團隊持續發力,發佈了最新的 Alink 1.1.1 版本,不僅開發了新功能,還對部分已有功能進行了增強和完善。

本文將詳解介紹 Alink 1.1.1 版本中的新增功能及修復內容,並分享 Alink 1.1.1 在易用性方面的小技巧。

版本更新下載及 Github 送 Star
https://github.com/alibaba/Alink

Alink 1.1.1 Release Note 概覽

Alink 1.1.1 增強功能和新功能:

  • 數據列參數的檢驗和提示
  • 枚舉類型參數的檢驗和提示
  • 優化 Alink 批式組件與 Python Dataframe 之間數據轉換的速度
  • 當 useRemoveEnv 時自動檢測 localIp
  • 新增組件,將 CSV、JSON 和 KV 格式的字符串解析為多列
  • 新增組件 WindowGroupByStreamOp,簡化流式數據的窗口分組操作
  • Tokenizer 支持多個空格的字符串拆分
  • 添加 FTRL 示例

Alink 1.1.1 修復和完善:

  • 修復 dill 版本衝突
  • 修復 HasVectorSize 別名錯誤
  • 修復使用 collect 方法時出現 mysqlsource 錯誤

瞭解更多 Alink 1.1.1 feature:
https://github.com/alibaba/Alink/releases

Alink 1.1.1 在易用性方面的小技巧

在使用 Alink 算法時,經常遇到一些枚舉類型的參數,譬如:對於卡方特徵選擇器 ChiSqSelector,其參數 SelectorType 可以填寫 NumTopFeatures、Percentil、FPR 等,是枚舉類型,但是我們在寫腳本的時候,可能會記錯,譬如,我們輸入了“aaa”,腳本代碼如下:

1.jpg

在之前的 Alink 版本,會顯示如下信息:

v2-dcbbf616e50f727340fd6c264da59cd9_r.jpg

SelectorType 輸出錯誤的值 AAA,異常信息不明顯,沒有指出是哪個參數寫錯了。

在 1.1.1 版本優化之後, 異常信息中會有哪個參數填寫錯誤,和值可能是什麼。

v2-ddf2c2d35d0c4f19d919e7a1d6875837_r.jpg

如果使用 Java 編輯器,建議使用枚舉類型作為參數的方法,編輯器的自動提示進行選擇。

v2-b8b0a17c47d8a42edef8e219cb1e1587_r.jpg

我們在使用算法組件的時候還經常遇到這種情況,算法中會有些列名參數,我們也有輸入錯誤的可能,如下圖所示,將 text 列名寫為 text1。

v2-54e477d77c3f62f7736aaea31f7549af_r.jpg

在 1.1.1 版本里,不僅拋出哪列不存在,也會提示最可能的列名,幫助用戶做判斷。

v2-148d0774a36a2ecac457ac10cfac1701_r.jpg

以上分享希望對你有所幫助,瞭解更多 Alink 上手實踐文章,後續公眾號將分享更多 Alink 技術乾貨,歡迎大家持續關注!

Leave a Reply

Your email address will not be published. Required fields are marked *