2019年11月28日,在 Flink Forward Asia 大會上,機器學習算法平臺 Alink 宣佈開源,成為眾多開發者關注的焦點。今年2月,Alink 1.10 發佈,對 Flink 1.10 和 Flink 1.9 提供了支持。近期 Alink 團隊持續發力,發佈了最新的 Alink 1.1.1 版本,不僅開發了新功能,還對部分已有功能進行了增強和完善。
本文將詳解介紹 Alink 1.1.1 版本中的新增功能及修復內容,並分享 Alink 1.1.1 在易用性方面的小技巧。
版本更新下載及 Github 送 Star
https://github.com/alibaba/Alink
Alink 1.1.1 Release Note 概覽
Alink 1.1.1 增強功能和新功能:
- 數據列參數的檢驗和提示
- 枚舉類型參數的檢驗和提示
- 優化 Alink 批式組件與 Python Dataframe 之間數據轉換的速度
- 當 useRemoveEnv 時自動檢測 localIp
- 新增組件,將 CSV、JSON 和 KV 格式的字符串解析為多列
- 新增組件 WindowGroupByStreamOp,簡化流式數據的窗口分組操作
- Tokenizer 支持多個空格的字符串拆分
- 添加 FTRL 示例
Alink 1.1.1 修復和完善:
- 修復 dill 版本衝突
- 修復 HasVectorSize 別名錯誤
- 修復使用 collect 方法時出現 mysqlsource 錯誤
瞭解更多 Alink 1.1.1 feature:
https://github.com/alibaba/Alink/releases
Alink 1.1.1 在易用性方面的小技巧
在使用 Alink 算法時,經常遇到一些枚舉類型的參數,譬如:對於卡方特徵選擇器 ChiSqSelector,其參數 SelectorType 可以填寫 NumTopFeatures、Percentil、FPR 等,是枚舉類型,但是我們在寫腳本的時候,可能會記錯,譬如,我們輸入了“aaa”,腳本代碼如下:
在之前的 Alink 版本,會顯示如下信息:
SelectorType 輸出錯誤的值 AAA,異常信息不明顯,沒有指出是哪個參數寫錯了。
在 1.1.1 版本優化之後, 異常信息中會有哪個參數填寫錯誤,和值可能是什麼。
如果使用 Java 編輯器,建議使用枚舉類型作為參數的方法,編輯器的自動提示進行選擇。
我們在使用算法組件的時候還經常遇到這種情況,算法中會有些列名參數,我們也有輸入錯誤的可能,如下圖所示,將 text 列名寫為 text1。
在 1.1.1 版本里,不僅拋出哪列不存在,也會提示最可能的列名,幫助用戶做判斷。
以上分享希望對你有所幫助,瞭解更多 Alink 上手實踐文章,後續公眾號將分享更多 Alink 技術乾貨,歡迎大家持續關注!