應阿里雲MVP團隊邀請有幸通過線上渠道參加本次開發者大會,應個人發展方向的關係對於大數據和AI部分的內容介紹特別感興趣,以下簡單介紹下個人對這兩方面未來的思考。
低代碼的未來
低代碼是目前即熱門又有些爭議的話題,典型的爭論的點就是對於算法開發的替代性究竟會到哪個程度,是否隨著低代碼的推進,算法開發會逐步退出歷史舞臺。由於個人同時在阿里雲PAI平臺上進行過實驗,平時主要還是採用Python和R語言研究自己的算法,因此對於這個問題覺得不要過於極端的偏向任何一種看法較好,寫代碼進行算法開發和低代碼是完全可以融合的,不但可以面向不同的對象,哪怕同一個算法工程師或者數據科學家也可以同時採用兩種方式,並不存在哪個較為有優勢的問題。
算法的設計除了技術更是一門藝術,成品是算法模型和通過模型預測出的結果。我們的世界不管是商業還是工業,場景眾多,數據種類也眾多,面對這些千變萬化的情況,絕對不敢說算法都已經開發完畢了或者說不會再產生新的算法了。這樣低代碼在應對這些複雜場景的時候因為它產生的原因就是高度封裝所以缺乏靈活性是個不可避免的問題,核心就是低代碼模式下封裝的顆粒度,顆粒度太粗則雖然易於使用但是靈活性不佳的特點愈發明顯,顆粒度太細則模塊的數量太多最終又和寫代碼的方式越來越接近,最後使用者覺得還不如自己寫代碼比較方便。
個人覺得,對於低代碼的定位需要清楚,它的優勢就是高度封裝,因此面向的是業務人員而不是開發人員或研究人員。當算法開發完畢已經能夠被廣泛的用於生產場景的時候,低代碼其實優勢就很明顯,能夠作為業務人員和開發人員之間的橋樑,也能讓業務人員更多的參與到算法的設計和改進過程中來。特別是在工業互聯網中,很多技術專家對於自己所從事的本專業極其精通,但是具體到大數據和AI怎麼落地的時候,寫代碼成為了一道壁壘,而開發人員雖然有很熟練的開發技術,但是又無法說各類場景的原理和生產過程都十分了解。這使雙方因為自身的短板無法很好的將個人擅長的東西糅合到一起從而讓大數據算法和AI產生疊加的生產力,低代碼的推廣使這個壁壘有了打破的工具,業務人員通過模塊形式搭建自己需要的算法邏輯,運行之後可以直接看到自己所設計的算法的結果,如果是因為模塊的問題而造成的結果不理想,則開發和研究人員因為有了業務層面的第一手反饋而大幅度的提高了改進的效率和速度。最終,業務人員對於生產過程的寶貴技術經驗真正的通過低代碼工具能夠沉澱下來,開發人員因為有了業務上的反饋避免了很多無意義的勞動。從這個角度上分析,低代碼最大的意義不是取代開發工作和研究工作,而是一個讓不同專業能夠相互溝通的手段和橋樑,具有非常大的發展價值,甚至推進了大數據和AI在各領域落地的速度。
開發與算法的融合性
仔細學習了這次開發者大會上各位老師的演講和資料,大部分集中於數據架構的改良和新的基於雲上服務的形成。個人理解就是開發對於算法的支撐力越來越強,雖然嚴格從專業上看開發和算法是區別較明顯的兩個領域,但是從目標都是對於數據進行處理這個角度兩者又必須進行融合才能讓數據的價值體現出來。
一般在回答別人提問什麼是大數據的時候其實這個問題因為範圍過大,很難真正完全講透,大部分情況下都是用大數據的4V特徵來介紹,符合4V特徵的就是大數據。那開發和算法就是分別從不同的角度來體現和解決4V特徵,首先是數據的多樣性,粗略的進行分類一般就是結構化、半結構化和非結構化,開發通過形成各個工具和麵向不同種類數據的數據庫確保這些異構數據能夠被順利接入,算法通過設計分析算法、挖掘算法從這些接入的數據中提取和挖掘價值,使數據成為信息,並且盡最大的努力讓同樣的一份數據能夠產生更多的信息;其次是數據的體量大,這個方面開發的作用更大一些,事實上雲計算的產生就是因為需要有海量數據的處理技術,計算力能夠保證後才又推動了物聯網的發展。隨著機器學習和深度學習的大規模落地,巨大的計算量在缺少底層支持的情況下各類算法都無法快速的工作,這對於搜索、個性推薦、實時控制這些對於時間有嚴格要求的場景來說直接關係到存在的基礎。充分體現了開發與算法發展有區別但又必須融合的思想,開發的意義本質上在於提高數據的處理能力和安全性,是對算法的底層支撐,而算法有了底層強大的基礎後才有可能進一步推進算法的研究、開發和落地。畢竟機器學習和人工智能的很多算法和思想其實並不是這兩年才有,過去雖然有這個想法甚至理論,但是計算力基礎沒有造成了很長一段時間研究工作陷於停頓,只能有限的範圍內進行使用而無法大規模落地。
大數據和AI數據處理的未來發展
大數據和AI數據處理的未來上,其實很關注於對於數據清洗能力提升的方面。目前很多場景的問題不是缺乏數據,而是數據過多並且過雜,這從4V特徵講就是價值高但是價值密度低。從事過算法設計工作的都有直觀理解,數據清洗的工作量佔整個算法設計和開發工作量的70%並且只會更多而不會少,是個工作量很大,很繁瑣但是又不得不做的工作。這個方面如果能不斷的有更自動化和實用的工具出現自然是很受各方面歡迎的。對於AI來說,因為數據基本是非結構化的語音、圖像、視頻,因此數據清洗工具能力的提升直接關係到數據預處理和特徵工程,進而影響整個算法的結果,這些問題隨著數據量的變大隻會越來越突出。中臺一直各方都認為很強大,它的本質其實就是增加數據的處理能力,也是很大程度的關注於數據的清洗能力和預處理能力,這比計算力更難解決,而一旦解決,數據真正的成為數據資產的效率也就更高。這次開發者大會上,看到了平臺不斷的在增加這方面的處理能力也是非常的開心,期待這方面今後能有更多的發展,在有了數據、有了計算力後,不因清洗能力的落後而遺漏了可能會挖掘出的價值。