雲計算

賈揚清:如何看待人工智能方向的重要問題?

人工智能算法

目前,AI(人工智能)已經成為科技產業大趨勢。各個行業都與“AI”密切相關。與AI相關的領域如下圖所示,其中包括與AI強相關的領域和AI間接賦能的的領域。那麼究竟什麼是人工智能、人工智能的應用以及人工智能系統將在之後一一介紹。

image.png

人工智能發展的80年,實現了從圖靈測試到全民換臉。機器是通過人工智能像人一樣來回答問題、創作或者計算分析的,在一些領域,計算機已經能夠做的和人一樣優秀。例如在2019年網絡上的“全民換臉”都是基於人工智能中的深度學習及神經網絡等技術的廣泛應用的結果。

image.png

目前,人們生活中以及工業生產中都有很多“AI”技術的應用,用來代替人類的工作。例如比較流行的“ELON MUSK’S”能夠模擬人的大腦工作。但隨著人工智能的快速發展,也出現了一些對人工智能的反思和一些“假冒AI”。

image.png

人工智能AI在發展過程中面臨了一系列的事件,其中有比較嚴重的假冒偽劣AI騙取2億融資的事件。那麼人工智能究竟是什麼以及它的用途主要有哪些是接下來要重點討論的問題。

image.png

在學術界,人工智能的定義也有所差異。人工智能是接受輸入的信息,通過信息的整理判斷,像人一樣對輸入的信息做出一系列理性行為和決策。它的主要特徵就是“理性的行動”。

image.png

在這個“感知”到“決策”的反饋中,如何感知外部世界信息成為人工智能能否去行動的關鍵。既然是要模擬人的大腦,那人去感知的過程其實是一個認識和學習的過程。那也就是人工智能中“深度學習”所要解決的問題。

image.png

深度學習

只有將外部信息(視頻,文字,口令等)轉換成機器語言才能被人工智能所接受並作出反應。這個問題的思考早在人工智能初期就被科學家所考慮和研究。

image.png

在這之後人們開始討論如何通過視覺感知來完成信息的輸入,並做了很多研究。2012年,加拿大多倫多大學的ImageNet競賽冠軍獲得者Hinton和他的學生Alex Krizhevsky設計的。也是在那年之後,更多的更深的神經網絡被提出,比如優秀的vgg,GoogLeNet。這對於傳統的機器學習分類算法而言,已經相當的出色。

AlexNet開始的深度學習歷程

通俗的說,就是在大量的物體中,準確地識別我們指令中需要的物體。這個模型的應用使得圖像識別領域取得了突飛猛進的發展,並被廣泛應用。

image.png

神經網絡這種分層學習的模式跟我們人類大腦一樣,隨著不斷地學習,神經網絡也變得越來越複雜。假設要在百萬級的圖片信息中找已標註的信息“貓”,然後把編輯好的視覺網絡的模型在一個非常大的數據集中訓練。通過模型的迭代實現更復雜的訓練。

image.png

目前,比較普遍使用的“RestNet模型”,深度在一百多層,並加入了一些最新的科研成果,例如最下面圖中如拱橋部分的快速鏈接,可以有效快速的訓練如此深的網絡。最終解決視覺領域的“感知”問題。

image.png

阿里雲:智慧航空機坪管理

通過人工智能來識別機種,登機門,機場車輛,並與實際地圖結合起來,以及瞭解飛機在飛行過程中的運行軌跡等等,這些信息都可以作為輸入的信息來通過人工智能管理,使得機場運轉更加快捷和高效。

image.png

上面所說的,深度學習是感知的一個重要形式和方法。深度學習算法主要組成:

  • 數據標註
  • 算法模型開發
  • 高性能分佈式訓練
  • 模型調優
  • 模型部署

人工智能在“感知”之後,另一個需要做的就是“決策”。深度學習是一個黑箱操作,能夠很好地學習和感知外部信息,但是不能給出反饋及如何解釋自己感知的問題究竟是什麼原因。那就需要“決策”來分析和反饋。

image.png

傳統機器學習的榜樣是決策樹算法和邏輯迴歸。例如,銀行發放貸款的過程就是一個權衡各方面因素之後的一個決策過程。可以通過決策樹的形式,進行“Yes”或“No”的判斷來最終決定是否發放貸款。而邏輯迴歸,指的是兩類數據之間的相互關係,通過數學的方式精確求解。

image.png

其實,深度學習和機器學習是一種互補的狀態。深度學習非常好地解決了感知的問題(計算機視覺,語音等等),可以用神經網絡的架構來解決非常多的“感知”的問題,但它需要解釋這些感知的東西。而傳統機器學習則沒有這麼人性化的感知功能,但它的模型相對較小,我們可以直接解釋(例如金融,風控等)。

image.png

人工智能很早便被應用在廣告領域中。早在宋朝就有廣告,用來幫助來招攬生意。

image.png

目前比較典型的廣告場景是淘寶廣告。廠家首先通過消費者個人的瀏覽信息瞭解用戶的喜好是什麼,然後再通過智能推薦系統來推送消費者所搜索的相關產品。這樣的一些智能算法的廣泛應用使得用戶的信息瀏覽更加高效和精細化。

image.png

無論是感知還是決策,都和算法相關。

  • 感知。與深度學習算法相關,涉及到數據標註、算法模型開發、高性能分佈式訓練、性能調優、模型部署等。
  • 決策。傳統機器學習算法以及深度學習算法相關,涉及到行業行為數據採集、結構化/非結構化數據處理、數據和算法的組合建模、算法開發訓練和調優、模型部署和實時訓練反饋等。

image.png

人工智能系統

在算法發展迅猛的今天,相應的基礎設施支持也顯得尤為重要,這就需要人工智能系統的支持。構建人工智能或者機器學習系統的兩個不可或缺的因素是算法和算力,算法創新的背後是算力的突破。

image.png

截止到2019年,人工智能對於算力的需求如下圖所示。相較於AlphaGo Zero,AlexNet對於算力的需求已經有了30萬倍的增長。這種情況下解決算法迭代和算法落地的問題,給系統提出了更高的要求。

image.png

AlexNet在2013年的時候所謂的系統如下圖所示,簡單的一臺機器加GPU,當時的訓練成本大約是七天每天500瓦,也就是業務模型的迭代週期是一週左右。

image.png

在業務需要飛速發展的今天,比如廣告推薦,一週的模型迭代週期是遠不能滿足需求的。因此,目前越來越多的人關注如何通過大規模集群或者芯片的方式來為人工智能系統提供更好的算力。MIT在2014年的時候做了一個對比,一個人在一分鐘內大概可以處理77張圖片,單個GPU相同的時間內可以處理230張,儘管單個GPU的處理速度與人的處理速度相差不大,但是其可以通過GPU集群的方式實現更大規模更快速的計算,比如下圖中512個GPU的集群,可以在一分鐘內處理60000張圖片。

image.png

人工智能系統在設計的過程中需要關注怎麼樣做高性能存儲,怎麼樣實現機器之間的快速通信,怎麼樣保持分佈式集群的穩定性。今天,阿里雲內部有一個Eflops平臺,可以實現三鍾內1018次的計算,耗電128千瓦每分鐘。這是在2015年以前是無法想象的能力,這一能力的實現主要歸功於大規模集群,還有系統底層芯片的伸縮性。

image.png

目前國內很多家企業致力於更高性能芯片的研發,阿里也不例外。2019年,阿里發佈了全球最高性能的AI推理芯片含光800,並在城市大腦和航空大腦的實際測試場景中進行了測試,峰值性能可以達到將近80萬張圖片每秒,這與上一代的芯片相比,實現了40倍左右的性能提升。

image.png

系統複雜度上升後,會帶來一系列的問題,包括軟件複雜度、硬件複雜度、資源管理複雜度、調度效率複雜度、全系統優化複雜度,這在系統發展過程中是比較共性的挑戰。

image.png

需要強調的是,AI集群不等於通用集群。AI在做訓練的時候需要子任務週期性同步,不同機器之間需要有高性能的通信,很多時基於GPU或NPU專用部件。不同的計算模型,不同的交互模式目前對於AI訓練有比較大的挑戰。

image.png

阿里的各種業務場景都可以用到AI,因此可以通過AI實踐打磨平臺設計,比如手淘-拍立淘的百萬分類模型、淘寶網的語音+NLP和阿里媽媽廣告推薦等。

image.png

打磨後的飛天AI平臺分為三層,從最底層的基礎硬件,到中間的訓練和推理框架,再到開發平臺。對於AI平臺來講很重要的平臺有以下三個:

  • 輕量級AI開發平臺:幫助算法和數據科學家實現一鍵式開發、調試部署
  • AI和大數據協同開發平臺:幫助更加迅速地開發面向大數據型業務的系統
  • AI推理服務平臺:解決推理需要的計算資源問題、模型訓練、部署和效果監測

以上三個平臺支撐了算法API的輸出和垂直領域平臺以及大腦的解決方案。

image.png

深度學習領域,斯坦福大學推出了一個名為DAWNBench的測試基準,相比於之前的最有結果,阿里雲機器學習實現了性能百分之十左右的優化。

image.png

AI技術能力在今天對於提升資產利用率、解決不同場景需求具有重要意義。綜合的AI技術能力主要涉及以下幾方面:

  • 基礎硬件:用於提供通用的算力以及AI所需要的計算能力,通過IaaS提供雲的能力
  • AI雲服務:最基礎的PaaS層,通過容易拉起的軟硬件環境向絕大多數用戶提供適合AI的算力
    高性能計算:提供核心AI計算引擎加速
  • AI系統框架:提供AI計算模式的完整抽象以及跨體系結構的建模迭代和部署
  • AI託管平臺:提升算法研發共享部署和輸出的效率,以及具有用戶粘性的開發平臺

智能計算和數據計算

AI是智能計算,大數據領域是數據計算,二者是相輔相成不可或缺的關係。

數據支撐AI

剛才提到的算法和算力背後需要大量數據的支撐,數據是體現算法和算力價值的重要部分。

image.png

下圖分別展示了2005年和2013年教皇登基的場景。當前手機互聯網的發展導致了數據的指數型增長,這也可以給深度學習帶來性能的提升。

image.png

1998年的一個小系統MNIST的訓練數據僅有 10MB,2009年的ImageNet有200G,2017年的WebVision有3TB,而典型的產品視覺系統有1PB。海量的數據幫助阿里幾乎線性地提升其性能。

image.png

舉一個的生活中的場景來說明數據量對於性能的提升作用。在X光片醫學識別領域,有研究顯示,醫生在X光片上識別病症的效果和其所看過的X光片數量成正比。看的越多,正確率越高。同理,目前的醫療引擎系統可以通過大規模的計算機系統訓練更多的數據,實現更加精準的醫療識別。

image.png

AI驅動大數據走向智能化

下圖展示了Forum對大數據領域做的趨勢總結,當前大數據領域需要提取更多的信息,要實現實時的計算,實現AI平臺和在線預測等,都體現了大數據走向智能化的趨勢。

image.png

多個數據源不同類型的數據,如結構化、半結構化和非結構化,落到數倉後如何發揮其價值,答案是智能計算。以廣告推薦場景為例,數據源是用戶在淘寶上的點擊、瀏覽和購買行為數據,通過數據集成離線或實時同步、離線或實時ETL的方式將其落到數倉中,再通過數倉或數據湖的解決方案生成各種數據模型對數據進行訓練,最後通過數據服務的方式對訓練結果進行輸出。可以發現,該過程中對於數據的理解和使用方式開始變得智能化。

image.png

幾年前的HTAP,包括OLTP和OLAP兩部分,OLAP可以進一步分解為大數據的分析,離線、實時分析,基於數據量的不同選擇不同的引擎。而目前數據服務也變得越來越重要,在一些智能客服場景中,需要依賴數據提煉模型,來做實時人工智能推理服務和應用,因此如何把analytics和service結合也很關鍵。這也是現在考慮在做的HSAP,通過人工智能驅動離線、實時數倉數據價值提取,通過數據服務推送給用戶。

image.png

阿里在自己本身的應用中沉澱出了AI加持的大數據方法論和解決方案,在雙十一大促中的離線計算(批處理)、實時計算(流計算)、交互式分析和圖計算等場景,和飛天AI平臺相結合,為用戶提供了AI加持的完整的新一代飛天大數據產品。

image.png

大數據和AI一樣,也非常注重性能。2019年阿里雲大數據平臺MaxCompute和EMR分別在TPC上的計算性能和性價比優勢明顯。具體測試結果如下圖所示。

image.png

阿里的阿里小蜜目前為用戶提供了智能化的的語音客服交互方式,其應用了深度學習和智能感知的AI技術,同時需要和背後的大數據業務系統緊密聯繫,如物流、用戶數據等,才能實現最後的智能化效果。

image.png

那麼作為一個企業應該如何擁抱AI呢。簡單來講,人工智能需要落地,應該從應用需求出發,逐漸追求技術創新,就像愛迪生髮明電燈一樣。通過雲提供低成本、到高性能和高穩定性的基礎設施,但關鍵應該明確需求是什麼。

前面幾年,AI一直在做算法的創新,做Demo,但這是遠遠不夠的。

AI算法只是系統中的一環,怎樣收集數據,獲取有用特徵,怎樣進行驗證,怎樣進行過程管理、資源管理等等,都是企業在擁抱AI需要考慮的問題。

AI不是萬能的,但是忽略AI是萬萬不能的。當企業擁抱AI的時候,最重要的還是從業務出發。隨著數據量越來越大,算法越來越多,核心是需要建立懂業務的數據工程師、算法工程師的隊伍,這是當前智能化企業致勝的關鍵。而前面提到的算法、算力和數據,都可以利用目前雲上提供的服務和解決方案來實現,其可以幫助企業更快速的實現AI的落地。

Leave a Reply

Your email address will not be published. Required fields are marked *