就當下來看,AI領域實現突破性進展的深度學習模型,其規模越大,能耗和成本也隨之增加。自然語言處理模型GPT-3就是個典型的例子,為了能夠在準確性與速度方面與人類相匹敵,該模型包含1750億個參數、佔用350 GB內存併產生高達1200萬美元的模型訓練成本。而且單從成本來看,大家應該就能體會到它所消耗的海量能源。
UMass Amherst的研究人員們發現,訓練大型AI模型所需要的算力往往對應超過60萬英磅二氧化碳排放量,相當於五臺家用汽車在整個使用週期內的全部排放!
更要命的是,這些模型在實際生產環境中(即推理階段)還需要耗費更多能源以不斷產出分析結論。根據英偉達的估算,神經網絡模型運行所產生的成本有80%至90%來自推理階段、而非訓練階段。
因此有觀點認為,要保持AI技術的快速進步,我們必須想辦法找到一條具備環境可持續性的道路。但事實證明,我們完全可以將大規模模型縮減為能夠運行在日常工作站或服務器上的大小,且幾乎不影響準確性與速度。
下面,我們先來聊聊為什麼機器學習模型總是這麼龐大臃腫。
當前,計算能力每3到4個月即翻一番
十多年前,斯坦福大學的研究人員發現,用於為視頻遊戲中的複雜圖形提供處理支持的處理器(GPU)能夠在深度學習模型中提供極高的計算效率。這一發現掀起一輪“軍備競賽”,各廠商爭相為深度學習應用程序開發出越來越強大的專用硬件。與之對應,數據科學家們創建的模型也越來越龐大,希望藉此帶來更準確的處理結果。兩股力量相互纏繞,也就形成了如今的態勢。
來自OpenAI的研究證明,目前整體行業都處於這樣的升級循環當中。2012年至2018年期間,深度學習模型的計算能力每3到4個月就翻一番。這意味著六年時間內,AI計算能力增長達驚人的30萬倍。如前所述,這些算力不僅可用於訓練算法,同時也能在生產環境中更快帶來分析結果。但MIT的最終研究則表明,我們達到計算能力極限的時間可能遠遠早於大家的想象。
更重要的是,資源層面的限制導致深度學習算法開始成為極少數組織的專屬。我們當然希望使用深度學習從醫學影像中檢測癌細胞變化、或者在社交媒體上自動清除仇恨言論,但我們也確實無法承受體量更大、耗電量更高的深度學習模型。
未來:少即是多
幸運的是,研究人員們發現了多種新方法,能夠使用更智能的算法縮小深度學習模型,並重新調整訓練數據集的使用方式。如此一來,大型模型也能夠在配置較低的小規模生產環境內運行,並繼續根據用例提供必要的結果。
這些技術有望推動機器學習大眾化,幫助那些沒有充足金錢或資源的組織也能訓練算法並將成果投入生產。這一點對於無法容納專用AI硬件的“邊緣”用例顯得尤其重要,包括攝像機、汽車儀表板以及智能手機等小型設備。
研究人員們一直嘗試刪除神經網絡內的某些非必要連接,或降低某些數學運算的複雜性等方式縮小模型體積。這些更小、更快的模型能夠在任意位置以類似於大型模型的準確度與性能保持運行。如此一來,我們不再需要瘋狂追求極致算力,也就有望緩解對環境的重大破壞。事實上,縮小模型體量、提升模型效率已經成為深度學習的未來發展方向。
另一個重要問題,則體現在針對不同用例在新數據集上反覆訓練大型模型方面。遷移學習技術有望消除此類問題——這項技術以預訓練完成的模型作為起點,能夠使用有限的數據集將模型知識“遷移”至新任務當中,因此我們不必從零開始重新訓練初始模型。這既是降低模型訓練所需算力的重要手段,也將極大緩解AI發展給自然環境帶來的能源壓力。
底線在哪?
只要有可能,模型應當、也必須尋求“瘦身”以降低算力需求。
另外,模型得到的知識應該可以回收並再次利用,而不必每次都從零開始執行深度學習訓練過程。最終,一切有望降低模型規模、削減算力消耗(而不會影響性能或準確性)的方法都將成為解放深度學習能量的重要新機遇。
如此一來,任何人都能夠以較低的成本在生產環境中運行這些應用程序,同時極大減輕對自然環境造成的壓力。當“大AI”開始變小時,其中必將蘊藏無數新的可能。對於這樣的前景,我們充滿期待。
本文轉自51CTO,本文一切觀點和機器智能技術圈子無關。原文鏈接
在線免費體驗百種AI能力:【點此跳轉】