這幾天GPT-3成為人工智能甚至整個科技圈最為熱門的話題。作為著名人工智能科研公司 OpenAI 開發的文字生成 (text generation) 人工智能,GPT-3的相關論文在2020年5月份就已經發表,由於使用了45TB的數據,並採用了天文數字級別的1,750億參數量而引起極大轟動。現在,GPT-3開始開放申請,獲得資格的人將通過API來使用GPT-3。如果說軟件定義一切,那麼API就在定義軟件。一些人在使用了GPT-3之後,對其讚不絕口:嗯,真香!
比如用GPT3做的這個頁面生成器,只需要輸入“給我一個長得像西瓜的按鈕”,GPT3就會很快輸出一個看上去真的很像西瓜的按鈕。
從目前的應用來說,GPT-3 更像是一個更懂你的新的搜索引擎,傳統的搜索引擎只是將信息歸類後進行展現,而GPT-3 則是將信息進行了加工。僅就45TB的數據而論,如果一部電影按照2G大小來算的話,那麼45T的數據相當於23000多部電影,每次GPT-3都相當於將這23000多部電影看一遍,然後寫出一篇“影評”。
而寫出這篇“影評”不是依靠作者的構思,而是依靠算力。算力可以看作是單位時間內的計算能力。從計算機誕生之日起,人們對算力的追求就沒有停歇過,1958年集成電路的出現讓算力實現了一次質的飛躍,近年來,隨著CPU、GPU、NPU等單元部件算力的不斷增強,算力更是得以成為數字經濟時代的核心引擎之一。
做個比喻,如果說算力是心臟,那麼數據就是血液,兩者之間還需要一個良好的血液循環系統予以保證,而存儲系統就可以看作這樣的一個血液循環系統。那麼,應該如何更好的構建這個血液循環系統呢?
首先,為了支撐強大的算力需要能夠支持大規模的數據吞吐量;其次,需要更低的數據讀寫延遲以提升計算速度,再次,需要具有足夠的彈性,保證算力峰值到來時數據容量的隨時擴容。
如果從以上角度出發,那麼一個適當的選擇就是文件存儲。以阿里雲文件存儲CPFS (Cloud Parallel File Storage)為例,CPFS是一個可完全託管、可擴展的並行文件存儲系統,針對高性能計算場景的性能要求進行了深度優化,提供對數據毫秒級的訪問和高聚合I/O、高IOPS的數據讀寫請求,可以用於AI深度訓練、自動駕駛、基因計算、EDA仿真、石油勘探、氣象分析、機器學習、大數據分析以及影視渲染等業務場景中。
首先, CPFS具有超高吞吐和IOPS。採用分佈式的並行架構,數據條帶化後均勻分佈在存儲集群上,可以實現計算節點並行訪問,提供數百GB的吞吐和千萬級的IOPS以及亞毫秒級時延;
其次,CPFS彈性可擴展。CPFS支持在線的擴容,由於所有數據均以條帶化的方式存儲並且支持擴容以後的自動負載平衡,可滿足性能的線性增長並且即時利用擴容節點的吞吐和存儲能力,滿足業務增長需要的更多容量與性能的訴求。
目前CPFS已經在公共雲和混合雲環境中有了廣泛的應用。
以阿里雲彈性高性能計算雲平臺HPCaaS為例。該平臺支持基於阿里雲ECS、EGS彈性計算實例快速構建任意規模的並行計算集群,並根據用戶需求動態增刪節點個數和存儲規模。首先,該方案用戶只需購買EHPC的集群實例,就可以立刻獲得相應數目的ECS、EGS、文件存儲和搭配的RDS,OSS等服務。其次,用戶可以根據初期使用集群規模生成集群,在運行時通過集群調度動態伸縮集群數目。
而在混合雲環境中,CPFS推出了混合雲CPFS存儲。愛筆(北京)智能科技有限公司正是利用了混合雲CPFS存儲解決方案,構建雲上雲下多級存儲池架構,解決計算機視覺、語音識別、自然語言理解、大數據分析等技術場景下的數據存儲與管理問題,從而將人工智能的線上與線下場景中進行融合,實現業務場景的數字化、智能化。
目前,關於GPT-3的討論還在繼續, GPT-3母公司OpenAI的首席執行官Sam Altman也謙虛的說道“人工智能終將改變世界,但GPT3只是看到了一眼未來。我們還有很多事情要解決。”不過不可否認的是,大多數人對於GPT-3還是充滿期待——人工智能的時代已經到來,而GPT-3的這一小步也許為整個人工智能行業邁出了一大步。