人工智能已經深入影響各行各業,作為人工智能實現的主流實現路徑,深度學習對算力的需求龐大且波動,上雲已成主流趨勢。
GPU是人工智能算力的重要來源。互聯網及傳統企業客戶,只要有人工智能相關的業務,都需要租用GPU雲服務器來做深度學習模型的訓練與推理。
隨著顯卡技術的不斷髮展和半導體制程工藝的進步,單張GPU卡算力水漲船高,成本愈發高昂。然而,有許多的深度學習任務,並不需要佔用一整張GPU卡。資源調度不夠靈活,造成了GPU資源利用率不高。
這時候,用容器調度底層GPU資源就成了一種很好的解決方案。多租戶(VM)使用同一張GPU卡,可以依靠vGPU技術實現;而單租戶多線程的場景,則可以通過GPU容器共享技術實現。通過在GPU卡之上高密度的容器部署,可以將GPU資源做更細顆粒度的切分,提高資源利用率。
阿里雲異構計算近日推出的cGPU容器共享技術,讓用戶通過容器來調度底層GPU資源,以更細顆粒度調度使用GPU,提高GPU資源利用率,達到降本增效的目的。
目前業界普遍使用GPU容器技術。在容器調度GPU的時候,不同線程中的容器應用可能出現顯存資源爭搶和互相影響的問題,未能做到容器的完全隔離。比如,對顯存資源需求強烈的應用,可能會佔用了過多資源,使得另一線程的容器應用顯存資源不足。也就是說只解決了算力爭搶的問題,卻未能解決故障隔離的問題。比如某企業在跑兩個容器中分別運行著GPU的推理應用,一個已經穩定了,一個還在開發階段。如果其中一個容器中的應用出現故障,由於沒有實現很好的隔離技術,往往導致另一容器中的應用也會出現故障。
目前,行業內還有一種改良方案,通過把CUDA運行庫替換或者進行調整,這種方案的弊端是用戶沒法將自身搭建的環境無縫放到雲廠商的環境中,而是需要適配和更改CUDA運行庫。
阿里雲推出的cGPU容器技術,可以實現容器的安全隔離,業務之間不會互相干擾,各容器之間的故障不會相互傳遞,更安全、更穩定;同時對客戶環境無侵入,如客戶無需修改CUDA運行庫等,就能讓客戶靈活地利用容器調度底層GPU資源。
阿里雲cGPU容器技術的推出,將進一步推動更多的企業使用容器調度底層GPU容器資源,能夠毫無後顧之憂地提升GPU資源利用率,實現降本增效。