雲計算

當藥物研發遇上阿里雲超算,GHDDI如何實現高通量分子篩選?

2020年6月1日凌晨,武漢市衛健委發佈通告稱,5月31日,武漢市對6萬餘人進行了核酸檢測,未發現無症狀感染者。這是武漢市公佈無症狀感染者人數以來,首次無症狀感染者當日新增為零,國內抗疫取得又一關鍵的階段性成果。

然而,全球範圍內的新冠疫情對社會經濟活動帶來的影響還在持續,尋找行之有效的治療方案仍是全球科學家當下重要的任務。4月中旬接受央視記者白巖鬆採訪時,比爾·蓋茨曾特別提及:“GHDDI的研發團隊將幫助世界更好地理解並對抗疫情。”這家創立於2016年的獨立運營、非營利性質新藥研發機構,再次以如此高調的方式進入公眾視野。

GHDDI,全稱全球健康藥物研發中心(Global Health Drug Discovery Institute),由比爾及梅琳達·蓋茨基金會、清華大學和北京市政府聯合發起成立於中國北京。清華大學藥學院院長、拜耳特聘教授丁勝教授擔任中心主任。通過匯聚全球頂尖資源、發揮中國特色優勢,GHDDI致力於建設引領性的生物醫藥研發能力和創新藥物轉化平臺,攻克人類面臨的重大疾病挑戰,改善全球健康。

與GHDDI一同抗疫的,還有阿里雲。1月29日,阿里雲宣佈對全球公共科研機構免費開放一切AI算力,以支持抗疫。在此之前,阿里雲高性能計算平臺就開始免費支持GHDDI研究新冠病毒。

早在新冠肺炎疫情爆發之初的2020年1月,GHDDI即宣佈會同清華大學藥學院向全球科研人員免費開放了包括高通量藥物篩選平臺和多個化合物庫在內的內部研發平臺和藥研資源。隨後,數以百計的海內外科研機構和研究團隊基於GHDDI的開放資源進行鍼對新冠肺炎病毒的藥物、疫苗開發。

藥物篩選平臺和內部藥研資源開放的兩天後,GHDDI人工智能研發團隊就上線了針對新冠病毒研究的一站式科研數據與信息共享平臺 “Targeting COVID-19”。據瞭解,“Targeting COVID-19”平臺從設計到搭建完成,耗時僅4天。此外,GHDDI聯合阿里雲共同搭建新冠病毒人工智能全球共享雲計算系統,用頂尖的數據庫和高性能的超算資源助力全球抗疫的創新探索

高通量:快速鎖定新冠病毒潛在靶點

1月21日,全國已有13個省市相繼出現新冠肺炎確診病例,疫情加劇。同時,新冠病毒基因組序列公開發布。

在阿里雲高性能計算負責人何萬青的詢問下,GHDDI人工智能部門負責人潘麓蓉博士比對了新冠病毒和SARS病毒的相似度。意識到這種病毒的潛在威脅,GHDDI決心投入資源幫助對抗新冠病毒。

image.png

實際上,GHDDI在1月即模擬了幾乎全部新冠病毒相關靶點的三維結構,並完成全面的同源性、傳染性相關分析,快速鎖定在後續藥物開發、抗體設計中發揮關鍵作用的抗原靶點。確定關鍵靶點後,GHDDI公佈前期研究數據供外部團隊進行藥物開發的同時,也開展了基於計算模型的虛擬藥物分子篩選。

動脈網從GHDDI相關負責人處瞭解到,GHDDI藥研團隊聚焦“老藥新用”思路,對現有超過9000種抗病毒活性小分子和內部ReFRAME化合物庫(內含12000多種臨床安全的化合物)進行構效關係和歷史數據分析,篩選出幾百個高概率具有抗擊新冠病毒活性的小分子。至此,GHDDI始終秉持開源的態度,將科研數據和基於此間數據構建的各級抗原靶點表型分析模型對外發布,供全球科研群體開展後續的成藥性相關研究。

新冠病毒疫情的背景下,資源和研究成果共享無疑能極大的加速研究者的進展,避免重複工作。

我們知道,藥物研發是一個非常複雜和耗時的過程。在化合物發現階段,傳統方法是通過大量實驗完成篩選,發現可能適合的化合物。以確定與蛋白病毒酶結合的小分子為例,由於存在數量巨大的不同商業化合物庫,且每個庫的化合物數以百萬計,合計上億,完全依靠實驗方式一一測試幾乎不可能實現。

image.png

於是,科學家嘗試通過機器模擬分子化合物與靶點的相互作用等計算方式篩選出可能有效的化合物做小通量實驗。其中一種傳統虛擬篩選方式是通過小分子和靶點對接,對不同配體的結合效果打分或者通過分子動力學進一步計算,篩選出得分高且結合模式合理的配體作為候選藥物進行實驗驗證,加速藥物研究進程。

由於分子庫巨大,哪怕用計算機實現虛擬篩選,需要在有限時間完成,也極大挑戰了計算機性能。假設某化合物庫有10,000個候選配體,以每個化合物在單核CPU平均處理時間1.5個小時計算,總共需要15,000 個小時(625天)才能完成此化合物庫的分子篩選。而高性能計算集群的應用,為現代藥物研發提供了必不可少的支撐。如果在高性能集群上,用625個CPU並行計算,一天則可完成上述任務。如果用高性能GPU訓練好的人工智能模型進行預測篩選,在單個GPU上四分鐘則可以完成上述任務。

雲超算的藥物研發場景驗證

高性能計算又稱超算,是一種用超級計算機或大規模的計算集群來解決需要大量計算能力(如並行計算、AI模型運算)需求的方法,在石油勘探、氣象預報、藥物研發中廣泛應用。一般而言,為在規定時間內完成藥物研發的分子篩選,研究者需要擁有強大計算能力的計算平臺、大容量存儲和大量配套的高性能應用軟件,如Amber, NAMD等。

在高性能計算出現後的許多年中,由於虛擬化造成的性能損耗,雲計算並不被從事高性能計算開發的專家看好。在單個節點實驗中,物理機性能一定比虛擬機高,使用配置最好最快的物理機器幾乎成為高性能計算領域的“潛規則“。

2017年,阿里雲在雲棲大會上發佈神龍服務器。這款由阿里雲自主開發的雲服務器,主要通過自研芯片和MOC卡來實現虛擬化功能,並將存儲網絡的管控放上來,使得CPU本身不再浪費,100%地為計算者提供服務。

儘管理論上還是會耗掉資源,但神龍服務器的優勢顯而易見。容器在神龍服務器上運行的性能,比傳統物理機上高20-30%。因為在傳統物理機上高密度部署容器時,由於存儲網絡虛擬化的資源核心和業務所佔的CPU的資源,之間會互相爭搶,隨著整體負載率提升,它的業務的延時會迅速惡化,最後導致業務不可用。而在神龍上面,因為‍每一個容器之間的數據鏈路都是用芯片的硬件隊列進行隔離的,不會互相影響,即便負載接近90%,延時的變化依然不大。

消除了虛擬化損耗的神龍讓雲超算得以實現,阿里雲超級算計集群以神龍服務器作為算力底座,通過RoCE高速網絡連接,加上並行存儲文件系統CPFS,對外提供了完整高性能計算所需要的硬件基礎設施。軟件調度層面則提供了E-HPC(Elastic High Performance Computing)能夠讓用戶自助在雲上搭建自己的高性能集群系統,配置高性能服務器和大容量存儲,提供軟件多節點運行和高通量任務處理解決方案,直接滿足藥物研發人員對計算平臺的需求。

新冠疫情期間,GHDDI在阿里雲之上搭建了開放共享平臺,使用E-HPC搭建高性能計算集群,用於藥物研發的分子對接、分子動力學模擬、深度學習模型訓練,同時為合作伙伴創建不同的雲超算子賬戶,實現計算資源共享和數據共享。

阿里雲資深專家何萬青博士告訴動脈網,GHDDI的共享平臺幫助科學家更便捷地將即時的想法轉化為具有指導意義的創新探索,極大地提高了新冠肺炎相關藥物、疫苗的開發效率。未來,阿里雲超算將基於彈性的高性能計算能力,為更多的藥物研發工作提供必要的算力支撐。

Leave a Reply

Your email address will not be published. Required fields are marked *