國內疫情稍有緩和,但公共科研機構與病毒間的戰爭從未停止。科研人員與醫療工作者們依然在日以繼夜地研究著這名“對手”,追溯它從何而來、如何“作惡”,我們又能如何消滅它。科技早已作為科研人員的後盾,他們背後有無數的計算力在為分析病毒而跳動著。
在這些與病毒持續搏鬥的科研機構中,就有中山大學醫學院,這也是疫情期間阿里雲提供免費算力支持的機構之一。
中大醫學院嘗試尋找致重症的因素
在國內疫情肆虐之際,中山大學醫學院通過與多家醫院、疾控中心等合作,計劃獲取超過千名武漢市新冠患者的核酸樣本,以及部分病人的全病程數據,希望通過基因組測序及測序數據分析,闡述冠狀病毒的起源、進化和致重症機制。
中山大學醫學院施莽老師解釋,研究人員主要是從病原體本身、微環境(與病原體共感染的細菌 / 微生物),及宿主即人類的免疫系統三個方面的角度去尋找引發重症的因素。
中山大學醫學院使用宏轉錄組的方法,期望從中原始樣本中挖掘得到所有關鍵的遺傳信息。科學家們通過分析這些遺傳信息重現病原體感染、宿主免疫和機體內環境相互作用的動態過程,尋找導致機體重症的關鍵因素。
只有全面瞭解了重症因素,才可以在臨床上進行重症預警,醫生可以及早干預,對症下藥;並指導緩解和預防重症的藥物研發。
此外,科學家會將分析後的臨床信息、病毒信息、基因組信息和實驗結果數據彙總,構建新冠感染相關大數據,幫助研究病毒起源,也方便後續研究。
阿里雲 EHPC,讓數據分析性能提升 25%
在研究過程中,科學家首先需要通過高通量基因測序平臺,對原始樣本進行測序,獲得樣本中包括病毒、細菌和宿主的完整遺傳信息。但這些信息僅是片段化的信息,需要進一步的生物信息學分析(包括序列的拼接和註釋)才能解讀採樣的時間點病人體內正在發生的重要生命過程。
從基因測序到獲得全基因組信息的過程
遺傳信息的拼裝和比對需要高性能計算進行處理,海量的數據更是需要大規模算力。
本次實驗處理的病例超過 1000 人,一般病例至少採集兩份數據,單份數據就有 2-3G,部分病例為了採集全病程數據還採樣數十次,還要再加上對照組信息。同時,中山大學的科學家還需要下載美國國家生物信息中心 NCBI(National Center for Biotechnology Information)中的約 8000 個樣品進行比對,其產生的數據之海量可想而知。
在分秒必爭的疫情背景下,雲上高性能計算的優勢凸顯,可加快研究進程。
阿里雲幫助中山大學整合了從原始數據到獲得最後分析結果的完整計算流程,雲服務的彈性能夠在短時間內快速交付豐富的算力資源, 通過阿里雲高性能計算(EHPC)一鍵部署超算集群環境,根據需求動態增減集群節點,免去了研究人員們針對服務器的管理和維護,不需要在運維上耗費過多精力,只需專注在研究上。
同時,阿里雲高性能計算(EHPC)團隊協助中山大學使用阿里雲計算服務進行生信科學計算,提供 104 核處理器,相比線下服務器,數據組裝、比對性能提升 25% 以上。
在性能與資源的雙重支持下,原本每個病例的測序結果需要 12 個小時左右的分析時間,在阿里雲上縮減到了 2 個小時。原本需要 1 年的運算量縮減到了約 2 個月時間,大大提高了工作效率,加快了研究進程,也為抗疫贏得了時間。