中山大學醫(yī)學院施莽教授團隊與阿里云李兆融團隊在《細胞》雜志(Cell)發(fā)表的論文報告了全球范圍的180個超群、16萬余種的RNA病毒發(fā)現(xiàn),大幅擴展了全球RNA病毒的多樣性。
該研究將人工智能技術應用于病毒鑒定,發(fā)現(xiàn)了傳統(tǒng)研究方法未能發(fā)現(xiàn)的病毒“暗物質”,探索了病毒學研究的新路徑。
傳統(tǒng)的病毒發(fā)現(xiàn)方法包括病毒分離和生命組學的生物信息學分析,高度依賴既有知識,面對RNA病毒這種高度分化、種類繁多且容易變異的病毒識別效率低。在該研究中,團隊開發(fā)的人工智能算法能夠對病毒和非病毒基因組序列深度學習,并在數(shù)據(jù)集中自主判斷病毒序列。
利用這套算法,研究團隊在來自全球生物環(huán)境樣本的10487份RNA測序數(shù)據(jù)中發(fā)現(xiàn)了超過51萬條病毒基因組,代表超過16萬個潛在病毒種及180個RNA病毒超群。其中23個超群無法通過序列同源方法識別。
“人工智能的算法模型能夠挖掘出我們之前忽略或根本不知道的病毒,這種能力在疾病防控和新病原的快速識別中尤為重要。特別是在疫情暴發(fā)時,人工智能的速度和精度可以幫助科學家更快地鎖定潛在病原體?!笔┟дf。
通過進一步分析,團隊報告了迄今長的RNA病毒基因組,長度達到47250個核苷酸,并發(fā)現(xiàn)了超出以往認知的基因組結構,展現(xiàn)出RNA病毒基因組進化的靈活性。
同時,團隊還識別到多種病毒功能蛋白,特別是與細菌相關的功能蛋白,進一步表明還有更多類型的RNA噬菌體亟待探索。
施莽表示,研究展示了病毒多樣性的深度,但廣度仍有待更多樣本的補充。病毒的多樣性遠超人類想象,目前所看到的仍是“冰山一角”。