細(xì)菌耐藥性日益嚴(yán)重,了解細(xì)菌的耐藥機(jī)制,有助于臨床治療,同時(shí)也可延緩耐藥性的產(chǎn)生。隨著全基因組測(cè)序技術(shù)的日益興起,研究者可借助此技術(shù)充分認(rèn)識(shí)和理解細(xì)菌耐藥基因的分型。本文主要對(duì)多種全基因組測(cè)序平臺(tái)的技術(shù)特點(diǎn)與常用耐藥基因分型工具進(jìn)行綜述。
全基因組測(cè)序平臺(tái)的介紹
高通量、短周期和低成本是新興測(cè)序技術(shù)的關(guān)鍵詞。大多數(shù)全基因組測(cè)序技術(shù)是將DNA隨機(jī)片段化,從DNA片段的一端或兩端進(jìn)行測(cè)序,所得到的片段稱為讀段(reads)。第二代高通量測(cè)序技術(shù)平臺(tái)主要由454(2005年)、Illumina(2006年)、SOLiD(2007年)與Ion Torrent(2010年)等組成。目前454和SOLiD平臺(tái)已逐漸退出市場(chǎng),現(xiàn)有的二代測(cè)序平臺(tái)主要有Illumina和Thermo Fisher開發(fā)的一系列測(cè)序儀,如NovaSeq 6000、HiSeq X Ten、Ion PGM與Ion S5等。Illumina測(cè)序平臺(tái)的工作原理為邊合成邊測(cè)序技術(shù),通過預(yù)先建立的樣本測(cè)序文庫(kù),使用熒光標(biāo)記核苷酸(脫氧核苷三磷酸)來檢測(cè)DNA序列。Ion Torrent測(cè)序儀是不依賴光學(xué)系統(tǒng)的測(cè)序平臺(tái),通過集成的互補(bǔ)金屬氧化物半導(dǎo)體(CMOS)和離子敏感場(chǎng)效應(yīng)晶體管(ISFET)捕獲DNA合成時(shí)堿基延伸釋放的H+,檢測(cè)溶液pH的變化,將化學(xué)信號(hào)轉(zhuǎn)化為數(shù)字信號(hào),實(shí)時(shí)判讀堿基,獲得每個(gè)DNA片段的堿基序列。Ion Torrent平臺(tái)提供了多種類型的芯片和儀器,可滿足不同研究人員的需求。與其他測(cè)序技術(shù)相比,Ion Torrent測(cè)序技術(shù)不依賴熒光標(biāo)記以及光學(xué)圖像采集技術(shù),使其在測(cè)序的成本、速度和費(fèi)用上具有不可比擬的優(yōu)勢(shì)。
近年來,我國(guó)華大基因研發(fā)的DNBSEQ平臺(tái)采用聯(lián)合探針錨定聚合(combinatorial probe-anchor Synthesis,cPAS)和DNA納米球(DNA nanoball,DNB)等核心技術(shù),通過DNA分子錨和熒光探針在納米球上進(jìn)行聚合,并經(jīng)高分辨率成像系統(tǒng)采集與數(shù)字化處理光信號(hào)后即可獲得DNA序列。
以單分子實(shí)時(shí)定量(single molecule, real-time,SMRT)測(cè)序?yàn)樘攸c(diǎn)的第三代測(cè)序技術(shù),改善了測(cè)序讀長(zhǎng)偏短的問題。第三代測(cè)序的主流平臺(tái)是Pacific Biosciences公司于2011年推出的PacBio RS系統(tǒng)(2015年推出RSII系統(tǒng)),其核心在于零級(jí)波導(dǎo)技術(shù)(zero-mode waveguide,ZMWs),支持邊合成邊測(cè)序。借助該技術(shù),系統(tǒng)可實(shí)時(shí)記錄光信號(hào),同時(shí)可檢測(cè)數(shù)千個(gè)高速進(jìn)行的單分子測(cè)序反應(yīng)。隨著電子和信息化技術(shù)的不斷革新,孕育出第三代測(cè)序技術(shù)的新起之秀——Oxford Nanopore公司的MinION。其核心技術(shù)是整合于測(cè)序芯片的蛋白質(zhì)納米孔,具體原理是將蛋白質(zhì)納米孔嵌入電阻聚合物膜中,特異的馬達(dá)蛋白攜帶已標(biāo)記的單個(gè)DNA片段,通過測(cè)量DNA單鏈穿過納米孔所引起的電導(dǎo)率變化,從而檢測(cè)單個(gè)核苷酸序列。由于該系統(tǒng)支持邊測(cè)序邊實(shí)時(shí)讀取數(shù)據(jù),從而可大幅縮短測(cè)序與數(shù)據(jù)分析的流轉(zhuǎn)時(shí)間。在每張測(cè)序芯片上,系統(tǒng)能有較長(zhǎng)的時(shí)間讀取接近原始輸入長(zhǎng)度的DNA片段,保證了芯片的高輸出量。隨著Nanopore測(cè)序芯片的升級(jí),如2019年初發(fā)布的新型納米孔R(shí)10,配有兩對(duì)讀取頭(dual reader head),能夠?qū)ν粔A基進(jìn)行兩次信號(hào)識(shí)別,準(zhǔn)確度可達(dá)99.995%。
全基因組測(cè)序在病原菌耐藥基因分型中的應(yīng)用
在細(xì)菌全基因組水平上,利用生物信息學(xué)分析方法,研究者能在基因組水平識(shí)別細(xì)菌攜帶的耐藥基因與毒力基因。細(xì)菌的耐藥機(jī)制可分為兩大類:固有耐藥和獲得性耐藥。細(xì)菌對(duì)抗菌藥物的耐藥性通常是由耐藥基因編碼的,可通過多種機(jī)制介導(dǎo),如基因的點(diǎn)突變、插入、丟失或通過基因水平轉(zhuǎn)移(horizontal gene transfer,HGT)的方式獲得外源耐藥基因。從全基因組測(cè)序數(shù)據(jù)中識(shí)別耐藥基因主要分為2種分析模式:一種是序列組裝后比對(duì)分析(assembly-ba[x]sed),另外一種是直接利用測(cè)序讀段映射分析(read-ba[x]sed)。
研究者可利用比對(duì)工具(例如BLAST、USEARCH或DIAMOND)將細(xì)菌基因組草圖中的蛋白質(zhì)編碼區(qū)與耐藥基因參考數(shù)據(jù)庫(kù)進(jìn)行比對(duì),得到耐藥基因的注釋結(jié)果。不同數(shù)據(jù)庫(kù)對(duì)同一耐藥基因不同亞型的注釋結(jié)果可能會(huì)存在差異,這導(dǎo)致了部分耐藥基因的別名不統(tǒng)一。目前,NCBI正在積極開發(fā)細(xì)菌耐藥基因參考數(shù)據(jù)庫(kù)(NDARO),并提供離線版的耐藥基因識(shí)別工具(AMRFinderPlus)供用戶使用。另一種分析策略則是略過組裝過程,直接將測(cè)序讀段與耐藥基因參考數(shù)據(jù)庫(kù)進(jìn)行映射比對(duì)(Bowtie2或BWA),先將讀段拆分成若干大小相等的k-mer,再映射到參考數(shù)據(jù)庫(kù)。SRST2是一種常用的耐藥基因識(shí)別工具,其原理是使用Bowtie2將測(cè)序讀段映射到耐藥基因參考數(shù)據(jù)庫(kù),檢索菌株攜帶的耐藥基因。KmerResistance通過將測(cè)序讀段拆分為若干個(gè)k-mer短片段后,映射到耐藥基因參考數(shù)據(jù)庫(kù)來識(shí)別耐藥基因。若測(cè)序數(shù)據(jù)中存在其他數(shù)據(jù)干擾或者無法進(jìn)行從頭組裝時(shí),上述2種工具都可識(shí)別出測(cè)序數(shù)據(jù)中的耐藥基因是否存在以及其與參考序列的相似度,但卻無法識(shí)別耐藥基因中的點(diǎn)突變。ARIBA工具則解決了這個(gè)問題,該工具利用CD-HIT聚類耐藥基因參考數(shù)據(jù)庫(kù)中的序列,然后分別組裝每個(gè)聚類的序列,再與測(cè)序讀段進(jìn)行映射分析,從而能顯示耐藥基因序列是否完整,同時(shí)報(bào)告堿基突變位點(diǎn)。
上述2種耐藥基因分析模式各有優(yōu)缺點(diǎn)。測(cè)序讀段映射分析方法繞過了從頭組裝步驟,對(duì)計(jì)算資源需求較少、耗時(shí)較短,有利于臨床診斷中實(shí)時(shí)耐藥基因檢測(cè);可檢出復(fù)雜環(huán)境中的低豐度基因,比組裝后注釋的策略靈敏度更高。另外,使用當(dāng)前主流的幾個(gè)耐藥基因數(shù)據(jù)庫(kù)ARG-ANNOT、CARD、ResFinder及NCBI-AMRFinder數(shù)據(jù)庫(kù)識(shí)別耐藥基因時(shí),相同序列可能會(huì)對(duì)應(yīng)不一致的耐藥基因亞型注釋結(jié)果。此外,基于WGS數(shù)據(jù)可利用一些機(jī)器學(xué)習(xí)方法來預(yù)測(cè)菌株的耐藥性表型,其中包括深度學(xué)習(xí)模型(Deep learning)、隨機(jī)森林模型(Random Forest)和Logistic回歸模型等。這些算法利用已知的耐藥基因數(shù)據(jù)結(jié)合其對(duì)應(yīng)的藥敏試驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練,因此實(shí)驗(yàn)室檢測(cè)的AST數(shù)據(jù)集及耐藥數(shù)據(jù)庫(kù)信息的豐富度和標(biāo)準(zhǔn)化是開發(fā)機(jī)器學(xué)習(xí)方法的主要挑戰(zhàn)之一。
盡管全基因組測(cè)序技術(shù)在鑒定病原菌耐藥表型方面具有一定的優(yōu)勢(shì),但在研究某個(gè)具體基因型與表型的相關(guān)性時(shí),為避免假陽(yáng)性,通常還需結(jié)合分子生物學(xué)實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)設(shè)計(jì)需遵守1988年Falkow提出分子科赫法則,即“基因失活造成表型消失,重建則表型恢復(fù)”。
結(jié)語(yǔ)與展望
目前,WGS在微生物學(xué)中已有許多臨床應(yīng)用場(chǎng)景,可為如何有效監(jiān)測(cè)、預(yù)警與防控多重耐藥菌感染這一重要臨床問題提供可行的解決方案,但這個(gè)技術(shù)仍依賴生物信息學(xué)家的信息挖掘。缺少標(biāo)準(zhǔn)化的分析流。大數(shù)據(jù)時(shí)代,開發(fā)用戶友好型的分析軟件,擴(kuò)充、標(biāo)準(zhǔn)化,實(shí)時(shí)更新公共數(shù)據(jù)庫(kù),登記詳細(xì)的病原菌基因組信息與表型信息,這些都將有利于WGS的臨床研究和實(shí)踐。