端粒到端粒(T2T)聯(lián)盟組裝的參考基因組T2T-CHM13,是有史以來第一個具有卓越質(zhì)量的完整單倍體人類基因組。但基因組計劃發(fā)展到現(xiàn)在,仍然沒有中國人自己的參考基因組。
日前,北京大學(xué)人民醫(yī)院高占成教授研究團(tuán)隊、中國科學(xué)院北京基因組研究所康禹教授研究團(tuán)隊在Genomics, Proteomics & Bioinformatics《基因組蛋白質(zhì)組與生物信息學(xué)報》雜志發(fā)表題為“T2T-YAO: A Telomere-to-telomere Assembled Diploid Reference Genome for Han Chinese”的研究成果,首在世界范圍內(nèi)成功完成從端粒到端粒的中國人全基因組,獲得包括Y染色體在內(nèi)的高質(zhì)量真實人類二倍體、完整無間隙的全基因組參考序列(44+XY)——“唐堯”基因組,其DNA序列具有明確的漢族中國人遺傳特征,構(gòu)建質(zhì)量達(dá)到領(lǐng)先。
據(jù)悉,樣本來自一名生活在山西省一個古老村莊的健康男性,經(jīng)核型檢測,未見染色體結(jié)構(gòu)異常。研究團(tuán)隊將該參考基因組命名為“T2T-YAO”,因為這個采樣點位于幾千年前的堯帝遺址附近,這個地區(qū)是明代洪洞移民的起點。這場遷徙持續(xù)了近半個世紀(jì),大量移民遍布中國各地并進(jìn)入東南亞。
因此,T2T-YAO基因組有望成為漢族人群的全面代表。根據(jù)祖源分析,YAO基因組的大部分來自東亞。其Y染色體單倍群鑒定為O-F2137,是中國主要的Y單倍群O-M122的主要后代群之一。
研究團(tuán)隊使用merqury(評估基因組質(zhì)量的重要工具)來評估T2T-YAO,并分析其完整性、組裝錯誤和單倍型之間的切換錯誤。其中T2T-YAO的質(zhì)量值(QV)達(dá)到了參考質(zhì)量的準(zhǔn)確度,母本與父本分別達(dá)到了Q70.49和Q72.28,選擇父母本中QV較高的常染色體及性染色體組成一套單倍體參考基因組,其質(zhì)量達(dá)到了Q74.69。
研究發(fā)現(xiàn),與基準(zhǔn)基因組HG002相比,T2T-YAO表現(xiàn)出較少的錯誤重復(fù)、交換錯誤和較短的折疊區(qū)域,且T2T-YAO擁有更完整的rDNA(核糖體DNA)序列。與CHM13相比,YAO的單倍體間具有更多的序列共享性和更高的同一性。這意味著與漢族人群相比,不同族群之間存在更大的基因組距離。而不同單倍型間有10%的序列是獨特的,代表了大部分個體間的基因組多樣性。
研究團(tuán)隊還成功完成T2T-YAO的所有十個SAACs(近端著絲粒染色體短臂)區(qū)域,SAACs的成對比對揭示了異源染色體上幾乎有相同的序列存在,形成了具有大量倒位、重復(fù)和易位的同源嵌合體,特別是在chr13、14、21和22之間。對十個SAACs區(qū)域的k-mer(一段長度為k的DNA片段)進(jìn)行聚類,他們發(fā)現(xiàn)同源染色體的短臂顯示出幾乎相同的位置,但不同異源染色體的長臂彼此遠(yuǎn)離。
研究發(fā)現(xiàn),YAO-Y基因結(jié)構(gòu)與既往報道一致,兩端包含偽常染色體區(qū)(PARs)、X轉(zhuǎn)座區(qū)、擴(kuò)增序列、異染色質(zhì)衛(wèi)星區(qū)和X簡并區(qū)。擴(kuò)增子存在于擴(kuò)增區(qū)域,與CHM13-Y中觀察到的模式相似。
綜上,本研究報道了一個完整、準(zhǔn)確的中國漢族參考基因組-T2T-YAO,揭示了漢族中國人的基因與高加索人種之間區(qū)別,能夠應(yīng)用在未來的醫(yī)學(xué)研究和臨床實踐中,為精醫(yī)療奠定了夯實的基礎(chǔ)。