DNA存儲(chǔ):開啟未來(lái)信息存儲(chǔ)新時(shí)代
文章來(lái)源:光明網(wǎng)發(fā)布日期:2025-01-03瀏覽次數(shù):5 在數(shù)字化飛速發(fā)展的時(shí)代,我們產(chǎn)生和需要存儲(chǔ)的數(shù)據(jù)量呈爆炸式增長(zhǎng)。傳統(tǒng)的存儲(chǔ)方式,如硬盤、磁帶等,正面臨存儲(chǔ)容量有限、維護(hù)成本高以及存儲(chǔ)設(shè)備壽命短等諸多限制。自20世紀(jì)60年代起,DNA分子因其高存儲(chǔ)密度、高穩(wěn)定性和易復(fù)制等特點(diǎn),逐漸步入大眾視野,成為未來(lái)存儲(chǔ)技術(shù)的新希望?!癉NA可以用作信息存儲(chǔ)介質(zhì)嗎?”作為信息領(lǐng)域的前沿?zé)狳c(diǎn),被國(guó)際學(xué)術(shù)期刊《科學(xué)》列入125個(gè)科學(xué)問(wèn)題之一。2022年,我國(guó)“十四五”規(guī)劃將DNA存儲(chǔ)列為與新一代移動(dòng)通信技術(shù)、量子信息、第三代半導(dǎo)體等并列的新興技術(shù)。 揭開DNA存儲(chǔ)的神秘面紗 DNA,即脫氧核糖核酸,是生物體內(nèi)承載遺傳信息的大分子。它由腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)、胞嘧啶(C)四種核苷酸按特定順序排列而成,恰似計(jì)算機(jī)代碼中的0和1,共同編織出生命的遺傳密碼。 DNA存儲(chǔ)技術(shù)就是巧妙利用了DNA的這一特性,將數(shù)字化信息轉(zhuǎn)化為DNA序列進(jìn)行存儲(chǔ)。簡(jiǎn)單來(lái)講,就是把我們?nèi)粘J褂玫亩M(jìn)制數(shù)據(jù),比如電腦文件等,依據(jù)特定編碼規(guī)則,轉(zhuǎn)變?yōu)橛葾、T、G、C組成的DNA序列。例如,一段二進(jìn)制代碼通過(guò)編碼,能夠轉(zhuǎn)化為一串DNA序列,再將合成好的DNA置于一定環(huán)境中,DNA信息存儲(chǔ)便得以實(shí)現(xiàn)。 DNA數(shù)據(jù)存儲(chǔ)的歷史,可追溯至20世紀(jì)60年代中期,美國(guó)麻省理工學(xué)院教授維納和蘇聯(lián)物理學(xué)家涅曼首提出“遺傳記憶”概念,但受限于當(dāng)時(shí)DNA測(cè)序與合成技術(shù),只是一個(gè)初步構(gòu)想。1988年,哈佛大學(xué)教授戴維斯第一次設(shè)計(jì)并合成了一個(gè)包含18個(gè)核苷酸的DNA片段,并且將其轉(zhuǎn)移至大腸桿菌中,這標(biāo)志著DNA存儲(chǔ)的首實(shí)驗(yàn)實(shí)現(xiàn)。受戴維斯啟發(fā),全球其他科學(xué)研究團(tuán)隊(duì)也開始了基于DNA分子的活細(xì)胞存儲(chǔ)研究。直到2012年,哈佛大學(xué)教授丘奇和歐洲生物信息學(xué)研究所科學(xué)家戈德曼實(shí)現(xiàn)了突破性科學(xué)進(jìn)展,通過(guò)創(chuàng)新性的編碼方式以及先進(jìn)的生物技術(shù)手段,首將圖書內(nèi)容完整存入DNA之中,充分展示出DNA作為存儲(chǔ)介質(zhì)的巨大潛力。 作為生物的遺傳物質(zhì),DNA分子具有高密度的特點(diǎn)。理論上來(lái)說(shuō),1克DNA大約能存儲(chǔ)215PB數(shù)據(jù),相當(dāng)于1000萬(wàn)小時(shí)左右的高清視頻。據(jù)報(bào)道,1噸DNA分子的存儲(chǔ)容量甚至能裝得下全球所有數(shù)據(jù)總量。這為解決海量數(shù)據(jù)存儲(chǔ)問(wèn)題,開拓了廣闊前景與新思路。 同時(shí),DNA具有高度穩(wěn)定性,在適宜條件下,DNA可保存數(shù)千年乃至更久??茖W(xué)家從遠(yuǎn)古生物化石中提取DNA并開展研究分析的實(shí)例,充分證明了DNA極強(qiáng)的穩(wěn)定性和長(zhǎng)久保存信息的能力。相比硬盤等傳統(tǒng)存儲(chǔ)介質(zhì)幾年到十幾年的使用壽命,DNA存儲(chǔ)優(yōu)勢(shì)。 此外,在推行低碳可持續(xù)發(fā)展的時(shí)代背景下,DNA存儲(chǔ)維護(hù)的低能耗優(yōu)勢(shì)不容小覷。傳統(tǒng)存儲(chǔ)方式能耗較高,而DNA存儲(chǔ)額外耗能極低——合成并存儲(chǔ)完畢后,在日常環(huán)境下便可保存信息。這對(duì)節(jié)能減排意義重大。 DNA存儲(chǔ)何以實(shí)現(xiàn) 那么,如何實(shí)現(xiàn)DNA存儲(chǔ)? 第一步,將數(shù)據(jù)寫入DNA:數(shù)據(jù)與DNA序列轉(zhuǎn)換的橋梁——編碼。 編碼是DNA存儲(chǔ)的首要步驟,是將二進(jìn)制數(shù)據(jù)轉(zhuǎn)化為DNA序列。要實(shí)現(xiàn)精確編碼,需制定嚴(yán)謹(jǐn)?shù)木幋a規(guī)則??茖W(xué)家通常依據(jù)DNA核苷酸合成的限制和數(shù)據(jù)的存儲(chǔ)需求進(jìn)行設(shè)計(jì)。比如,規(guī)定每2個(gè)二進(jìn)制位對(duì)應(yīng)一種核苷酸組合,00對(duì)應(yīng)A,01對(duì)應(yīng)T,10對(duì)應(yīng)G,11對(duì)應(yīng)C等。 不過(guò),將數(shù)字信息準(zhǔn)確編碼為DNA序列并非易事,需要設(shè)計(jì)合適的編碼算法和方案。一方面要確保信息能夠完整、準(zhǔn)確地合成為DNA序列,另一方面還要考慮編碼效率和冗余度等問(wèn)題,以便在后續(xù)存儲(chǔ)和讀取過(guò)程中實(shí)現(xiàn)高效操作。此外,傳統(tǒng)DNA存儲(chǔ)以化學(xué)合成的方式逐個(gè)加入代表信息的核苷酸,只能串行寫入分子信息,當(dāng)存儲(chǔ)大量數(shù)據(jù)時(shí),面臨存儲(chǔ)速度慢、成本高的問(wèn)題。 第二步,構(gòu)建存儲(chǔ)信息的DNA分子:編碼完成后,按編碼的順序逐個(gè)加入核苷酸,合成DNA鏈。 目前常用的傳統(tǒng)化學(xué)合成方法是基于磷酰胺的化學(xué)合成法,但考慮到其合成速度慢、成本高等缺點(diǎn),科學(xué)家也在探索新型DNA合成技術(shù)。其中,酶促合成法備受關(guān)注,它利用DNA聚合酶等催化DNA合成反應(yīng)。 與傳統(tǒng)方法相比,酶促合成法操作簡(jiǎn)單、步驟簡(jiǎn)便,但同時(shí)也存在酶的活性調(diào)控困難、精確數(shù)量的序列合成控制難等問(wèn)題。 近年來(lái),主流DNA存儲(chǔ)技術(shù)是基于“從頭合成”路線,串行進(jìn)行分子信息寫入。盡管從頭合成技術(shù)在通量和效率上不斷提高,但串行合成的底層本質(zhì)仍嚴(yán)重影響了DNA存儲(chǔ)寫入速度和成本,阻礙了DNA存儲(chǔ)的實(shí)用化發(fā)展。 第三步,存儲(chǔ)與讀取技術(shù):保障數(shù)據(jù)的保存與恢復(fù)。 DNA存儲(chǔ)對(duì)環(huán)境條件要求比較寬泛,一般需將合成好的DNA保存在低溫、干燥且避光的環(huán)境中。低溫(通常零下20攝氏度甚至更低)和干燥能有效減緩DNA分子降解速度;避光則是為了防止光照引發(fā)DNA分子的損傷,從而保障存儲(chǔ)數(shù)據(jù)準(zhǔn)確性。而讀取DNA存儲(chǔ)數(shù)據(jù)的方法,就是DNA測(cè)序。需依靠DNA測(cè)序技術(shù)獲取其核苷酸序列。目前主流的DNA測(cè)序技術(shù)有桑格測(cè)序法、NGS測(cè)序和納米孔測(cè)序等。 并行DNA存儲(chǔ)突破傳統(tǒng)技術(shù)瓶頸 針對(duì)DNA存儲(chǔ)信息串行寫入的問(wèn)題,北京大學(xué)DNA存儲(chǔ)團(tuán)隊(duì)突破傳統(tǒng)“從頭合成”串行寫入路線,提出了一種基于并行寫入策略的新型DNA存儲(chǔ)策略(該研究工作于2024年發(fā)表在《自然》上)。這種方法通過(guò)DNA自組裝介導(dǎo)的選擇性酶促甲基化(表觀遺傳修飾),對(duì)DNA中特定位點(diǎn)進(jìn)行甲基化,以實(shí)現(xiàn)信息編碼,避免了對(duì)從頭合成DNA的依賴。這種方法被形象地比喻為DNA上的活字印刷技術(shù),不僅可以加快信息的寫入速度,并且由于采用預(yù)制的分子活字塊和長(zhǎng)鏈模板,方便批量操作,極大降低了存儲(chǔ)成本。 首先預(yù)先合成700種“DNA活字”和5條DNA長(zhǎng)鏈“白紙”模板。通過(guò)人工設(shè)計(jì),使得每個(gè)“活字”塊都可通過(guò)DNA自組裝錨定到模板上的特定位置。其中,每個(gè)位置的DNA“活字”有兩種:攜帶或不攜帶甲基修飾,分別代表0或1。隨后,通過(guò)甲基轉(zhuǎn)移酶介導(dǎo)半甲基化轉(zhuǎn)移,將模板中的特定位置甲基進(jìn)行轉(zhuǎn)移,從而實(shí)現(xiàn)并行的選擇性分子信息寫入。 研究團(tuán)隊(duì)使用有限的預(yù)制DNA活字和長(zhǎng)鏈模板排版編程,在自動(dòng)平臺(tái)上實(shí)現(xiàn)約27.5萬(wàn)個(gè)比特的并行甲基修飾信息寫入,單次反應(yīng)分子寫入通量為350比特,極大提高了DNA存儲(chǔ)的信息寫入通量(從頭合成的DNA數(shù)據(jù)存儲(chǔ)中單個(gè)反應(yīng)約1比特的輸出量)。 這項(xiàng)技術(shù)的核心突破在于,能通過(guò)預(yù)制的DNA模板和活字塊,在分子底層以排版的方式并行打印表觀比特(epi-bit)信息,實(shí)現(xiàn)分子數(shù)據(jù)的精確高通量寫入,進(jìn)而完成大規(guī)模并行DNA存儲(chǔ)。與傳統(tǒng)DNA數(shù)據(jù)存儲(chǔ)方法相比,這種活字印刷并行寫入方式僅需有限數(shù)量的預(yù)制DNA分子,避免了復(fù)雜煩瑣DNA序列編碼過(guò)程,不僅大幅降低分子信息寫入復(fù)雜度,還能降低成本、提高操控靈活性。 雖然DNA存儲(chǔ)技術(shù)在持續(xù)進(jìn)步,但仍面臨一些亟待破解的問(wèn)題。 DNA合成和測(cè)序成本仍較為高昂。DNA合成需復(fù)雜化學(xué)工藝和高端設(shè)備,導(dǎo)致DNA存儲(chǔ)的成本居高不下。同樣,盡管測(cè)序技術(shù)持續(xù)進(jìn)步,但準(zhǔn)確測(cè)序成本仍然較高,這使得DNA存儲(chǔ)難以應(yīng)用于現(xiàn)實(shí)生活。與硬盤等傳統(tǒng)存儲(chǔ)設(shè)備的讀取速度相比,DNA存儲(chǔ)走向?qū)嵱没罹嗝黠@。此外,在DNA存儲(chǔ)過(guò)程中,寫入和讀取環(huán)節(jié)錯(cuò)誤率較高。例如,寫入過(guò)程可能出現(xiàn)不正確的修飾等錯(cuò)誤,讀取時(shí)也可能因測(cè)序誤差導(dǎo)致還原數(shù)據(jù)不準(zhǔn)確等。這些分子數(shù)據(jù)存儲(chǔ)自身存在的問(wèn)題,將影響DNA存儲(chǔ)的可靠性和實(shí)用性。 盡管如此,DNA仍是具廣闊應(yīng)用前景的存儲(chǔ)方式之一。 ——在長(zhǎng)期冷數(shù)據(jù)存儲(chǔ)方面,像國(guó)家歷史檔案、珍貴文物資料這類需要長(zhǎng)期保存的數(shù)據(jù),DNA有著超長(zhǎng)存儲(chǔ)時(shí)間以及高存儲(chǔ)密度的優(yōu)勢(shì),是理想的存儲(chǔ)方式。將這些數(shù)據(jù)存于DNA中,哪怕過(guò)了數(shù)千年依然能完好讀取,有力保障了人類文明的傳承。 ——在航天領(lǐng)域,航天活動(dòng)中數(shù)據(jù)存儲(chǔ)的能耗和太空復(fù)雜環(huán)境是關(guān)鍵的考量要點(diǎn)。而DNA存儲(chǔ)具備低能耗、高存儲(chǔ)密度和高穩(wěn)定的特性,因此有望適用于該領(lǐng)域。比如,科學(xué)家可以把航天器飛行數(shù)據(jù)、科學(xué)實(shí)驗(yàn)數(shù)據(jù)等存儲(chǔ)在DNA中,既能減輕存儲(chǔ)設(shè)備重量,又能在能源有限條件下實(shí)現(xiàn)數(shù)據(jù)的長(zhǎng)期保存。 ——在生物醫(yī)學(xué)領(lǐng)域,DNA可用來(lái)存儲(chǔ)大量的基因數(shù)據(jù)、醫(yī)療診斷照片和病人病歷等。隨著個(gè)性化醫(yī)療不斷發(fā)展,對(duì)于患者個(gè)體基因數(shù)據(jù)長(zhǎng)期保存以及準(zhǔn)確讀取的需求也在持續(xù)增加。 ——在私人數(shù)據(jù)存儲(chǔ)方面,并行DNA存儲(chǔ)技術(shù),由于操作簡(jiǎn)單、環(huán)境需求低和預(yù)制合成等特點(diǎn),特別適合于高隱私要求的私人定制DNA存儲(chǔ)應(yīng)用。這也有望推動(dòng)DNA存儲(chǔ)的實(shí)用化發(fā)展,走入千家萬(wàn)戶。 DNA存儲(chǔ)作為新興技術(shù),已展現(xiàn)出巨大優(yōu)勢(shì)。未來(lái),它很可能成為數(shù)據(jù)存儲(chǔ)的重要方式之一,為海量數(shù)據(jù)存儲(chǔ)與相關(guān)領(lǐng)域的發(fā)展提供有力支持。