不再依賴MSA信息,速度更快,算力更小
TRFold-Single 可以端到端地對(duì)單序列結(jié)構(gòu)進(jìn)行預(yù)測(cè),不再依賴同源 MSA 作為輸入需要。MSA 信息是從現(xiàn)存生物體中測(cè)出并被記錄下來的,然而有很多在自然進(jìn)化歷史當(dāng)中未曾出現(xiàn)過的蛋白質(zhì),以及大量人工設(shè)計(jì)生成的蛋白質(zhì),本身就缺乏同源信息,此類蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)一直處于空白?,F(xiàn)在可以不受 MSA 的限制,無(wú)需多序列比對(duì)信息,輸入單一序列即可推理獲得蛋白質(zhì)的三維結(jié)構(gòu)。
此前基于 MSA 共進(jìn)化信息的 TRFold 在進(jìn)行單一蛋白質(zhì)序列的結(jié)構(gòu)預(yù)測(cè)時(shí),需構(gòu)建搜索 MSA 和進(jìn)化相關(guān)序列的訓(xùn)練,耗時(shí)長(zhǎng)且占用更多計(jì)算資源。而 XLab 團(tuán)隊(duì)迭代開發(fā)的 TRFold-Single,使用預(yù)訓(xùn)練語(yǔ)言模型的 em[x]bedding (單序列編碼) 和注意力權(quán)重作為輸入,通過處理單序列的 Transfomer 架構(gòu),直接替代處理 MSA 信息的模塊,得到蛋白質(zhì)的準(zhǔn)確結(jié)構(gòu)。 類似于 TRfold,TRFold-single 同時(shí)學(xué)習(xí)每個(gè)殘基的空間坐標(biāo),和殘基兩兩間的的幾何關(guān)系。
TRFold- single 從預(yù)訓(xùn)練語(yǔ)言模型的注意力權(quán)重中提取初始的殘基間相互關(guān)系信息。由于不再包含 MSA 相關(guān)模塊,TRFold-single 中殘基編碼與殘基對(duì)編碼之間的交互方式更加高效。 在全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽 CAMEO 2月的測(cè)試集中,TRFold (withMSA) 不僅取得與 AlphaFold2 同等水平的成績(jī),基于單序列構(gòu)建的 TRFold-Single 結(jié)構(gòu)預(yù)測(cè)分值達(dá)82分,遠(yuǎn)超 AlphaFold2,性能更佳。
加速設(shè)計(jì)和優(yōu)化拓展生成生物學(xué)空間
更高效的預(yù)測(cè)手段意味著更大的蛋白質(zhì)結(jié)構(gòu)、功能空間的探索和更深入的理解,不僅可以填補(bǔ)快速增長(zhǎng)的蛋白質(zhì)序列數(shù)據(jù)庫(kù)與進(jìn)展緩慢的蛋白質(zhì)結(jié)構(gòu)和功能數(shù)據(jù)庫(kù)之間的鴻溝,對(duì)復(fù)雜度更高的復(fù)合體預(yù)測(cè)、模擬蛋白質(zhì)之間的相互作用,及抗體和蛋白設(shè)計(jì)來說,都具有顛覆性意義。 如自然界中有大量孤兒蛋白質(zhì)序列,本身就不存在 MSA 共進(jìn)化信息,以及一些 MSA 不夠深的情況,難以被抽取特征學(xué)習(xí);還有大量根據(jù)功能生成氨基酸序列的抗體和蛋白藥設(shè)計(jì),也不包含任何 MSA 信息,TRFold-Single 可以提供一個(gè)更加有效的預(yù)測(cè)工具,突破蛋白質(zhì)同源進(jìn)化信息有限的局面,加速此類蛋白的結(jié)構(gòu)預(yù)測(cè)優(yōu)化和設(shè)計(jì)流程,推動(dòng)生成更有效的滿足目標(biāo)功能的特定蛋白質(zhì)。
抗體是由于抗原刺激產(chǎn)生的具有保護(hù)作用的單向進(jìn)化蛋白質(zhì),從作用原理來說本身不存在共進(jìn)化信息。在此種情況下,TRFold-Single 可以直接預(yù)測(cè)其關(guān)鍵結(jié)構(gòu) CDR 功能區(qū)域,這對(duì)由配體相互作用而產(chǎn)生結(jié)構(gòu)的大分子藥物設(shè)計(jì)來說有重要意義。 此外,天壤XLab 團(tuán)隊(duì)選用86個(gè)結(jié)構(gòu)已被解析的設(shè)計(jì)蛋白質(zhì)進(jìn)行預(yù)測(cè)評(píng)測(cè),AlphaFold2 預(yù)測(cè)結(jié)果為82.6,而TRFold-Single預(yù)測(cè)性能更優(yōu),平均分值達(dá)86.2,在非天然蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面更具優(yōu)勢(shì)。
復(fù)合體結(jié)構(gòu)預(yù)測(cè)與設(shè)計(jì) 深入研究蛋白質(zhì)相互作用原理
能夠非??焖俚念A(yù)測(cè)一個(gè)單鏈蛋白質(zhì)還不夠。蛋白質(zhì)很多時(shí)候以復(fù)合物的形式成組地發(fā)揮功能,比如和其他小分子或者蛋白質(zhì)進(jìn)行相互作用,才能夠完成生物體生存所需的種種任務(wù)。 相比單鏈結(jié)構(gòu)的預(yù)測(cè),復(fù)合物中氨基酸總數(shù)大大增加,所需的計(jì)算機(jī)內(nèi)存和算力更是迅速增加。天壤XLab 通過空間采樣的增強(qiáng)方式增加訓(xùn)練數(shù)據(jù)多樣性,啟發(fā)式搜索解決多鏈錯(cuò)配和蛋白質(zhì)手性問題,通過分子動(dòng)力學(xué)力場(chǎng)優(yōu)化結(jié)合表面原子結(jié)構(gòu),獲得準(zhǔn)確的蛋白質(zhì)相互作用信息,去繪制細(xì)胞內(nèi)蛋白質(zhì)相互作用通路圖。
以 AI 為主導(dǎo),天壤XLab 已構(gòu)建了TRFold (withMSA) 、TRFold-Single、TRDesign、TRComplex 四大核心能力,目前正積極推進(jìn)實(shí)驗(yàn)驗(yàn)證。后續(xù)我們將對(duì)外開放完整的蛋白質(zhì)設(shè)計(jì)開發(fā)平臺(tái),希望將技術(shù)賦能產(chǎn)業(yè),協(xié)同更多伙伴一起為應(yīng)對(duì)新藥開發(fā)、疾病研究、抗體設(shè)計(jì)、酶設(shè)計(jì)與優(yōu)化及其他未被滿足的工業(yè)、農(nóng)業(yè)需求和挑戰(zhàn)做出貢獻(xiàn)。