新型冠狀病毒全球累計確診已超過400萬人,疫苗是終結(jié)疫情的關(guān)鍵勝負手。在所有正在研發(fā)的疫苗路徑中,研發(fā)速度更快、更具潛力的mRNA疫苗作為一種新興技術(shù)受到了國內(nèi)外的重點關(guān)注。但同時,mRNA疫苗由于穩(wěn)定性不足容易在保存、運輸中降解,也成為制約疫苗大規(guī)模推廣和使用最亟待解決的問題。
現(xiàn)在,這個困擾世界頂級疫苗公司和學(xué)界的生物學(xué)難題有望通過AI解決!5月13日,百度研究院重磅推出全球首個mRNA疫苗基因序列設(shè)計算法LinearDesign。該算法能夠在理論上設(shè)計出結(jié)構(gòu)最穩(wěn)定、蛋白質(zhì)表達效率最高的mRNA序列,而這只需要90分鐘。如果進一步應(yīng)用線性時間近似算法,時間更可以縮短到16分鐘!
美國羅徹斯特大學(xué)生物化學(xué)與生理系教授Dr. David H. Mathews表示:“LinearDesign的優(yōu)勢在于速度!它能夠快速提供一系列的優(yōu)良序列,研究者可以進一步通過實驗來測試其穩(wěn)定性是否足以充當(dāng)疫苗?!?/p>
事實上,從能夠轉(zhuǎn)譯同一種蛋白質(zhì)的眾多同源序列中找到二級結(jié)構(gòu)足夠穩(wěn)定、密碼子足夠優(yōu)化的mRNA序列挑戰(zhàn)難度是相當(dāng)巨大的。以新型冠狀病毒為例,它的刺突蛋白(抗原)共有1273氨基酸,能翻譯成刺突蛋白的mRNA序列有10的632次方之多!
遍歷所有可能?這顯然難以完成。
假設(shè)一臺超級計算機能做到一秒鐘計算一個mRNA結(jié)構(gòu),那么從宇宙形成開始計算到現(xiàn)在,計算140億年,連mRNA序列所有可能的億萬分之一都無法算完!
要找出最優(yōu)的mRNA,科學(xué)家們的傳統(tǒng)做法是隨機改變序列,再看看是否有益。當(dāng)前,科學(xué)界也在尋找解決問題的不同策略,比如,卡耐基梅隆大學(xué)和斯坦福大學(xué)聯(lián)合百度合作開發(fā)的平臺Eterna,就旨在在通過解謎的方式吸引全球玩家共同設(shè)計安全穩(wěn)定的mRNA。Eterna平臺所使用的,正是今年1月底百度開放的LinearFold算法作為其結(jié)構(gòu)分析引擎。
LinearFold是十分成功的實驗性項目,它將生物學(xué)上的難題成功轉(zhuǎn)化為形式語言理論和計算機語言學(xué)上的經(jīng)典問題。在LinearFold的啟發(fā)之下,百度研究院的研究團隊想到了不只是結(jié)構(gòu)分析,而可以進一步運用計算機科學(xué)來設(shè)計出更穩(wěn)定、蛋白質(zhì)表達水平更高的mRNA序列。由此,LinearDesign應(yīng)運而生。
針對多達10的632次方mRNA序列,LinearDesign采用了動態(tài)規(guī)劃算法來縮小搜索空間。我們知道直到AlphaGo出來之前,AI一直都無法戰(zhàn)勝人類棋手,主要原因就是圍棋的搜索空間太大了,有3的19x19次方個狀態(tài),約合10的172次方??梢钥吹剑琺RNA序列設(shè)計問題的搜索空間遠遠大于下圍棋的搜索空間。
而LinearDesign的動態(tài)規(guī)劃算法首先用確定有限狀態(tài)自動機(DFA)來表達氨基酸和蛋白質(zhì),這樣不同位置上密碼子的選擇就可以抽象為計算理論中常用的DFA圖。如下圖,分別把三種氨基酸(A: methionine, B: valine, C: serine)以及終止密碼子(D)抽象為DFA圖。
在此基礎(chǔ)上,將氨基酸的DFA串聯(lián)起來,即可得到一段蛋白質(zhì)序列的DFA圖。如下圖是示例序列“methionineleucine stop”的DFA圖。
接下來,我們需要通過DFA來找出二級結(jié)構(gòu)最穩(wěn)定的mRNA序列。在這里,百度研究院借用了通常用于計算機語言學(xué)的常見工具,也就是隨機上下文無關(guān)文法(SCFG),用于指代RNA折疊。RNA二級結(jié)構(gòu)可以通過SCFG構(gòu)建語法樹來表示。
mRNA疫苗序列設(shè)計優(yōu)化問題實際上是將單個RNA序列的二級結(jié)構(gòu)計算(RNAfolding)推廣到多個RNA序列。在用DFA抽象表示多個RNA序列后,研究人員通過取DFA與SCFG的交集,來從多個mRNA序列中找到具有最穩(wěn)定二級結(jié)構(gòu)的序列。
從上圖的新型冠狀病毒突刺蛋白實驗結(jié)果可以看出,對比最左側(cè)圖A自然界存在抗體所對應(yīng)的mRNA序列,右邊人工智能設(shè)計的二級結(jié)構(gòu)非常緊密。其中的全局最優(yōu)序列圖C,設(shè)計時間只需要1.6小時!而如果進一步應(yīng)用線性時間近似算法,如圖B其設(shè)計時間將縮短到16分鐘。這項技術(shù)同樣適用于所有mRNA疫苗設(shè)計。
疫苗研發(fā)是一項耗時耗力的全世界性難題,運用人工智能,計算機科學(xué)技術(shù)疫苗研發(fā)正在不斷加速。目前,百度研究院已將LinearDesign網(wǎng)站免費開放,同時相關(guān)論文已發(fā)布于arXiv,全球研究機構(gòu)及疫苗研發(fā)企業(yè)均可使用。百度已與中國疾病預(yù)防控制中心病毒病預(yù)防控制所簽署戰(zhàn)略合作協(xié)議,后續(xù)也將使用百度LinearDesign算法設(shè)計的mRNA疫苗序列進行體外實驗,驗證疫苗的穩(wěn)定性和蛋白質(zhì)表達效率。相信在全球研究者的共同努力下,疫苗研發(fā)進度將不斷提速。
責(zé)任編輯:pj
-
AI
+關(guān)注
關(guān)注
88文章
35136瀏覽量
279795 -
百度
+關(guān)注
關(guān)注
9文章
2335瀏覽量
92219 -
引擎
+關(guān)注
關(guān)注
1文章
366瀏覽量
22998
發(fā)布評論請先 登錄
任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進來呢?
高壓功率放大器在生物和超聲領(lǐng)域中的作用和實驗

安科瑞能效管理系統(tǒng)在生物制藥智能化的應(yīng)用研究
IBM Spectrum LSF在生命科學(xué)和生物制藥領(lǐng)域的應(yīng)用
安泰:1600V高電壓放大器生物研究超聲測試怎么做

DFT在生物信號分析中的應(yīng)用
ATA-4014C高壓功率放大器在生物MEMS技術(shù)研究中的應(yīng)用

安泰功率放大器+溶血換能器在生物醫(yī)療領(lǐng)域中的具體應(yīng)用

微流控技術(shù)的生物學(xué)應(yīng)用
高光譜成像技術(shù)在生物物證領(lǐng)域的研究進展2.0

評論