一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在化學(xué)和材料科學(xué)領(lǐng)域開(kāi)展有影響力的人工智能研究?(一)

向欣電子 ? 2024-12-03 01:02 ? 次閱讀

寫(xiě)在開(kāi)頭

近期,我有幸參加了多場(chǎng)既包括學(xué)術(shù)研討又涵蓋業(yè)界實(shí)踐的會(huì)議,這些會(huì)議都集中討論了人工智能與科學(xué)的結(jié)合。而通過(guò)這些深入的交流讓我深刻體會(huì)到,在科學(xué)技術(shù)領(lǐng)域中,尤其是‘AI for Science(AI4S)’和‘Science for AI(S4AI)’這兩個(gè)方向,人工智能的重要性正日益凸顯,并且發(fā)展勢(shì)頭迅猛。為了更深入地理解這一領(lǐng)域的最新動(dòng)態(tài)和應(yīng)用,我投入了大量的時(shí)間和精力進(jìn)行了學(xué)習(xí)和研究。在這個(gè)過(guò)程中,我意外發(fā)現(xiàn)了一篇名為《How to do impactful research in artificialintelligencefor chemistry and materials science》[1]的綜述文章,它不僅提供了一個(gè)關(guān)于人工智能在化學(xué)和材料科學(xué)領(lǐng)域應(yīng)用的全面的視角,而且還涵蓋了當(dāng)前的研究進(jìn)展、面臨的挑戰(zhàn)以及未來(lái)的發(fā)展方向等內(nèi)容。

文章首先深入探討了人工智能在化學(xué)和材料科學(xué)領(lǐng)域中的應(yīng)用現(xiàn)狀及未來(lái)發(fā)展趨勢(shì)。然后列舉了機(jī)器學(xué)習(xí)在化學(xué)領(lǐng)域的多種應(yīng)用,包括從預(yù)測(cè)分子性質(zhì)到設(shè)計(jì)合成路線,再到模擬和分析,覆蓋了化學(xué)研究的諸多方面。此外,論文還分析了機(jī)器學(xué)習(xí)研究者如何看待和解決具體的化學(xué)問(wèn)題,其中將這些問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的經(jīng)典問(wèn)題,如回歸、分類(lèi)、生成模型和智能體等,并探討了基準(zhǔn)測(cè)試、跨學(xué)科合作以及深度學(xué)習(xí)中的“慘痛的教訓(xùn)”等關(guān)鍵主題。

更重要的是,論文指出了選擇有影響力的機(jī)器學(xué)習(xí)研究問(wèn)題的標(biāo)準(zhǔn),以及進(jìn)行有效研究所需的步驟——包括數(shù)據(jù)收集、問(wèn)題框架制定、方法選擇和結(jié)果評(píng)估。文章強(qiáng)調(diào)機(jī)器學(xué)習(xí)在化學(xué)領(lǐng)域發(fā)展的三個(gè)關(guān)鍵方向:廣度、深度和規(guī)模,并呼吁化學(xué)家與機(jī)器學(xué)習(xí)研究者之間的緊密合作,以解決更復(fù)雜和具挑戰(zhàn)性的科學(xué)問(wèn)題。

接下來(lái),我將逐步分享這篇綜述文獻(xiàn)的內(nèi)容。由于編譯后的內(nèi)容篇幅較長(zhǎng),因此我計(jì)劃將其分為三個(gè)部分來(lái)逐一呈現(xiàn)。首先是第一部分編譯的內(nèi)容,如下:

第一部分編譯后的內(nèi)容:

摘要:機(jī)器學(xué)習(xí)已經(jīng)廣泛地影響了多個(gè)科學(xué)領(lǐng)域,包括化學(xué)和材料科學(xué)。盡管機(jī)器學(xué)習(xí)已經(jīng)產(chǎn)生了顯著的影響,但其潛力和成熟度尚未完全發(fā)揮出來(lái)。在這篇文章中,我們首先概述了機(jī)器學(xué)習(xí)在化學(xué)領(lǐng)域中各種問(wèn)題在當(dāng)前的應(yīng)用情況。然后,我們討論了機(jī)器學(xué)習(xí)研究者應(yīng)該如何看待和處理該領(lǐng)域的問(wèn)題。最后,我們提出了在化學(xué)研究中最大化機(jī)器學(xué)習(xí)影響的一些思考和看法。

1.引言

機(jī)器學(xué)習(xí)已經(jīng)在化學(xué)領(lǐng)域得到了廣泛的應(yīng)用,并且這種應(yīng)用正迅速增長(zhǎng)。盡管如此,我們認(rèn)為ML仍有更大的發(fā)展空間和應(yīng)用潛力。目前的工作尚未充分發(fā)揮機(jī)器學(xué)習(xí)在推動(dòng)化學(xué)理論和應(yīng)用方面的廣度、深度和規(guī)模潛力。此外,ML能夠解決的實(shí)際問(wèn)題類(lèi)型,如假設(shè)生成或促進(jìn)科學(xué)理解的內(nèi)化,依然是活躍的研究領(lǐng)域或未解決的問(wèn)題。

為了全面地了解這一領(lǐng)域,我們首先需要對(duì)化學(xué)問(wèn)題進(jìn)行分類(lèi),這些問(wèn)題涵蓋了預(yù)測(cè)、生成、合成、力場(chǎng)、光譜學(xué)、反應(yīng)優(yōu)化和基礎(chǔ)模型等多個(gè)領(lǐng)域。接著,我們介紹了機(jī)器學(xué)習(xí)中涉及的問(wèn)題類(lèi)型,并展示了化學(xué)問(wèn)題如何被重新構(gòu)思為機(jī)器學(xué)習(xí)問(wèn)題的實(shí)例。通過(guò)這些標(biāo)準(zhǔn)問(wèn)題,有助于整理出機(jī)器學(xué)習(xí)提供的算法和理論工具。在深入探討這一視角的基礎(chǔ)上,我們還研究了機(jī)器學(xué)習(xí)和化學(xué)社區(qū)在實(shí)踐和價(jià)值觀上的差異,強(qiáng)調(diào)了合作和交叉啟發(fā)的觀點(diǎn)如何推動(dòng)這兩個(gè)領(lǐng)域的發(fā)展。有了這些基礎(chǔ),我們可以討論如何選擇在化學(xué)中應(yīng)用機(jī)器學(xué)習(xí)的有影響力的應(yīng)用,并推薦了我們?cè)谶@一領(lǐng)域研究的良好實(shí)踐。

2.數(shù)據(jù)驅(qū)動(dòng)的化學(xué):?jiǎn)栴}分類(lèi)

對(duì)于化學(xué),以及科學(xué)總體而言,都涉及以某種形式存在的數(shù)據(jù)。因此,可以毫不奇怪地認(rèn)為,數(shù)據(jù)科學(xué)對(duì)化學(xué)是至關(guān)重要的。作為數(shù)據(jù)科學(xué)的一個(gè)子領(lǐng)域,機(jī)器學(xué)習(xí)已經(jīng)成為我們學(xué)科領(lǐng)域不可或缺的工具。因此,對(duì)迄今為止的重要工作進(jìn)行分類(lèi)和組織變得尤其重要了。

我們提出了一種關(guān)于機(jī)器學(xué)習(xí)在化學(xué)問(wèn)題中的應(yīng)用分類(lèi)法。如圖1所示,機(jī)器學(xué)習(xí)被用于通過(guò)對(duì)化學(xué)結(jié)構(gòu)、性質(zhì)、3D結(jié)構(gòu)與動(dòng)力學(xué)以及實(shí)驗(yàn)數(shù)據(jù)進(jìn)行編碼和解碼,從而解決各種化學(xué)問(wèn)題。由于篇幅、時(shí)間和重點(diǎn)的限制,這并不是一篇全面的綜述,而是一個(gè)強(qiáng)調(diào)機(jī)器學(xué)習(xí)在化學(xué)領(lǐng)域多樣化應(yīng)用的機(jī)會(huì)。我們不會(huì)詳細(xì)介紹機(jī)器學(xué)習(xí)算法。如需詳盡的評(píng)估,請(qǐng)參見(jiàn)其他文獻(xiàn)。

340f4682-b0cf-11ef-8084-92fbcf53809c.png

圖1:與機(jī)器學(xué)習(xí)相關(guān)的化學(xué)問(wèn)題分類(lèi)法。每個(gè)箭頭表示機(jī)器學(xué)習(xí)的應(yīng)用,并展示這些內(nèi)容之間的關(guān)系?;A(chǔ)模型和自動(dòng)化實(shí)驗(yàn)室涵蓋所有這些領(lǐng)域。

2.1 從結(jié)構(gòu)到性質(zhì):性質(zhì)預(yù)測(cè)

2.1.1 化學(xué)信息學(xué)與定量構(gòu)效關(guān)系。

化學(xué)領(lǐng)域在“機(jī)器學(xué)習(xí)”這一術(shù)語(yǔ)廣泛使用之前,就已經(jīng)開(kāi)始利用數(shù)據(jù)來(lái)預(yù)測(cè)化學(xué)結(jié)構(gòu)的性質(zhì)。這個(gè)領(lǐng)域最初被稱(chēng)為化學(xué)信息學(xué)。這些工具旨在存儲(chǔ)、檢索和建模化學(xué)結(jié)構(gòu)。早期的例子可以追溯到1957年,當(dāng)時(shí)進(jìn)行的是數(shù)據(jù)庫(kù)中的子結(jié)構(gòu)搜索,隨后便是簡(jiǎn)單的多元回歸,用于學(xué)習(xí)定量結(jié)構(gòu)-活性關(guān)系(QSAR),即分子描述符(如哈米特(Hammett)常數(shù)和分配系數(shù))與生物活性之間的關(guān)系。這些研究主要集中在性質(zhì)與活性之間的關(guān)系上——最早的結(jié)構(gòu)-活性關(guān)系涉及局部解釋?zhuān)治隽谁h(huán)上的取代基如何影響活性,這種分析可以通過(guò)子結(jié)構(gòu)分析推廣到許多不同的骨架。最終,計(jì)算機(jī)自動(dòng)將分子結(jié)構(gòu)編碼為指紋——一種位向量,用于存儲(chǔ)分子中存在或缺失的多種子結(jié)構(gòu)。這些指紋在編碼分子結(jié)構(gòu)以預(yù)測(cè)簡(jiǎn)單模型(如支持向量機(jī))中的分子活性方面非常有用。

2.1.2 使用專(zhuān)家描述符表示分子

盡管化學(xué)家對(duì)官能團(tuán)對(duì)分子性質(zhì)的影響有一定的概念理解,但將這些信息有效傳達(dá)給模型是確保模型具備預(yù)測(cè)能力的關(guān)鍵。專(zhuān)家描述符將來(lái)自實(shí)驗(yàn)或理論知識(shí)的化學(xué)信息注入到模型特征中,并在數(shù)據(jù)量較少的情況下取得了良好的預(yù)測(cè)性能。這些專(zhuān)家描述符在模型訓(xùn)練集之外也具有很好的泛化能力,因?yàn)檫@些特征蘊(yùn)含了豐富的化學(xué)知識(shí)。早在1937年,哈米特(Hammett)就擬合了σ參數(shù),以預(yù)測(cè)化學(xué)取代基對(duì)反應(yīng)性的影響。此外,組分貢獻(xiàn)方法假設(shè)結(jié)構(gòu)組件或功能化在許多不同分子中表現(xiàn)相同,將這些組件參數(shù)化為可用于預(yù)測(cè)分子性質(zhì)的數(shù)值特征。自那時(shí)起,該領(lǐng)域發(fā)展出了涉及分子指紋識(shí)別技術(shù)以及用于預(yù)測(cè)的二維和三維的信息。近年來(lái),由于均相過(guò)渡金屬催化劑的性質(zhì)受到其附加配體強(qiáng)烈影響,因此對(duì)這些膦配體的結(jié)構(gòu)特征和電子特征進(jìn)行參數(shù)化也在催化劑性質(zhì)預(yù)測(cè)方面取得了成功。回顧歷史模型,最近的研究還成功地利用密度泛函理論(DFT)和機(jī)器學(xué)習(xí)來(lái)學(xué)習(xí)哈米特(Hammett)參數(shù)。

2.1.3 學(xué)習(xí)化學(xué)表示

隨著計(jì)算硬件的進(jìn)步,模型變得愈加復(fù)雜,從簡(jiǎn)單的線性回歸模型發(fā)展到諸如自編碼器、生成對(duì)抗網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)和變換器等復(fù)雜架構(gòu)。我們不再依賴(lài)化學(xué)家直觀判斷分子的最佳表示方式,而是可以利用模型自動(dòng)學(xué)習(xí)并挖掘大量數(shù)據(jù)中的復(fù)雜模式,以進(jìn)行性質(zhì)預(yù)測(cè)。在一定程度的抽象下,這種方法往往忽視三維信息或波函數(shù)特性,分子可以自然地表示為圖,其中原子是節(jié)點(diǎn),鍵是邊。通過(guò)將指紋的概念從離散比特向量擴(kuò)展到連續(xù)特征向量,我們提出了圖神經(jīng)網(wǎng)絡(luò),以自動(dòng)學(xué)習(xí)重要子結(jié)構(gòu)的連續(xù)表征,并在分子性質(zhì)預(yù)測(cè)任務(wù)中取得了最先進(jìn)的性能。這些表征已廣泛應(yīng)用于多個(gè)領(lǐng)域,例如用于分子的嗅覺(jué)性質(zhì)的機(jī)器學(xué)習(xí),以及在催化中預(yù)測(cè)吸附物的吸附性質(zhì)。

雖然構(gòu)建圖所需的簡(jiǎn)單原子特征和鍵特征可以迅速生成,但要進(jìn)行預(yù)測(cè)的性質(zhì)卻更難以獲取,尤其是在高質(zhì)量和高準(zhǔn)確度方面。由于學(xué)習(xí)到的表示通常需要大量的數(shù)據(jù),因此復(fù)雜的架構(gòu)在從典型實(shí)驗(yàn)設(shè)置中收集到的少量數(shù)據(jù)上表現(xiàn)并不理想。為了填補(bǔ)這一空白,研究人員創(chuàng)建了分子基準(zhǔn),以便能夠正確評(píng)估這些學(xué)習(xí)到的表示的質(zhì)量。這些基準(zhǔn)包含了來(lái)自文獻(xiàn)的數(shù)據(jù)任務(wù),涉及預(yù)測(cè)生物行為以及物理化學(xué)性質(zhì)或量子化學(xué)性質(zhì),并提供了一個(gè)共同的平臺(tái),使不同的機(jī)器學(xué)習(xí)架構(gòu)能夠以多種方式利用相同的數(shù)據(jù)進(jìn)行性質(zhì)預(yù)測(cè)。

為了提升圖嵌入的性能,如果我們對(duì)如何調(diào)整嵌入空間以更好地反映輸入之間的距離有一些直觀理解,就可以進(jìn)一步優(yōu)化這些嵌入。這可以包括一些策略,例如使嵌入意識(shí)到化學(xué)反應(yīng)如何轉(zhuǎn)化這些嵌入,或者采用對(duì)比學(xué)習(xí)等方法。最后,對(duì)于那些對(duì)分子在三維空間中構(gòu)象敏感的任務(wù),將三維表示與固有不足的二維圖結(jié)合起來(lái),已被證明在預(yù)測(cè)分子性質(zhì)方面是有效的。

2.1.4 限制和未解決的問(wèn)題

盡管分子機(jī)器學(xué)習(xí)取得了巨大進(jìn)展,但是機(jī)器學(xué)習(xí)模型在超出其訓(xùn)練數(shù)據(jù)范圍時(shí)的泛化能力仍然有限,這給在新型化學(xué)領(lǐng)域應(yīng)用帶來(lái)了困難。有幾種方法可能有助于彌補(bǔ)這些差距。例如,可以使用物理信息模型,這些模型能夠包含一些基本表示,從而幫助模型更好地概括自身的表示,以滿足與自然物理法則相關(guān)的一些對(duì)稱(chēng)性或特性。主動(dòng)學(xué)習(xí)也是一種強(qiáng)大的工具,它可以通過(guò)捕獲計(jì)算或?qū)嶒?yàn)數(shù)據(jù)來(lái)動(dòng)態(tài)擴(kuò)展數(shù)據(jù)集,以實(shí)現(xiàn)外推。此外,雖然模型在性質(zhì)預(yù)測(cè)基準(zhǔn)任務(wù)中的表現(xiàn)逐漸改善,但這些基準(zhǔn)僅代表了化學(xué)任務(wù)的一個(gè)小子集,因此它們?cè)谄渌唧w任務(wù)上的表現(xiàn)仍不明確。盡管我們嘗試創(chuàng)建更具代表性的基準(zhǔn),但這仍然不是社區(qū)的主要關(guān)注點(diǎn)。

結(jié)構(gòu)-性質(zhì)模型已被廣泛應(yīng)用于篩選項(xiàng)目中,并實(shí)現(xiàn)了一些經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的預(yù)測(cè)。我們將在第2.2.1節(jié)中討論幾個(gè)精選案例研

2.2 從性質(zhì)到結(jié)構(gòu):設(shè)計(jì)分子的化學(xué)空間

理性設(shè)計(jì)范式分析了結(jié)構(gòu)與性質(zhì)之間的關(guān)系,以便設(shè)計(jì)出有前景的分子。而另一種范式提出的問(wèn)題是:有哪些分子能夠滿足給定的性質(zhì)?解決這個(gè)問(wèn)題被稱(chēng)為逆向設(shè)計(jì)問(wèn)題。

化學(xué)空間是所有可合成分子的集合,通常認(rèn)為其規(guī)模龐大,至少有10^33到10^60個(gè)分子。在這片廣闊的空間中,潛在藥物可能治愈當(dāng)前疾病,而某些假設(shè)材料則可能為實(shí)現(xiàn)可持續(xù)的未來(lái)提供支持。

2.2.1 虛擬篩選

在導(dǎo)航化學(xué)空間的過(guò)程中,一種簡(jiǎn)單的方法是首先列出一系列可行的選擇,然后逐步縮減至最佳解決方案。為實(shí)現(xiàn)這種轉(zhuǎn)變,實(shí)驗(yàn)上采用了高通量篩選和合成化學(xué)庫(kù)中化合物的組合化學(xué)等策略??紤]到化學(xué)空間的巨大規(guī)模,隨意搜索化合物只會(huì)產(chǎn)生少量有希望的結(jié)果,導(dǎo)致效率低下,因?yàn)閺V泛的化學(xué)合成活動(dòng)的成本往往是高昂的或受限的。這促使了虛擬篩選和計(jì)算搜索漏斗作為一種方法,以過(guò)濾出不太有可能的化合物,僅留下最佳的候選化合物進(jìn)行合成和測(cè)試。在藥物發(fā)現(xiàn)中,計(jì)算機(jī)輔助的簡(jiǎn)單篩選可以排除高分子量或帶有問(wèn)題官能團(tuán)的化合物,然后再進(jìn)行更為計(jì)算密集的對(duì)接,以估計(jì)結(jié)合親和力,最終縮小到少數(shù)先導(dǎo)化合物。隨著虛擬庫(kù)規(guī)模的擴(kuò)大增加了有希望結(jié)果出現(xiàn)的可能性,這推動(dòng)了越來(lái)越大規(guī)模的篩選活動(dòng),同時(shí)也需要越來(lái)越多的計(jì)算資源。例如,在哈佛清潔能源項(xiàng)目中,我們通過(guò)分布式志愿者計(jì)算進(jìn)行了量子化學(xué)計(jì)算,搜索了10^7^個(gè)候選分子以尋找高效的有機(jī)光伏材料。

類(lèi)似地,VirtualFlow通過(guò)高效利用數(shù)千個(gè)CPU核心對(duì)超過(guò)10億個(gè)分子進(jìn)行了對(duì)接。隨著化學(xué)庫(kù)規(guī)模的增長(zhǎng),所需的計(jì)算資源呈線性增加,而評(píng)估個(gè)別合成構(gòu)件適應(yīng)性的分層方法為突破線性擴(kuò)展提供了一種途徑。

2.2.2 生成模型的逆向設(shè)計(jì)

隨著化學(xué)庫(kù)的規(guī)模超過(guò)10^15個(gè)分子,篩選這些分子在計(jì)算上變得極為困難,機(jī)器學(xué)習(xí)(ML, Machine Learning)提供了一種在不模擬所有分子的情況下考慮大搜索空間的方法。例如,在一個(gè)化學(xué)庫(kù)中,許多分子應(yīng)該具有相似的結(jié)構(gòu)和性質(zhì),因此對(duì)每個(gè)分子進(jìn)行模擬是不必要的。處理這一問(wèn)題的一種正式方法是先模擬庫(kù)中的一部分,然后在這個(gè)子集上訓(xùn)練性質(zhì)預(yù)測(cè)模型,這些模型應(yīng)能夠推廣到整個(gè)庫(kù)。由于這些性質(zhì)預(yù)測(cè)模型的計(jì)算成本低于模擬,因此可以對(duì)整個(gè)庫(kù)進(jìn)行評(píng)估,并用于優(yōu)先選擇候選分子進(jìn)行模擬。我們利用這一方法設(shè)計(jì)了經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證的有機(jī)發(fā)光二極管OLEDs)。

然而,機(jī)器學(xué)習(xí)的另一種方法則提供了一種考慮所有(或大部分)化學(xué)空間的方式。給定一個(gè)以SMILES字符串表示的分子數(shù)據(jù)集,生成模型學(xué)習(xí)生成與該數(shù)據(jù)集相似的字符串。由于生成模型可以考慮任意字符串,它們有潛力生成化學(xué)空間中的任何分子。同時(shí),它們也可以被條件化,以生成具有所需性質(zhì)的分子——本質(zhì)上是逆轉(zhuǎn)性質(zhì)預(yù)測(cè)過(guò)程。分子生成模型已應(yīng)用于多種模型類(lèi)別,我們率先使用變分自編碼器(VAEs)來(lái)實(shí)現(xiàn)這一目的。其他例子包括自回歸模型、生成對(duì)抗網(wǎng)絡(luò)(GANs)和強(qiáng)化學(xué)習(xí)等眾多采樣策略。此外,生成模型還擴(kuò)展到各種表示形式,如SMILES、SELFIES,以及分子圖和片段等。盡管遺傳算法和貝葉斯優(yōu)化等分子優(yōu)化方法有時(shí)也被稱(chēng)為生成模型,但它們并不直接學(xué)習(xí)分子的分布。關(guān)于不同生成模型類(lèi)別和表示形式的最新綜述可見(jiàn)于Gao等人的研究[2],盡管這一領(lǐng)域正在迅速地發(fā)展。

隨著越來(lái)越多的生成模型被提出,基準(zhǔn)測(cè)試如GuacaMol和MOSES開(kāi)始根據(jù)有效性、新穎性、獨(dú)特性以及目標(biāo)導(dǎo)向優(yōu)化來(lái)評(píng)估和比較不同的生成模型。優(yōu)化已成為主要焦點(diǎn),因此可以將分子設(shè)計(jì)視為在分子圖空間內(nèi)對(duì)其性質(zhì)進(jìn)行組合優(yōu)化。在這種背景下,一個(gè)新的基準(zhǔn)強(qiáng)調(diào)樣本效率,即達(dá)到最佳分子所需進(jìn)行性質(zhì)評(píng)估的數(shù)量。此外,我們最近在Tartarus基準(zhǔn)集中提出了更現(xiàn)實(shí)的基準(zhǔn)任務(wù),這些任務(wù)依賴(lài)于模擬,更加貼近計(jì)算資源和實(shí)驗(yàn)資源受限的實(shí)際場(chǎng)景。

然而,當(dāng)生成模型超越化學(xué)庫(kù)覆蓋整個(gè)化學(xué)空間時(shí),它們放寬了合成性的關(guān)鍵約束。這意味著這些生成模型可能會(huì)產(chǎn)生一些難以合成和評(píng)估的分子。為了克服這個(gè)問(wèn)題,可合成的生成模型在產(chǎn)生新分子時(shí)會(huì)考慮化學(xué)合成路徑,從而確保所產(chǎn)生的新型分子不僅理論上有效,而且在實(shí)踐中也是可合成的。另外,一些方法結(jié)合虛擬庫(kù)與生成技術(shù),以確保提出的新型分子始終來(lái)自于已有庫(kù)。這些方法對(duì)于高通量陣列和自動(dòng)化實(shí)驗(yàn)室尤其重要,因?yàn)槿绻A(yù)測(cè)出的新型分子無(wú)法在現(xiàn)有平臺(tái)上合成,將可能延緩閉環(huán)方法的發(fā)展。

關(guān)于這些進(jìn)展及當(dāng)前領(lǐng)域內(nèi)最新動(dòng)態(tài),Du等人提供了出色綜述,總結(jié)了該領(lǐng)域最新的發(fā)展與方法。[3]

近年來(lái),生成模型已證明其價(jià)值。其中值得注意的是InSilico Medicine公司利用這些模型成功開(kāi)發(fā)了幾種正在進(jìn)行臨床試驗(yàn)的新藥。在2019年,我們與InSilico及中國(guó)無(wú)錫藥明康德公司的研究人員共同展示了利用生成模型在約45天內(nèi)開(kāi)發(fā)出領(lǐng)先藥物候選者的能力。從那時(shí)起,許多研究人員繼續(xù)展示其他使用生成模型進(jìn)行藥物發(fā)現(xiàn)的新案例。例如,Barzilay及其同事采用類(lèi)似的方法開(kāi)發(fā)了抗生素。

2.2.3 限制和未解決的問(wèn)題

雖然這樣的模型能夠輕松生成候選者,但候選者的質(zhì)量取決于能否開(kāi)發(fā)出一個(gè)表現(xiàn)良好且可擴(kuò)展的成本函數(shù),以對(duì)生成模型進(jìn)行條件設(shè)置。此外,這些模型是基于近似度量進(jìn)行訓(xùn)練的,這意味著它們?cè)趯?shí)際應(yīng)用中的表現(xiàn)仍需評(píng)估。因此,評(píng)估候選者的可合成性或提供生成候選者的具體步驟至關(guān)重要(見(jiàn)下一節(jié))。

大多數(shù)生成模型的開(kāi)發(fā)通常以簡(jiǎn)單的基準(zhǔn)為目標(biāo),比如預(yù)測(cè)log P這樣簡(jiǎn)單的性質(zhì)。然而,使用合適的基準(zhǔn)(如Tartarus)進(jìn)行開(kāi)發(fā),或?qū)⑵湎拗圃诳珊铣傻姆肿蛹戏秶鷥?nèi),比如那些可以通過(guò)自動(dòng)化實(shí)驗(yàn)室合成的分子(參見(jiàn)第2.7節(jié)),仍然是一個(gè)挑戰(zhàn)。

2.3 從結(jié)構(gòu)到結(jié)構(gòu):合成規(guī)劃和反應(yīng)條件預(yù)測(cè)

合成規(guī)劃——即尋找能夠生成理想目標(biāo)分子的合成途徑——是化學(xué)家們?cè)谶^(guò)去一個(gè)多世紀(jì)中面臨的一個(gè)持續(xù)挑戰(zhàn),尤其是在藥物發(fā)現(xiàn)、農(nóng)業(yè)化學(xué)或分子材料化學(xué)等“分子世界”領(lǐng)域。這個(gè)問(wèn)題在兩個(gè)方面都非常復(fù)雜:首先,給定所有反應(yīng)物、試劑和反應(yīng)條件,預(yù)測(cè)特定未見(jiàn)反應(yīng)的結(jié)果至今仍然是一個(gè)未解決的問(wèn)題。其次,即使擁有這樣的“反應(yīng)預(yù)測(cè)”工具,尋找可行的多步驟反應(yīng)序列,以便最終從廉價(jià)且可商業(yè)獲得的前體合成目標(biāo)分子,還需要在龐大的可能途徑網(wǎng)絡(luò)中進(jìn)行搜索。此外,合成規(guī)劃問(wèn)題還面臨來(lái)自實(shí)際需求的額外挑戰(zhàn):效率、成本、廢物產(chǎn)生、可持續(xù)性、安全性和毒性等都是在工業(yè)環(huán)境中特別需要關(guān)注的重要問(wèn)題。

2.3.1 合成規(guī)劃

合成規(guī)劃通常采用逆合成的方法進(jìn)行,這一方法由諾貝爾獎(jiǎng)獲得者E.J. 科里首創(chuàng)。通過(guò)利用化學(xué)反應(yīng)性的知識(shí),將目標(biāo)分子逐漸被分解為越來(lái)越簡(jiǎn)單的前體,最終得到在市場(chǎng)上可購(gòu)買(mǎi)的起始材料。形式上,這相當(dāng)于一個(gè)樹(shù)搜索問(wèn)題。早在1960年代,科里就意識(shí)到這種方法非常適合以計(jì)算方式進(jìn)行處理。從那時(shí)起,已經(jīng)開(kāi)發(fā)了多種專(zhuān)家系統(tǒng)來(lái)指導(dǎo)這一樹(shù)搜索過(guò)程。

在過(guò)去十年里,利用機(jī)器學(xué)習(xí)工具箱應(yīng)對(duì)這一挑戰(zhàn)取得了顯著進(jìn)展。在這種情況下,關(guān)鍵的“決策策略”通常被視為一個(gè)多任務(wù)回歸問(wèn)題:給定目標(biāo)分子的結(jié)構(gòu),訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型以預(yù)測(cè)從反應(yīng)目錄中適用的反應(yīng)。然而,這種符號(hào)化的方法需要一個(gè)預(yù)定義的包含所有反應(yīng)類(lèi)型的目錄,通常被稱(chēng)為反應(yīng)“規(guī)則”或“模板”,這本身又帶來(lái)了新的障礙。關(guān)于“反應(yīng)規(guī)則”這一術(shù)語(yǔ),并沒(méi)有一個(gè)普遍接受的定義,也沒(méi)有明確的程序來(lái)從數(shù)據(jù)中提取反應(yīng)規(guī)則。另一方面,“無(wú)模板”的方法針對(duì)一步反應(yīng)預(yù)測(cè)問(wèn)題,將反應(yīng)預(yù)測(cè)視為起始材料圖中的圖編輯,或者解決一個(gè)序列到序列的“產(chǎn)品到起始材料”的翻譯任務(wù)。值得注意的是,這些模型(無(wú)論是有模板還是無(wú)模板)可以在正向方向上進(jìn)行類(lèi)似的訓(xùn)練,即從起始材料預(yù)測(cè)反應(yīng)產(chǎn)物。

這些單步預(yù)測(cè)模型用于構(gòu)建樹(shù)搜索模型,以解決綜合規(guī)劃問(wèn)題。在這種情況下,蒙特卡洛樹(shù)搜索(Monte-Carlo tree search)通常是首選方法。繼Segler等人的開(kāi)創(chuàng)性工作和Coley等人的研究之后,就已經(jīng)發(fā)布了多個(gè)開(kāi)源的系統(tǒng)。

2.3.2 反應(yīng)條件的預(yù)測(cè)和優(yōu)化

在合成規(guī)劃中,常常被忽視的一點(diǎn)是,僅僅了解一種可能適用的反應(yīng)類(lèi)型,并不能保證所設(shè)想的中間體或目標(biāo)產(chǎn)品能夠從提議的起始材料中成功合成。產(chǎn)品是否能夠獲得(理想情況下是高產(chǎn)率),在很大程度上取決于通常所稱(chēng)的反應(yīng)條件:試劑、催化劑、添加劑和溶劑的選擇,連續(xù)參數(shù)(如計(jì)量比、溫度和反應(yīng)時(shí)間)的具體數(shù)值,以及實(shí)驗(yàn)室中進(jìn)行反應(yīng)時(shí)的實(shí)際操作細(xì)節(jié)。在理想情況下,一個(gè)人工智能輔助工具可以接收一個(gè)新的“起始材料到產(chǎn)品”的轉(zhuǎn)化,并輸出所需的反應(yīng)條件。然而,這一目標(biāo)尚未實(shí)現(xiàn),主要原因在于反應(yīng)條件涉及廣泛的組合參數(shù)空間,并且通常受到難以模擬的基本物理原理的影響。在實(shí)際操作中,反應(yīng)條件往往通過(guò)基于文獻(xiàn)先例的“最近鄰?fù)评怼眮?lái)選擇,這一過(guò)程可以是自動(dòng)化完成,也可能依賴(lài)于人類(lèi)專(zhuān)家的經(jīng)驗(yàn)。

機(jī)器學(xué)習(xí)方法在反應(yīng)條件優(yōu)化方面主要集中于將反應(yīng)產(chǎn)率作為反應(yīng)條件的函數(shù)進(jìn)行回歸建模。在這一背景下,數(shù)據(jù)驅(qū)動(dòng)方法與物理有機(jī)化學(xué)中的回歸技術(shù)相結(jié)合,試圖基于機(jī)理考慮來(lái)建模反應(yīng)結(jié)果。在高度受限的條件空間中,利用高通量實(shí)驗(yàn)系統(tǒng)生成的數(shù)據(jù)進(jìn)行的純數(shù)據(jù)驅(qū)動(dòng)監(jiān)督學(xué)習(xí)在產(chǎn)物產(chǎn)率方面顯示出了良好的效果。例如,我們?cè)趦?yōu)化與制藥工藝化學(xué)相關(guān)的反應(yīng)E/Z比率的研究中發(fā)現(xiàn),僅通過(guò)約100次實(shí)驗(yàn),我們便超越了人類(lèi)優(yōu)化這一過(guò)程時(shí)所達(dá)到的先進(jìn)水平。同時(shí),利用文獻(xiàn)數(shù)據(jù)進(jìn)行相同目的的研究通常存在嚴(yán)重缺陷,這往往需要對(duì)每個(gè)案例進(jìn)行單獨(dú)的反應(yīng)優(yōu)化(更詳細(xì)的討論見(jiàn)下文)。在過(guò)去十年中,黑箱優(yōu)化算法,尤其是貝葉斯優(yōu)化(Bayesian Optimization, BO),變得越來(lái)越重要。在貝葉斯優(yōu)化中,通過(guò)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行貝葉斯推斷來(lái)構(gòu)建用于預(yù)測(cè)反應(yīng)產(chǎn)率的概率模型。這些模型在整個(gè)優(yōu)化過(guò)程中以迭代方式指導(dǎo)決策。而基于機(jī)器學(xué)習(xí)的替代模型進(jìn)行迭代閉環(huán)優(yōu)化的方法將在第2.7節(jié)中進(jìn)一步討論。對(duì)于條件優(yōu)化,這些迭代方法在日益復(fù)雜的合成反應(yīng)場(chǎng)景中表現(xiàn)出顯著的效果。同時(shí),化學(xué)領(lǐng)域的特定挑戰(zhàn),例如識(shí)別對(duì)多種底物“普遍適用”的條件,而不僅僅是針對(duì)一兩個(gè)模型底物的條件,也推動(dòng)了該領(lǐng)域算法的發(fā)展。值得注意的是,我們?cè)阝從痉磻?yīng)方面的研究使得條件具有普遍適用性,并且其產(chǎn)率是該領(lǐng)域之前先進(jìn)水平的兩倍。

2.3.3 限制和未解決的問(wèn)題

盡管在過(guò)去十年中,基于機(jī)器學(xué)習(xí)的合成規(guī)劃領(lǐng)域取得了顯著的算法進(jìn)展,但其實(shí)際應(yīng)用仍然局限于開(kāi)發(fā)相對(duì)簡(jiǎn)單的目標(biāo)分子和短的合成路線。事實(shí)上,目前專(zhuān)家系統(tǒng)(即手動(dòng)編碼反應(yīng)類(lèi)型和適用規(guī)則的系統(tǒng))仍然是計(jì)算機(jī)輔助合成規(guī)劃的最先進(jìn)水平。特別是,Grzybowski 的 Chematica 系統(tǒng)(現(xiàn)已商業(yè)化為 Synthia)在復(fù)雜自然產(chǎn)品合成或供應(yīng)鏈意識(shí)的合成規(guī)劃中展現(xiàn)了令人矚目的實(shí)驗(yàn)應(yīng)用。原則上,基于機(jī)器學(xué)習(xí)的算法應(yīng)該能夠提供與這些專(zhuān)家系統(tǒng)相似或更優(yōu)的合成路線,但目前存在的問(wèn)題主要?dú)w因于可用合成數(shù)據(jù)質(zhì)量和數(shù)量上的不足,以及從數(shù)據(jù)中提取結(jié)構(gòu)化知識(shí)時(shí)所面臨的算法限制。我們和其他研究者最近對(duì)此進(jìn)行了廣泛討論。

在反應(yīng)結(jié)果和反應(yīng)條件預(yù)測(cè)的背景下,類(lèi)似的數(shù)據(jù)限制問(wèn)題也被討論過(guò)。專(zhuān)利數(shù)據(jù)以及商業(yè)數(shù)據(jù)庫(kù)在數(shù)據(jù)報(bào)告的準(zhǔn)確性、一致性或結(jié)構(gòu)化方面存在嚴(yán)重問(wèn)題,這不僅是由于錯(cuò)誤數(shù)據(jù)、不一致數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)的存在,還因?yàn)樵趫?bào)告的實(shí)驗(yàn)中,人類(lèi)偏見(jiàn)的影響,特別是對(duì)顯著條件的偏重和對(duì)低產(chǎn)率記錄的忽視,這些因素阻礙了從文獻(xiàn)數(shù)據(jù)中進(jìn)行反應(yīng)產(chǎn)率預(yù)測(cè)建模。社區(qū)驅(qū)動(dòng)的開(kāi)源數(shù)據(jù)庫(kù),例如開(kāi)放反應(yīng)數(shù)據(jù)庫(kù)(Open Reaction Database),代表了朝著更少偏見(jiàn)和更全面的數(shù)據(jù)收集邁出的重要一步——但這樣的倡議需要在合成有機(jī)化學(xué)實(shí)驗(yàn)室中采用更為數(shù)字化的思維方式,以便更好地生成、收集和報(bào)告數(shù)據(jù)。

數(shù)據(jù)不足的另一個(gè)后果是缺少具有代表性的基準(zhǔn)問(wèn)題集。這種情況尤其適用于多步驟合成規(guī)劃領(lǐng)域,在該領(lǐng)域中,迫切需要基準(zhǔn)來(lái)進(jìn)行合成規(guī)劃性能的更為定量的評(píng)估。同樣,化學(xué)反應(yīng)性?xún)?yōu)化算法也需要具有代表性的基準(zhǔn),以評(píng)估標(biāo)準(zhǔn)貝葉斯優(yōu)化算法如何適應(yīng)化學(xué)反應(yīng)性的復(fù)雜性。最重要的是,這些基準(zhǔn)必須反映專(zhuān)家化學(xué)家所識(shí)別的現(xiàn)實(shí)問(wèn)題,以激勵(lì)和推動(dòng)算法機(jī)器學(xué)習(xí)的進(jìn)展,從而應(yīng)對(duì)計(jì)算機(jī)輔助有機(jī)合成中的挑戰(zhàn)。

2.4 物理結(jié)構(gòu):模擬和三維結(jié)構(gòu)

機(jī)器學(xué)習(xí)使得數(shù)據(jù)驅(qū)動(dòng)的解決方案能夠應(yīng)用于實(shí)驗(yàn)問(wèn)題和計(jì)算問(wèn)題。在有機(jī)化學(xué)中,分子的2D分子圖結(jié)構(gòu)是重點(diǎn),而通過(guò)薛定諤方程,分子又建立在3D物理現(xiàn)實(shí)之上,這為預(yù)測(cè)分子性質(zhì)和相互作用提供了豐富的量子力學(xué)和統(tǒng)計(jì)力學(xué)理論。模擬方法如密度泛函理論(DFT)和分子動(dòng)力學(xué)(MD)可以利用這些理論來(lái)計(jì)算并預(yù)測(cè)分子的性質(zhì)和相互作用。然而,盡管計(jì)算能力不斷提升,這些模擬仍然計(jì)算成本高,這限制了它們只能在小系統(tǒng)和短時(shí)間尺度下進(jìn)行。而通過(guò)從眾多模擬結(jié)果中學(xué)習(xí),機(jī)器學(xué)習(xí)提供了一個(gè)獨(dú)特的機(jī)會(huì)來(lái)加速分子模擬。

2.4.1 神經(jīng)網(wǎng)絡(luò)勢(shì)

量子化學(xué)中的一個(gè)基本問(wèn)題是:對(duì)于給定一個(gè)分子,其在三維空間中表示為一組核點(diǎn),如何求解薛定諤方程,并預(yù)測(cè)總能量及每個(gè)原子所受的力。力的計(jì)算使我們能夠利用牛頓方程進(jìn)行向前推進(jìn)的動(dòng)態(tài)模擬。然而,對(duì)于分子系統(tǒng)而言,求解薛定諤方程既復(fù)雜又計(jì)算成本高昂,而模擬牛頓方程則需要在每個(gè)模擬幀上計(jì)算力。因此,科學(xué)家們通過(guò)將簡(jiǎn)單函數(shù)擬合到實(shí)驗(yàn)數(shù)據(jù)來(lái)近似這些力,從而產(chǎn)生了第一個(gè)參數(shù)化力場(chǎng),例如倫納德-瓊斯勢(shì)。半經(jīng)驗(yàn)?zāi)P徒Y(jié)合了更多實(shí)驗(yàn)擬合參數(shù),以便更準(zhǔn)確地預(yù)測(cè)能量和力。這些經(jīng)驗(yàn)力場(chǎng)使得經(jīng)典分子動(dòng)力學(xué)模擬成為可能,從而可以研究簡(jiǎn)單的蛋白質(zhì)。然而,要捕捉像化學(xué)反應(yīng)性這樣的行為,則需要考慮量子效應(yīng)。隨著計(jì)算能力的提升以及更快的模擬方法(如密度泛函理論(DFT))的出現(xiàn),最終使得在每個(gè)時(shí)間步上使用從頭分子動(dòng)力學(xué)求解薛定諤方程成為可能,但這需要付出巨大的計(jì)算成本。

神經(jīng)力場(chǎng)的引入帶來(lái)了顯著變化。通過(guò)對(duì)密度泛函理論(DFT)數(shù)據(jù)進(jìn)行訓(xùn)練,神經(jīng)網(wǎng)絡(luò)能夠直接從三維核坐標(biāo)預(yù)測(cè)能量和分子力,這使得分子動(dòng)力學(xué)可以以從頭計(jì)算的精度進(jìn)行模擬,同時(shí)大幅降低了計(jì)算成本。由于分子力必須對(duì)分子的旋轉(zhuǎn)保持等變性——也就是說(shuō),如果分子被旋轉(zhuǎn),分子力也必須“隨之旋轉(zhuǎn)”——這促使了保持這種對(duì)稱(chēng)性的等變神經(jīng)架構(gòu)的發(fā)展。在機(jī)器學(xué)習(xí)領(lǐng)域,神經(jīng)力場(chǎng)經(jīng)過(guò)了競(jìng)爭(zhēng)性的基準(zhǔn)測(cè)試,不斷比較不同的架構(gòu)和方法。Duval等人提供了這些等變架構(gòu)發(fā)展的詳細(xì)時(shí)間線。[4]隨著能量和力的數(shù)據(jù)集不斷增長(zhǎng),例如開(kāi)放催化基準(zhǔn),神經(jīng)力場(chǎng)也開(kāi)始追求普適性了。

2.4.2 預(yù)測(cè)波函數(shù)和電子密度

相較于使用力場(chǎng)來(lái)預(yù)測(cè)能量,另一種預(yù)測(cè)能量的方法是直接預(yù)測(cè)波函數(shù)或電子密度。這種方法的優(yōu)勢(shì)在于,波函數(shù)和電子密度不僅包含了能量信息,還涵蓋了系統(tǒng)的其他物理可觀測(cè)量。例如,可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)直接根據(jù)核坐標(biāo)來(lái)預(yù)測(cè)哈密頓矩陣。對(duì)哈密頓矩陣進(jìn)行對(duì)角化可以得到分子軌道,而這些分子軌道則構(gòu)成了波函數(shù)。此外,可以利用預(yù)測(cè)的波函數(shù)來(lái)初始化自洽場(chǎng)迭代,從而加快量子化學(xué)計(jì)算的收斂速度。最近的研究表明,神經(jīng)網(wǎng)絡(luò)可以被訓(xùn)練,使其輸出滿足自洽性方程,這樣就不再需要哈密頓矩陣的標(biāo)簽了。

此外,神經(jīng)網(wǎng)絡(luò)還可以作為假設(shè)形式,直接表示波函數(shù)。在這種情況下,網(wǎng)絡(luò)以電子坐標(biāo)為輸入,并輸出波函數(shù)幅度。采用相同的隨機(jī)優(yōu)化算法,神經(jīng)波函數(shù)可以被訓(xùn)練以最小化變分能量并滿足薛定諤方程。這種方法最近也擴(kuò)展到了激發(fā)態(tài)。

另一方面,在密度泛函理論中,也可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)直接根據(jù)給定的核坐標(biāo)來(lái)預(yù)測(cè)電荷密度。同時(shí),機(jī)器學(xué)習(xí)也被應(yīng)用于學(xué)習(xí)密度泛函。

2.4.3 預(yù)測(cè)和生成3D結(jié)構(gòu)

即使存在快速準(zhǔn)確的力場(chǎng),許多問(wèn)題仍然依賴(lài)于找到分子的能量?jī)?yōu)先構(gòu)象。然而,構(gòu)象空間依然非常龐大,特別是對(duì)于大型體系如蛋白質(zhì)而言,實(shí)際上是無(wú)法窮盡的。同樣,在建模化學(xué)反應(yīng)時(shí),龐大的構(gòu)象搜索空間使得識(shí)別過(guò)渡態(tài)變得具有挑戰(zhàn)。為解決這些問(wèn)題,機(jī)器學(xué)習(xí)方法可以直接預(yù)測(cè)和生成3D結(jié)構(gòu)。

大規(guī)模構(gòu)象搜索空間的復(fù)雜性促使生成模型用于引導(dǎo)這一空間的探索。無(wú)條件生成模型,如等變擴(kuò)散模型,能夠同時(shí)生成3D原子位置和原子類(lèi)型。在解決尋找給定分子穩(wěn)定的3D構(gòu)象問(wèn)題時(shí),原子類(lèi)型可能保持不變,生成則是基于2D分子圖的條件。一些方法可自由生成原子位置,而其他方法則生成可旋轉(zhuǎn)鍵的扭轉(zhuǎn)角度。最近的研究顯示,放棄扭轉(zhuǎn)和旋轉(zhuǎn)對(duì)稱(chēng)約束可能帶來(lái)更好的結(jié)果,盡管成本更高。有一個(gè)相關(guān)的任務(wù)被稱(chēng)為對(duì)接,即在蛋白質(zhì)口袋內(nèi)進(jìn)行配體的構(gòu)象搜索,以評(píng)估結(jié)合親和力。這一過(guò)程也已經(jīng)使用擴(kuò)散模型來(lái)來(lái)研究了。

在晶體結(jié)構(gòu)預(yù)測(cè)問(wèn)題中,目標(biāo)是找到給定組成的最穩(wěn)定周期性原子排列方式。傳統(tǒng)方法是通過(guò)搜索所有穩(wěn)定的原子坐標(biāo)和晶格矢量的排列組合來(lái)找到能量最低的結(jié)構(gòu)。而等變擴(kuò)散模型則為這一問(wèn)題提供了自然的解決方案,它可以同時(shí)擴(kuò)散坐標(biāo)和晶格參數(shù),并強(qiáng)加空間群約束以進(jìn)一步提升性能。實(shí)際上,將這種擴(kuò)散方法擴(kuò)展到大型數(shù)據(jù)集,使逆向設(shè)計(jì)能夠同時(shí)滿足多個(gè)期望的性質(zhì)。

在與生物分子模擬相關(guān)的領(lǐng)域中,三維結(jié)構(gòu)預(yù)測(cè)問(wèn)題普遍存在。長(zhǎng)期以來(lái),從蛋白質(zhì)序列預(yù)測(cè)折疊的三維蛋白質(zhì)結(jié)構(gòu)這一難題在一定程度上已通過(guò)AlphaFold及相關(guān)模型得到了有效解決。在此基礎(chǔ)上,擴(kuò)散模型生成了以剛性殘基序列表示的蛋白質(zhì)骨架。這些模型取得了顯著成功,甚至被用于設(shè)計(jì)滿足結(jié)構(gòu)約束的蛋白質(zhì),并經(jīng)過(guò)了實(shí)驗(yàn)驗(yàn)證。這些擴(kuò)散模型的應(yīng)用范圍已擴(kuò)展到所有生物分子,其方法能夠預(yù)測(cè)蛋白質(zhì)、RNA、DNA和配體如何在三維原子細(xì)節(jié)中的組裝方式,從而涵蓋了對(duì)接任務(wù),因此有望在未來(lái)成為藥物發(fā)現(xiàn)的重要工具。

2.4.4 增強(qiáng)采樣和粗?;M

尋找最穩(wěn)定的幾何形狀固然有其價(jià)值,但要真正模擬分子之間的熱力學(xué)相互作用,則需要對(duì)三維結(jié)構(gòu)的平衡分布進(jìn)行采樣。平衡態(tài)遵循與能量相關(guān)的Boltzmann分布,而學(xué)習(xí)這種平衡分布的生成模型被稱(chēng)為Boltzmann生成器。深度生成模型開(kāi)始通過(guò)流匹配這一擴(kuò)散模型的變體來(lái)解決這個(gè)問(wèn)題,并且已經(jīng)在多種不同類(lèi)型的肽中證明了其可轉(zhuǎn)移性。另一種方法則是利用??栓C普朗克方程來(lái)學(xué)習(xí)如何采樣平衡分布。

在粗?;^(guò)程中,通常將原子聚集成所謂的珠子,這樣就可以降低計(jì)算成本,并且能夠捕捉到長(zhǎng)時(shí)間尺度的事件。然而,這些粗?;樽拥牧π枰c全原子力進(jìn)行擬合。為了解決這個(gè)問(wèn)題,可以應(yīng)用神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)粗?;?chǎng),通過(guò)預(yù)測(cè)自由能的梯度,而不是能量,并將這些預(yù)測(cè)的力與全原子力進(jìn)行匹配。而使用流匹配方法則消除了對(duì)全原子力的需求,僅需粗?;樽拥钠胶鈽颖炯纯?。此外,擴(kuò)散模型可以同時(shí)學(xué)習(xí)生成模型和粗?;?chǎng)。

雖然粗粒化力場(chǎng)的評(píng)估速度明顯快于原子級(jí)力場(chǎng),但分子動(dòng)力學(xué)模擬仍然受到必須使用飛秒級(jí)積分時(shí)間步長(zhǎng)的限制。為了解決這一問(wèn)題,平衡方法的替代方案主要集中在加速分子動(dòng)力學(xué),以實(shí)現(xiàn)更長(zhǎng)的時(shí)間尺度。

這可以通過(guò)“時(shí)間粗粒化”來(lái)實(shí)現(xiàn),即訓(xùn)練生成模型以預(yù)測(cè)在較大時(shí)間步長(zhǎng)下的結(jié)果。此外,研究還致力于將模型擴(kuò)展到多個(gè)熱力學(xué)性質(zhì)范圍,如溫度和壓力。這使得能夠模擬不同環(huán)境,并對(duì)之前不適合的數(shù)據(jù)進(jìn)行訓(xùn)練。通過(guò)在模型輸入中添加溫度等額外參數(shù),可以將相應(yīng)的粗?;杂赡芎瘮?shù)的導(dǎo)數(shù)納入損失函數(shù)中。而自由能的高階導(dǎo)數(shù)作為響應(yīng)性質(zhì),可以通過(guò)多次反向傳播計(jì)算得到。因此整合熱力學(xué)參數(shù)可能是整體模擬生物或工業(yè)環(huán)境的重要因素之一。

對(duì)于稀有事件采樣,例如化學(xué)反應(yīng)和過(guò)渡態(tài)搜索,已經(jīng)出現(xiàn)了無(wú)反應(yīng)坐標(biāo)的過(guò)渡路徑采樣方法。另一方面,當(dāng)反應(yīng)物、產(chǎn)物和過(guò)渡態(tài)的數(shù)據(jù)集可用時(shí),可以直接訓(xùn)練生成模型,進(jìn)而可以基于反應(yīng)物和產(chǎn)物生成過(guò)渡態(tài)。

2.4.5 限制和未解決的問(wèn)題

雖然神經(jīng)力場(chǎng)可以達(dá)到很高的準(zhǔn)確性,但它們?nèi)匀恍枰銐虻挠?xùn)練數(shù)據(jù)來(lái)覆蓋整個(gè)相空間。如果沒(méi)有完全覆蓋,神經(jīng)力場(chǎng)可能會(huì)陷入不穩(wěn)定的動(dòng)力學(xué)狀態(tài)。一項(xiàng)基準(zhǔn)測(cè)試強(qiáng)調(diào),評(píng)估力場(chǎng)的標(biāo)準(zhǔn)應(yīng)基于其動(dòng)力學(xué)表現(xiàn),而非力的誤差。

然而,隨著神經(jīng)力在越來(lái)越大數(shù)據(jù)集上的訓(xùn)練,這些問(wèn)題可能會(huì)逐漸得到解決,從而推動(dòng)通用力場(chǎng)的發(fā)展。盡管機(jī)器學(xué)習(xí)模型受限于數(shù)據(jù)質(zhì)量,但新數(shù)據(jù)可以通過(guò)模擬生成,這為數(shù)據(jù)可用性和大型模型的發(fā)展帶來(lái)了樂(lè)觀前景。

與此同時(shí),要在大長(zhǎng)度和時(shí)間尺度上進(jìn)行有效模擬仍需大量工作。在亞穩(wěn)態(tài)條件下進(jìn)行適當(dāng)平衡采樣面臨著重大挑戰(zhàn),相關(guān)的稀有事件采樣問(wèn)題也依然是亟待改進(jìn)的領(lǐng)域,因此成為了近期眾多研究工作的重點(diǎn)。

2.5 結(jié)構(gòu)和分析:光譜學(xué)和結(jié)構(gòu)解析

在化學(xué)領(lǐng)域,一個(gè)自然而又未被充分利用的機(jī)遇是利用機(jī)器學(xué)習(xí)來(lái)進(jìn)行結(jié)構(gòu)解析,它旨在通過(guò)光譜或其他分析數(shù)據(jù)預(yù)測(cè)二維或三維分子結(jié)構(gòu)。就像計(jì)算機(jī)視覺(jué)使得計(jì)算機(jī)能夠感知自然界一樣,計(jì)算光譜學(xué)也可以讓機(jī)器通過(guò)分析儀器感知分子世界。隨著實(shí)驗(yàn)自動(dòng)化技術(shù)的進(jìn)步,預(yù)計(jì)將合成越來(lái)越多的從頭合成和未知的化合物,這推動(dòng)了對(duì)更快且準(zhǔn)確的結(jié)構(gòu)解析需求,以充分支持這些自主分子發(fā)現(xiàn)和反應(yīng)發(fā)現(xiàn)平臺(tái)。

2.5.1 正向光譜預(yù)測(cè)

數(shù)據(jù)驅(qū)動(dòng)的結(jié)構(gòu)闡明最直接的方式是存儲(chǔ)一個(gè)光譜庫(kù),針對(duì)給定的光譜在庫(kù)中搜索匹配項(xiàng),然后檢索相應(yīng)的結(jié)構(gòu)。為了擴(kuò)大光譜庫(kù)的覆蓋范圍,可以使用前向光譜預(yù)測(cè)來(lái)為特定化學(xué)結(jié)構(gòu)預(yù)測(cè)其光譜。盡管物理模擬提供了一種有根據(jù)的方法來(lái)預(yù)測(cè)光譜,但其過(guò)程往往復(fù)雜且計(jì)算成本高昂。另一種方法則是利用機(jī)器學(xué)習(xí)從結(jié)構(gòu)出發(fā)預(yù)測(cè)各種類(lèi)型的光譜,包括質(zhì)譜(MS)、核磁共振(NMR)和紫外-可見(jiàn)光譜(UV-vis)。一些研究將前向預(yù)測(cè)問(wèn)題視為公式預(yù)測(cè),采用自回歸模型或固定的公式詞匯;而另一些研究則專(zhuān)注于子圖預(yù)測(cè),利用遞歸分解、自回歸生成和深度概率模型,或結(jié)合三維結(jié)構(gòu)信息。在質(zhì)譜的背景下,一些方法將光譜近似為具有相應(yīng)峰強(qiáng)度的離散區(qū)間,從而簡(jiǎn)化問(wèn)題,將其轉(zhuǎn)化為直接從結(jié)構(gòu)回歸質(zhì)譜的任務(wù)。除了結(jié)構(gòu)到光譜的預(yù)測(cè)外,另一種方法涉及通過(guò)估計(jì)各種分子描述符來(lái)預(yù)測(cè)結(jié)構(gòu)-性質(zhì)關(guān)系——這些描述符可以是標(biāo)量(例如能量、部分電荷)、向量(例如電偶極子、原子力)以及高階張量(例如Hessian矩陣、極化率、八極矩)——然后利用這些描述符來(lái)預(yù)測(cè)不同類(lèi)型的光譜,包括紅外光譜、拉曼光譜、紫外-可見(jiàn)光譜和核磁共振。

2.5.2 結(jié)構(gòu)解析

直接從給定光譜預(yù)測(cè)化學(xué)結(jié)構(gòu)的過(guò)程被稱(chēng)為逆問(wèn)題。DENDRAL是第一個(gè)用于從質(zhì)譜推斷化學(xué)結(jié)構(gòu)的專(zhuān)家系統(tǒng),誕生于1969年?;瘜W(xué)家們還利用機(jī)器學(xué)習(xí)(ML)分析紅外光譜(IR)、核磁共振(NMR)和質(zhì)譜,以識(shí)別有限的官能團(tuán)。雖然這些方法提供了有用的結(jié)構(gòu)見(jiàn)解,但它們無(wú)法完全解析分子結(jié)構(gòu)。

結(jié)合多個(gè)推斷出的官能團(tuán)的信息,使得結(jié)構(gòu)解析成為可能。對(duì)于NMR數(shù)據(jù),分子結(jié)構(gòu)可以通過(guò)首先識(shí)別分子亞結(jié)構(gòu)和官能團(tuán)來(lái)進(jìn)行解析,然后通過(guò)波束搜索在可能的配置中進(jìn)行最優(yōu)組合,或者逐個(gè)原子構(gòu)建,這與化學(xué)家在解釋NMR光譜時(shí)采取的方法相似。類(lèi)似的“亞結(jié)構(gòu)重建”策略也在紅外光譜和表面增強(qiáng)拉曼光譜(SERS)中以不同程度的細(xì)節(jié)應(yīng)用。然而,隨著原子數(shù)量的增加,這種方法很快會(huì)遇到組合規(guī)模問(wèn)題。

分子結(jié)構(gòu)解析可以從深度學(xué)習(xí)的角度將其視作為一個(gè)端到端的問(wèn)題。在這種方法中,光譜被標(biāo)記為字符串,并預(yù)測(cè)SMILES字符串;這可以視為一種機(jī)器翻譯任務(wù)。這種方法已經(jīng)應(yīng)用于核磁共振(NMR)、紅外光譜(IR)和串聯(lián)質(zhì)譜(MS/MS)數(shù)據(jù)中了,顯示出來(lái)在擴(kuò)展到更大化學(xué)系統(tǒng)和從頭結(jié)構(gòu)解析方面具有更顯著的潛力。此外,結(jié)構(gòu)預(yù)測(cè)問(wèn)題也可以被表述為一個(gè)優(yōu)化任務(wù),例如,可以將其形式化為馬爾可夫決策過(guò)程。如果我們考慮一些關(guān)于當(dāng)前化學(xué)系統(tǒng)的先驗(yàn)信息,如化學(xué)式、已知的起始材料和反應(yīng)條件,將這些信息作為約束條件應(yīng)用,就可以幫助模型更有效地收斂到一個(gè)解決方案。

隨著研究的深入,從分子到晶體的轉(zhuǎn)變,解決粉末X射線衍射(PXRD)和X射線吸收近邊結(jié)構(gòu)(XANES)等X射線光譜數(shù)據(jù)的逆問(wèn)題,為機(jī)器學(xué)習(xí)領(lǐng)域帶來(lái)了新的挑戰(zhàn)。這為不同深度學(xué)習(xí)模型在晶體系統(tǒng)和空間群識(shí)別中的應(yīng)用提供了獨(dú)特且尚未充分開(kāi)發(fā)的機(jī)會(huì)。特別是,擴(kuò)散模型展現(xiàn)出了良好的前景,尤其是在文本到圖像生成這一對(duì)應(yīng)逆問(wèn)題中的成功應(yīng)用。在這個(gè)背景下,我們可以在文本與光譜之間,以及圖像生成與晶體結(jié)構(gòu)預(yù)測(cè)之間建立類(lèi)比。

在旋轉(zhuǎn)光譜學(xué)領(lǐng)域,光譜分配的挑戰(zhàn)——即從密集的旋轉(zhuǎn)光譜中推導(dǎo)旋轉(zhuǎn)常數(shù)——代表了機(jī)器學(xué)習(xí)在這一領(lǐng)域早期應(yīng)用之一。由于光譜密集且易于模擬,這個(gè)問(wèn)題特別適合深度學(xué)習(xí)技術(shù)。然而,僅依靠旋轉(zhuǎn)常數(shù)無(wú)法確定分子的三維結(jié)構(gòu)。我們最近提出的方法通過(guò)推斷三維結(jié)構(gòu)來(lái)解決這一問(wèn)題,所需的信息包括分子式、旋轉(zhuǎn)常數(shù)以及稱(chēng)為替代坐標(biāo)的無(wú)符號(hào)原子笛卡爾坐標(biāo)。

在結(jié)構(gòu)生物學(xué)領(lǐng)域,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的進(jìn)展與冷凍電子顯微鏡技術(shù)的發(fā)展相輔相成。利用冷凍電子顯微鏡重建蛋白質(zhì)結(jié)構(gòu)的過(guò)程已經(jīng)采用了深度生成模型。這些方法已發(fā)展到能夠從冷凍電子斷層成像(cryo-ET)中重建生物分子動(dòng)態(tài)的程度。利用冷凍電子顯微鏡進(jìn)行的結(jié)構(gòu)解析工作也在不斷取得日新月異的進(jìn)展。此外,數(shù)據(jù)處理方面的進(jìn)步使得分辨率得到了顯著提升,而這些改進(jìn)都可以通過(guò)使用機(jī)器學(xué)習(xí)方法進(jìn)一步增強(qiáng)。

2.5.3 限制和未解決的問(wèn)題

與所有需要大量數(shù)據(jù)的方法一樣,一個(gè)關(guān)鍵問(wèn)題始終存在:雖然可以獲得大量的模擬光譜,但考慮模型在實(shí)驗(yàn)光譜上的表現(xiàn)是否令人滿意至關(guān)重要,因?yàn)閷?shí)驗(yàn)光譜往往表現(xiàn)出更大的變異性和不一致性。一個(gè)值得思考的問(wèn)題是:科學(xué)界是否應(yīng)該更加努力推動(dòng)將原始光譜文件存放在開(kāi)放數(shù)據(jù)庫(kù)中,以促進(jìn)深度學(xué)習(xí)在從自動(dòng)化光譜到結(jié)構(gòu)解析中的應(yīng)用?

對(duì)于逆向光譜到結(jié)構(gòu)解析的工作中,雖然純樣品的自主分子結(jié)構(gòu)確定無(wú)疑對(duì)高通量反應(yīng)優(yōu)化和發(fā)現(xiàn)活動(dòng)至關(guān)重要,但同樣重要的是解決來(lái)自復(fù)雜混合物的光譜結(jié)構(gòu)的注釋問(wèn)題,這包括對(duì)特定目標(biāo)化合物的定向識(shí)別和非定向代謝組學(xué)。這類(lèi)混合物在實(shí)際樣本矩陣中是常見(jiàn)配置,對(duì)于生物診斷、法醫(yī)學(xué)等多個(gè)領(lǐng)域都是不可或缺的。這些任務(wù)的成功在很大程度上依賴(lài)于模型從復(fù)雜的數(shù)據(jù)中解開(kāi)并分離出單個(gè)分子光譜特征的能力。機(jī)器學(xué)習(xí)擅長(zhǎng)處理復(fù)雜、高維數(shù)據(jù),因此非常適合處理這些具有挑戰(zhàn)性的任務(wù)。此外,利用機(jī)器學(xué)習(xí)方法集成來(lái)自多個(gè)光譜輸入的信息,可以進(jìn)一步提高結(jié)構(gòu)解析的準(zhǔn)確性和完整性。

2.6 利用基礎(chǔ)化學(xué)模型實(shí)現(xiàn)規(guī)模效益

隨著計(jì)算能力的提升,機(jī)器學(xué)習(xí)模型已經(jīng)在越來(lái)越大規(guī)模的數(shù)據(jù)集上進(jìn)行了訓(xùn)練。在大規(guī)模應(yīng)用中,機(jī)器學(xué)習(xí)展現(xiàn)出不同層次的能力。而基礎(chǔ)模型是經(jīng)過(guò)廣泛數(shù)據(jù)訓(xùn)練的大規(guī)模模型,能夠應(yīng)用于多種下游任務(wù)。一些通用基礎(chǔ)模型,如ChatGPT、Gemini和Llama,通常用于語(yǔ)言生成和圖像生成;其中許多模型僅針對(duì)語(yǔ)言進(jìn)行訓(xùn)練,或者是在多模態(tài)上進(jìn)行訓(xùn)練。然而,在化學(xué)領(lǐng)域使用這些模型面臨著獨(dú)特的挑戰(zhàn),因此許多研究者選擇從頭開(kāi)始在化學(xué)數(shù)據(jù)上訓(xùn)練他們的模型,但這并非易事。在本節(jié)中,我們將探討化學(xué)領(lǐng)域基礎(chǔ)模型的現(xiàn)狀,并提出對(duì)尚未解決問(wèn)題的看法。

2.6.1 通過(guò)大型語(yǔ)言模型和智能體進(jìn)行知識(shí)轉(zhuǎn)換

一些最早將生成模型應(yīng)用于化學(xué)的研究是通過(guò)語(yǔ)言實(shí)現(xiàn)的,這得益于分子可以使用SMILES表示法以字符串形式進(jìn)行表示。早期的化學(xué)語(yǔ)言模型是通過(guò)無(wú)監(jiān)督學(xué)習(xí)對(duì)SMILES表示進(jìn)行訓(xùn)練的,它學(xué)習(xí)了分子子片段之間的依賴(lài)關(guān)系。最近,這些模型也開(kāi)始同時(shí)在其他以文本標(biāo)記表示的分子形式上進(jìn)行訓(xùn)練,例如文本描述、科學(xué)論文和合成程序,它們通常采用自回歸損失,以便在推理時(shí)能夠生成分子的描述或結(jié)構(gòu)。Ramos等人撰寫(xiě)了一篇綜合性綜述[5],詳細(xì)介紹了迄今為止80個(gè)化學(xué)/生物化學(xué)語(yǔ)言模型,以供讀者進(jìn)一步了解。將文本描述納入模型的一個(gè)動(dòng)機(jī)是,它們包含有關(guān)分子功能性質(zhì)的信息,這對(duì)于改善結(jié)構(gòu)相似但功能不同的分子的嵌入表示非常有幫助,反之亦然。這些文本描述還讓用戶(hù)能夠使用自然語(yǔ)言與模型互動(dòng),這比起僵硬的查詢(xún)方式對(duì)許多用戶(hù)來(lái)說(shuō)更加直觀。此外,大型語(yǔ)言模型(LLMs)還被用于科學(xué)文獻(xiàn)解析,促進(jìn)從現(xiàn)有文獻(xiàn)中提取化學(xué)信息并構(gòu)建知識(shí)數(shù)據(jù)庫(kù)。這些數(shù)據(jù)庫(kù)可用于對(duì)LLMs進(jìn)行微調(diào),有潛力提升自動(dòng)化實(shí)驗(yàn)室在生成和篩選方面的能力。

然而,使用這些模型進(jìn)行開(kāi)箱即用的發(fā)現(xiàn)任務(wù)或特定領(lǐng)域的化學(xué)應(yīng)用仍存在一定差距(至少根據(jù)我們的了解)。造成這種情況的原因之一是,缺乏足夠的數(shù)據(jù)來(lái)以與GPT-4等模型在網(wǎng)絡(luò)規(guī)模文本和圖像上訓(xùn)練相同的方式對(duì)這些模型進(jìn)行訓(xùn)練。利用這些具備化學(xué)知識(shí)的語(yǔ)言模型的一種方法是對(duì)其進(jìn)行微調(diào),以適應(yīng)下游任務(wù),或者將其嵌入到優(yōu)化框架或搜索框架中,從而提供良好的先驗(yàn)知識(shí)。其他研究也開(kāi)始了探索模型和數(shù)據(jù)的擴(kuò)展。

化學(xué)感知基礎(chǔ)模型的一個(gè)有趣應(yīng)用是開(kāi)發(fā)化學(xué)智能體,這些智能體能夠利用解決化學(xué)問(wèn)題所需的工具,或規(guī)劃化學(xué)實(shí)驗(yàn)。一些顯著的例子包括ChemCrow、Coscientist、我們自己的ORGANA和ChemReasoner。這些智能體可以訪問(wèn)各種與化學(xué)相關(guān)的工具,如模擬器或機(jī)器人,以執(zhí)行化學(xué)實(shí)驗(yàn),并使用大語(yǔ)言模型(例如GPT-4)作為中央?yún)f(xié)調(diào)者,決定何時(shí)以及如何使用這些工具來(lái)實(shí)現(xiàn)用戶(hù)指定的目標(biāo)。此類(lèi)智能體的一個(gè)長(zhǎng)期目標(biāo)是開(kāi)發(fā)科學(xué)助手,幫助進(jìn)行更復(fù)雜的推理和規(guī)劃,通過(guò)自主生成和完善假設(shè),超越單純的計(jì)算和執(zhí)行。AI科學(xué)家將這一理念擴(kuò)展到了其他研究領(lǐng)域,展示了通過(guò)執(zhí)行實(shí)驗(yàn)和撰寫(xiě)研究論文進(jìn)行自主機(jī)器學(xué)習(xí)研究的能力。

這些研究領(lǐng)域仍處于起步階段,因此存在幾個(gè)未解的問(wèn)題,包括:(1)我們?nèi)绾斡行У卦u(píng)估化學(xué)感知大語(yǔ)言模型(chemistry-aware LLMs)/智能體(agents)?(2)這些模型在化學(xué)家實(shí)際工作中的使用案例是什么?有效的模型評(píng)估主要依賴(lài)于開(kāi)發(fā)有意義的任務(wù),而這在數(shù)據(jù)集的規(guī)模和廣度上目前仍然是一個(gè)開(kāi)放性問(wèn)題。雖然在這一領(lǐng)域已經(jīng)存在幾個(gè)基準(zhǔn)測(cè)試,這為我們提供了一個(gè)良好的起點(diǎn),但在數(shù)據(jù)質(zhì)量和任務(wù)目標(biāo)方面仍有改進(jìn)空間。最近發(fā)布的一些基準(zhǔn)測(cè)試更接近實(shí)際應(yīng)用,同時(shí),像Polaris這樣的平臺(tái)使研究人員能夠更快速地訪問(wèn)各種數(shù)據(jù)集。然而,在這一領(lǐng)域使用次優(yōu)基準(zhǔn)測(cè)試的問(wèn)題因當(dāng)前機(jī)器學(xué)習(xí)環(huán)境而加劇,因?yàn)榛鶞?zhǔn)測(cè)試主要用于展示新方法相較于現(xiàn)有最優(yōu)技術(shù)所取得的更好表現(xiàn),但人們并不理解其改進(jìn)的原因。這也為化學(xué)家與機(jī)器學(xué)習(xí)領(lǐng)域?qū)<疑鐓^(qū)之間合作的提供了一個(gè)絕佳機(jī)會(huì)。

基于語(yǔ)言的基礎(chǔ)模型也被應(yīng)用于其他領(lǐng)域,包括知識(shí)圖譜生成和從化學(xué)文獻(xiàn)中進(jìn)行知識(shí)提取,其中還包括我們?cè)诜磻?yīng)圖解析方面的工作,這是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。這些努力對(duì)于創(chuàng)建結(jié)構(gòu)化的實(shí)驗(yàn)程序數(shù)據(jù)庫(kù)是至關(guān)重要的,這些數(shù)據(jù)庫(kù)可以為現(xiàn)有的資源庫(kù)做出貢獻(xiàn),例如之前提到的開(kāi)放反應(yīng)數(shù)據(jù)庫(kù)。

2.6.2 基礎(chǔ)物理模型

雖然僅語(yǔ)言基礎(chǔ)模型在化學(xué)領(lǐng)域受到廣泛關(guān)注,但研究表明,語(yǔ)言可能并不是唯一有效的手段,特別是在三維幾何結(jié)構(gòu)至關(guān)重要的情況下。例如,Alampara等人顯示,僅依靠語(yǔ)言模型無(wú)法編碼表示特定材料屬性所需的結(jié)構(gòu)信息。

然而,在生物化學(xué)科學(xué)中,語(yǔ)言模型并不是唯一開(kāi)發(fā)的基礎(chǔ)模型。在已經(jīng)構(gòu)建了幾種模型中,這些模型能夠?qū)α?chǎng)進(jìn)行普遍近似,并預(yù)測(cè)任何分子、材料或蛋白質(zhì)的結(jié)構(gòu)。或許最著名的例子是用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的AlphaFold2,以及最近推出的AlphaFold3,該模型能夠根據(jù)任何一組二維生物分子預(yù)測(cè)它們?cè)谌S中的組裝方式。據(jù)我們了解,這些模型在許多結(jié)構(gòu)和功能任務(wù)中仍然優(yōu)于任何基于序列的蛋白質(zhì)預(yù)測(cè)模型,尤其是在輸入序列在訓(xùn)練數(shù)據(jù)中沒(méi)有同源物的情況下。

另一個(gè)引人注目的例子是最近推出的基礎(chǔ)模型MACE-MP-0,該模型采用了MACE等變架構(gòu)。其MACE-MP-0模型在150,000個(gè)無(wú)機(jī)晶體上進(jìn)行了訓(xùn)練。在經(jīng)過(guò)少量特定任務(wù)示例的微調(diào)后,它可以作為力場(chǎng)用于多種任務(wù)的模擬,甚至包括一些看似毫不相關(guān)的小蛋白質(zhì)模擬。值得注意的是,MACE-MP-0中的分子間相互作用似乎存在一定的不明確性。例如,在前面提到的蛋白質(zhì)模擬中,該模型能夠成功捕捉氫轉(zhuǎn)移,這是一項(xiàng)顯著的成就。然而,作者也選擇加入了源自經(jīng)典計(jì)算化學(xué)的D3色散,這表明該模型在預(yù)測(cè)長(zhǎng)程相互作用方面仍然需要一些幫助。值得一提的是,基礎(chǔ)力場(chǎng)的研究也正在持續(xù)擴(kuò)展,如工業(yè)研究實(shí)驗(yàn)室正在越來(lái)越大的數(shù)據(jù)集上訓(xùn)練神經(jīng)力場(chǎng),例如GNoME和MatterSim。

從這些模型中得出的一個(gè)關(guān)鍵結(jié)論是,結(jié)構(gòu)信息不應(yīng)被忽視,這取決于模型所應(yīng)用的下游任務(wù)。同時(shí),在廣泛的大規(guī)模數(shù)據(jù)集上訓(xùn)練模型(即超越僅在單一預(yù)測(cè)任務(wù)上訓(xùn)練簡(jiǎn)單模型的傳統(tǒng),這在幾年前仍然是常態(tài))可以更好地推廣到更多的下游設(shè)置中。我們認(rèn)為,同時(shí)在多個(gè)模態(tài)上進(jìn)行擴(kuò)展對(duì)于構(gòu)建化學(xué)領(lǐng)域中最佳的基礎(chǔ)模型至關(guān)重要——即盡可能多地在各種模態(tài)上訓(xùn)練模型,例如三維結(jié)構(gòu)信息、文本和光譜信息。

2.6.3 限制和未解決的問(wèn)題

在領(lǐng)域科學(xué)的研究中,我們?cè)跀?shù)據(jù)條件上并不如自然語(yǔ)言或圖像領(lǐng)域那樣優(yōu)越,因?yàn)楹笳咭呀?jīng)擁有了網(wǎng)絡(luò)級(jí)的數(shù)據(jù)可供利用。而科學(xué)數(shù)據(jù)則相對(duì)稀缺;每一個(gè)數(shù)據(jù)點(diǎn)必須通過(guò)實(shí)驗(yàn)獲得,或者是通過(guò)高質(zhì)量的模擬得出的。如果采用模擬方法,模型必須找到將其結(jié)果轉(zhuǎn)化為特定實(shí)驗(yàn)條件的方法。我們懷疑,跨化學(xué)領(lǐng)域的通用模型仍然需要十年的時(shí)間才能實(shí)現(xiàn),并且隨著人類(lèi)對(duì)這些模型需求的不斷增加,這一目標(biāo)可能會(huì)變得更加難以捉摸。這就像擴(kuò)寬高速公路的問(wèn)題一樣,許多分析師已經(jīng)表明,一旦道路被擴(kuò)寬,由于其可用性而產(chǎn)生的額外需求會(huì)立即導(dǎo)致高速公路交通擁堵。

2.7 閉環(huán)優(yōu)化和自動(dòng)化實(shí)驗(yàn)室

2.7.1 自動(dòng)化實(shí)驗(yàn)室

隨著機(jī)器學(xué)習(xí)應(yīng)用的不斷發(fā)展,高質(zhì)量數(shù)據(jù)的必要性和稀缺性變得愈加明顯?;瘜W(xué)數(shù)字化的興起以及機(jī)器學(xué)習(xí)的進(jìn)步,為將機(jī)器學(xué)習(xí)與通過(guò)機(jī)器人實(shí)驗(yàn)進(jìn)行自動(dòng)數(shù)據(jù)生成相結(jié)合奠定了基礎(chǔ)。這種協(xié)同作用催生了自動(dòng)化實(shí)驗(yàn)室(SDL)的概念。自驅(qū)動(dòng)實(shí)驗(yàn)室主要由兩個(gè)關(guān)鍵組成部分構(gòu)成:自動(dòng)化實(shí)驗(yàn)室設(shè)備和實(shí)驗(yàn)規(guī)劃者,這兩者都利用機(jī)器學(xué)習(xí)技術(shù)來(lái)提升其功能。最終目標(biāo)是自主執(zhí)行科學(xué)方法,包括假設(shè)生成(機(jī)器學(xué)習(xí))、假設(shè)測(cè)試(實(shí)驗(yàn))和假設(shè)細(xì)化(機(jī)器學(xué)習(xí)),從而以數(shù)據(jù)高效的方式探索廣闊的設(shè)計(jì)空間。

通過(guò)將機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺(jué)相結(jié)合,自動(dòng)化實(shí)驗(yàn)室設(shè)備取得了顯著進(jìn)展,形成了“通用化學(xué)機(jī)器人”的概念。這些經(jīng)過(guò)機(jī)器學(xué)習(xí)訓(xùn)練的機(jī)器人能夠基于外部反饋?zhàn)龀鰶Q策,從而實(shí)現(xiàn)傳統(tǒng)上由人類(lèi)化學(xué)家執(zhí)行的化學(xué)操作的動(dòng)態(tài)自動(dòng)化。鑒于在基于外部反饋進(jìn)行主動(dòng)決策的機(jī)器人設(shè)備訓(xùn)練中固有的挑戰(zhàn),該領(lǐng)域的一個(gè)顯著創(chuàng)新是利用數(shù)字孿生體——實(shí)驗(yàn)室設(shè)置的虛擬復(fù)制品——為加速機(jī)器人機(jī)器學(xué)習(xí)模型的訓(xùn)練提供了堅(jiān)實(shí)的框架。這些數(shù)字孿生技術(shù)通過(guò)高精度模擬化學(xué)場(chǎng)景,建立了一個(gè)真實(shí)的反饋機(jī)制,加速了模型的學(xué)習(xí)過(guò)程。

在實(shí)驗(yàn)規(guī)劃方面,啟發(fā)式技術(shù)正在逐步被機(jī)器學(xué)習(xí)優(yōu)化算法所取代。當(dāng)這些優(yōu)化技術(shù)與化學(xué)數(shù)字化相結(jié)合時(shí),它們能夠識(shí)別目標(biāo)化學(xué)物質(zhì)并優(yōu)化反應(yīng)條件,同時(shí)顯著減少所需的實(shí)驗(yàn)步驟。在各種機(jī)器學(xué)習(xí)優(yōu)化技術(shù)中,貝葉斯優(yōu)化因其在化學(xué)應(yīng)用中的成功而在實(shí)驗(yàn)化學(xué)領(lǐng)域尤為突出。基于機(jī)器學(xué)習(xí)的代理模型能夠預(yù)測(cè)化學(xué)物質(zhì)和反應(yīng)的性質(zhì),這在過(guò)程優(yōu)化和材料發(fā)現(xiàn)中發(fā)揮了重要作用,并且已有許多成功案例記錄。

此外,大型語(yǔ)言模型(LLMs)的興起進(jìn)一步增強(qiáng)了自動(dòng)化實(shí)驗(yàn)室(SDLs)的輔助組件。而大型語(yǔ)言模型被有效地用于創(chuàng)建無(wú)需傳統(tǒng)編碼的人機(jī)界面,使得化學(xué)家與實(shí)驗(yàn)室系統(tǒng)之間的交流更加自然。這對(duì)于那些不太擅長(zhǎng)編碼或數(shù)據(jù)處理的用戶(hù)來(lái)說(shuō),是一個(gè)顯著的優(yōu)勢(shì)。

2.7.2 限制和未解決的問(wèn)題

正如我們最近討論的那樣,自動(dòng)化實(shí)驗(yàn)室系統(tǒng)面臨的挑戰(zhàn)大致可分為兩大類(lèi):自動(dòng)化(硬件相關(guān))和智能化(人工智能相關(guān))。

自動(dòng)化挑戰(zhàn)。主要的硬件挑戰(zhàn)源于化學(xué)儀器設(shè)計(jì)時(shí)更偏向人性化設(shè)計(jì),并未考慮自動(dòng)化需求,以及與現(xiàn)有自動(dòng)化模塊之間缺乏無(wú)縫連接。因此,大多數(shù)自動(dòng)化實(shí)驗(yàn)室系統(tǒng)是以半自動(dòng)方式運(yùn)行的,需要人工干預(yù)進(jìn)行諸如樣品轉(zhuǎn)移、維護(hù)和故障排除等任務(wù)。已經(jīng)提出了各種解決方案來(lái)解決這些問(wèn)題,包括部署移動(dòng)機(jī)器人進(jìn)行樣品轉(zhuǎn)移,以及調(diào)整通用機(jī)器人來(lái)執(zhí)行化學(xué)任務(wù)或操作最初設(shè)計(jì)用于人類(lèi)使用的儀器。然而,這些方法大都依賴(lài)于傳統(tǒng)算法,需要靜態(tài)校準(zhǔn),因此并不太適合自動(dòng)化實(shí)驗(yàn)室系統(tǒng)的動(dòng)態(tài)特性。雖然已經(jīng)提出了將計(jì)算機(jī)視覺(jué)和人工智能相結(jié)合作為解決方案,但實(shí)驗(yàn)室設(shè)備,特別是玻璃器皿,仍然面臨顯著的挑戰(zhàn),不過(guò)這些挑戰(zhàn)正在逐漸得到解決。

認(rèn)知挑戰(zhàn)。認(rèn)知挑戰(zhàn)主要在于開(kāi)發(fā)能夠準(zhǔn)確估計(jì)系統(tǒng)輸出的模型,這一困難限制了更通用生成模型的應(yīng)用,有效地降低了實(shí)驗(yàn)規(guī)劃者在化學(xué)領(lǐng)域中所能探索的空間。結(jié)合前面提到的挑戰(zhàn),一個(gè)明顯的問(wèn)題就是:SDLs通常在數(shù)據(jù)匱乏情況下運(yùn)行。而預(yù)測(cè)和生成的機(jī)器學(xué)習(xí)模型通常需要大規(guī)模的數(shù)據(jù)集才能做出有意義的預(yù)測(cè)。雖然生成模型可以在現(xiàn)有數(shù)據(jù)上進(jìn)行訓(xùn)練,但在這種低數(shù)據(jù)情境中部署預(yù)測(cè)算法仍然是一個(gè)重大挑戰(zhàn)。

輔助組件的挑戰(zhàn)。在關(guān)于自動(dòng)化實(shí)驗(yàn)室系統(tǒng)的輔助組件方面,LLM的整合顯示出在自動(dòng)化工作流程創(chuàng)建和改善人機(jī)交互方面具有潛力。然而,需要進(jìn)一步研究以確保這些過(guò)程的安全性和可靠性。此外,雖然將文獻(xiàn)提取整合到自動(dòng)化實(shí)驗(yàn)室中可以增強(qiáng)模型開(kāi)發(fā),但其與預(yù)測(cè)模型的有效整合仍然是一個(gè)未解決的問(wèn)題。

在自動(dòng)化實(shí)驗(yàn)室領(lǐng)域,需要解決的最后一個(gè)挑戰(zhàn)是發(fā)展規(guī)模經(jīng)濟(jì)的問(wèn)題。隨著社區(qū)建立的自動(dòng)化實(shí)驗(yàn)室數(shù)量的增多,建立下一個(gè)自動(dòng)化實(shí)驗(yàn)室的難度將會(huì)大大降低。因此,實(shí)現(xiàn)低成本自動(dòng)化實(shí)驗(yàn)室的民主化對(duì)該領(lǐng)域的發(fā)展來(lái)說(shuō)至關(guān)重要的。

寫(xiě)在最后

在讀完這篇文獻(xiàn)后,我深刻意識(shí)到,個(gè)人在追求最大化影響力的過(guò)程中,有兩個(gè)關(guān)鍵能力至關(guān)重要。首先是會(huì)發(fā)現(xiàn)問(wèn)題,以及能判斷出哪些問(wèn)題值得解決的能力;其次是具備高質(zhì)量解決特定領(lǐng)域問(wèn)題的技術(shù)水準(zhǔn)。

在學(xué)術(shù)研究中,發(fā)現(xiàn)問(wèn)題的能力體現(xiàn)在研究者能夠敏銳地識(shí)別出關(guān)鍵的科學(xué)問(wèn)題,并判斷其研究?jī)r(jià)值如是否能引領(lǐng)新領(lǐng)域的探索。而具備高質(zhì)量解決問(wèn)題的技術(shù)水準(zhǔn),則體現(xiàn)在研究者能夠運(yùn)用先進(jìn)的實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析和建模技術(shù),去有效應(yīng)對(duì)復(fù)雜的科學(xué)挑戰(zhàn)。結(jié)合這兩種能力,研究者不僅能夠提出創(chuàng)新的理論,還能夠產(chǎn)生具有實(shí)用意義的科研成果,促進(jìn)知識(shí)的快速積累與傳播。

在技術(shù)開(kāi)發(fā)方面,發(fā)現(xiàn)問(wèn)題的能力體現(xiàn)在開(kāi)發(fā)者能夠識(shí)別出行業(yè)內(nèi)最迫切需要解決的技術(shù)問(wèn)題或瓶頸,判斷其對(duì)產(chǎn)品和服務(wù)的影響。而具備高質(zhì)量解決特定領(lǐng)域問(wèn)題的技術(shù)水準(zhǔn),則表現(xiàn)在開(kāi)發(fā)者能夠運(yùn)用工程原理、編碼能力和系統(tǒng)設(shè)計(jì)知識(shí),去創(chuàng)建和優(yōu)化技術(shù)解決方案。有效的技術(shù)開(kāi)發(fā)需要兩者的結(jié)合,以確保所開(kāi)發(fā)的技術(shù)不僅具有實(shí)用性,還能夠在市場(chǎng)上產(chǎn)生積極的反響。

在產(chǎn)品開(kāi)發(fā)方面,發(fā)現(xiàn)問(wèn)題的能力體現(xiàn)在團(tuán)隊(duì)能夠識(shí)別用戶(hù)需求、市場(chǎng)趨勢(shì)以及潛在的痛點(diǎn),判斷哪些問(wèn)題最值得優(yōu)先解決,以增強(qiáng)產(chǎn)品的競(jìng)爭(zhēng)力。而具備高質(zhì)量解決問(wèn)題的技術(shù)水準(zhǔn),則體現(xiàn)在團(tuán)隊(duì)能夠?qū)?chuàng)新的技術(shù)和設(shè)計(jì)理念轉(zhuǎn)化為可行的產(chǎn)品特性,從而有效滿足用戶(hù)需求并實(shí)現(xiàn)商業(yè)價(jià)值。只有結(jié)合這兩項(xiàng)能力,團(tuán)隊(duì)才能夠更好地開(kāi)發(fā)出符合市場(chǎng)需求和技術(shù)標(biāo)準(zhǔn)的產(chǎn)品,從而推動(dòng)業(yè)務(wù)增長(zhǎng)。

雖然具備高水平技術(shù)解決問(wèn)題的人數(shù)遠(yuǎn)遠(yuǎn)多于那些能夠識(shí)別真正有價(jià)值問(wèn)題的人,但真正能夠在各個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響的,通常是那些同時(shí)具備這兩項(xiàng)能力的人。因此,每個(gè)從業(yè)者都應(yīng)時(shí)刻思考“什么才是值得解決的問(wèn)題”,而這一思考將成為我們?cè)趯W(xué)術(shù)、技術(shù)或產(chǎn)品發(fā)展中追求創(chuàng)新與影響力的核心驅(qū)動(dòng)力。

參考文獻(xiàn):[1]

Spiers Memorial Lecture: How to do impactful research in artificialintelligencefor chemistry and materials science:https://doi.org/10.1039/D4FD00153B

[2]

Sample EfficiencyMatters: A Benchmark for Practical Molecular Optimization:https://proceedings.neurips.cc/paper_files/paper/2022/file/8644353f7d307baaf29bc1e56fe8e0ec-Paper-Datasets_and_Benchmarks.pdf

[3]

Du, Y., Jamasb, A.R., Guo, J. et al. Machine learning-aided generative molecular design. Nat Mach Intell6, 589–604 (2024): https://doi.org/10.1038/s42256-024-00843-5

[4]

A. Duval, S. V. Mathis, C. K. Joshi, V. Schmidt, S. Miret, F. D. Malliaros, T. Cohen, P. Lio, Y. Bengio and M. Bronstein, arXiv, 2023, preprint,arXiv https://arxiv.org/abs/2312.07511

[5]

M. C. Ramos, C. J. Collison and A. D. White, arXiv, 2024, preprint,arXiv https://arxiv.org/abs/2407.01603

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48477

    瀏覽量

    245167
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8481

    瀏覽量

    133876
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5548

    瀏覽量

    122333
收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    熱像儀助力材料科學(xué)與工程研究(三)

    巨哥科技從事精準(zhǔn)測(cè)溫?zé)嵯駜x研發(fā)十余年,助力各領(lǐng)域科研人員從事前沿科學(xué)研究,以下列舉材料科學(xué)與工程研究的部分論文。
    的頭像 發(fā)表于 08-16 14:51 ?1484次閱讀

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    材料基因組工程的推動(dòng)下,人工智能如何與材料科學(xué)結(jié)合,加快傳統(tǒng)材料和新型材料的開(kāi)發(fā)過(guò)程。 第4章介紹了人工
    發(fā)表于 09-09 13:54

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    的效率,還為科學(xué)研究提供了前所未有的洞察和精確度。例如,在生物學(xué)領(lǐng)域,AI能夠幫助科學(xué)家快速識(shí)別基因序列中的關(guān)鍵變異,加速新藥研發(fā)進(jìn)程。 2. 跨學(xué)科融合的新范式 書(shū)中強(qiáng)調(diào),
    發(fā)表于 10-14 09:12

    從入門(mén)到研究,人工智能領(lǐng)域最值得讀的10本資料(附下載)

    Artificial Intelligence(穩(wěn)健有益的人工智能的優(yōu)先研究項(xiàng))來(lái)自:加州大學(xué)伯克利分校此份白皮書(shū)是在人工智能研究的主題上你最應(yīng)該閱讀的白皮書(shū)之
    發(fā)表于 10-12 11:38

    中國(guó)人工智能的現(xiàn)狀與未來(lái)

    中國(guó)人工智能的現(xiàn)狀與未來(lái),人工智能是目前最火熱的技術(shù)領(lǐng)域,也是門(mén)極富挑戰(zhàn)性的科學(xué),從事這項(xiàng)工作的人
    發(fā)表于 07-27 06:40

    中國(guó)在人工智能領(lǐng)域影響力怎樣

    中國(guó)在人工智能研究領(lǐng)域已處于重要地位,中國(guó)的研究人員近年來(lái)在該領(lǐng)域影響力顯著提升。
    發(fā)表于 11-20 15:00 ?1165次閱讀

    材料科學(xué)在醫(yī)療器械研發(fā)中的應(yīng)用

    材料科學(xué)個(gè)相對(duì)比較新鮮的領(lǐng)域,也是物理學(xué),化學(xué)和工程學(xué)交叉的部分。材料科學(xué)分析應(yīng)用領(lǐng)域中所使
    的頭像 發(fā)表于 04-14 20:48 ?6111次閱讀

    熱像儀助力材料科學(xué)與工程研究

    巨哥科技從事精準(zhǔn)測(cè)溫?zé)嵯駜x研發(fā)十余年,助力各領(lǐng)域科研人員從事前沿科學(xué)研究,以下列舉材料科學(xué)與工程研究的部分論文。
    的頭像 發(fā)表于 07-22 13:51 ?1132次閱讀
    熱像儀助力<b class='flag-5'>材料科學(xué)</b>與工程<b class='flag-5'>研究</b>(<b class='flag-5'>一</b>)

    熱像儀助力材料科學(xué)與工程研究(二)

    巨哥科技從事精準(zhǔn)測(cè)溫?zé)嵯駜x研發(fā)十余年,助力各領(lǐng)域科研人員從事前沿科學(xué)研究,以下列舉材料科學(xué)與工程研究的部分論文。
    的頭像 發(fā)表于 08-02 14:42 ?1066次閱讀

    熱像儀助力材料科學(xué)與工程研究(四)

    巨哥科技從事精準(zhǔn)測(cè)溫?zé)嵯駜x研發(fā)十余年,助力各領(lǐng)域科研人員從事前沿科學(xué)研究,以下列舉材料科學(xué)與工程研究的部分論文。
    的頭像 發(fā)表于 08-18 09:21 ?889次閱讀

    中科曙光異構(gòu)智能技術(shù)加速計(jì)算材料科學(xué)創(chuàng)新變革

    材料科學(xué)是現(xiàn)代工業(yè)的基石,新材料是支撐工業(yè)高質(zhì)量發(fā)展的關(guān)鍵。伴隨人工智能等技術(shù)地不斷發(fā)展,材料科學(xué)研究方式與效率也正在發(fā)生深刻變革。 中科
    的頭像 發(fā)表于 08-01 10:15 ?1190次閱讀

    科研進(jìn)階!EPR在材料科學(xué)中的應(yīng)用交流會(huì)即將開(kāi)幕

    ,與國(guó)儀量子應(yīng)用工程師共同分享EPR在超分子仿酶功能材料、分子基磁體、光催化等材料科學(xué)領(lǐng)域的最新研究進(jìn)展與應(yīng)用策略,助力相關(guān)領(lǐng)域
    的頭像 發(fā)表于 11-21 08:24 ?702次閱讀
    科研進(jìn)階!EPR在<b class='flag-5'>材料科學(xué)</b>中的應(yīng)用交流會(huì)即將開(kāi)幕

    何在化學(xué)材料科學(xué)領(lǐng)域開(kāi)展有影響力的人工智能研究?(二)

    研究人員和社區(qū)的高層視角出發(fā),探討他們?nèi)绾慰创徒鉀Q問(wèn)題。首先,我們將重新分類(lèi)前文提到的各種化學(xué)問(wèn)題,將其作為已確認(rèn)的機(jī)器學(xué)習(xí)問(wèn)題實(shí)例。然后,再通過(guò)梳理機(jī)器學(xué)習(xí)社區(qū)共
    的頭像 發(fā)表于 12-03 01:02 ?403次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>化學(xué)</b>和<b class='flag-5'>材料科學(xué)</b><b class='flag-5'>領(lǐng)域</b><b class='flag-5'>開(kāi)展</b><b class='flag-5'>有影響力</b><b class='flag-5'>的人工智能</b><b class='flag-5'>研究</b>?(二)

    何在化學(xué)材料科學(xué)領(lǐng)域開(kāi)展有影響力的人工智能研究?(三)

    第三部分編譯后的內(nèi)容:4.如何解決科學(xué)問(wèn)題?在掌握了上述的工具和視角后,我們將提出些建議,幫助您在化學(xué)領(lǐng)域選擇具有影響力
    的頭像 發(fā)表于 12-03 01:02 ?387次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>化學(xué)</b>和<b class='flag-5'>材料科學(xué)</b><b class='flag-5'>領(lǐng)域</b><b class='flag-5'>開(kāi)展</b><b class='flag-5'>有影響力</b><b class='flag-5'>的人工智能</b><b class='flag-5'>研究</b>?(三)

    安泰高電壓功率放大器:材料科學(xué)與工程學(xué)科研究的重要推手!

    材料科學(xué)與工程是門(mén)涵蓋廣泛領(lǐng)域的學(xué)科,涉及固體物理學(xué)、化學(xué)、工程學(xué)等多個(gè)學(xué)科的交叉領(lǐng)域。 高壓功率放大器 作為
    的頭像 發(fā)表于 12-23 11:02 ?317次閱讀
    安泰高電壓功率放大器:<b class='flag-5'>材料科學(xué)</b>與工程學(xué)科<b class='flag-5'>研究</b>的重要推手!