大家好!為大家介紹一篇2022 年發(fā)表在Nucleic Acids Research上的文章,題目是“STRIDE: accurately decomposing and integrating spatial transcriptomics using single-cell RNA sequencing”。本文提出了使用一種名為“STRIDE”的解卷積新方法,通過整合scRNA-seq數(shù)據(jù)和空間轉(zhuǎn)錄組數(shù)據(jù),來解析空間轉(zhuǎn)錄組的每個spot的細胞類型組成。此外,該模型還可以對不同心臟組織切片進行三維重建,從而形成心臟的三維模型。本文通訊作者為同濟大學的王晨飛教授,研究方向為單細胞及空間多組學生物信息學方法開發(fā)。
背景介紹
有研究表明,細胞異質(zhì)性不僅由其內(nèi)部調(diào)控網(wǎng)絡的影響,還受到其外部微環(huán)境的影響。目前,scRNA-seq技術的快速發(fā)展使得我們能更好理解細胞內(nèi)部調(diào)節(jié)網(wǎng)絡的運轉(zhuǎn)機制。而在空間轉(zhuǎn)錄組上,雖然目前已開發(fā)了許多的解卷積模型來解析空間轉(zhuǎn)錄組中spot的細胞類型組成來幫助我們理解細胞外部微環(huán)境對細胞基因表達的影響,但現(xiàn)有的解卷積方法都依賴于marker基因,這可能會受到高drop-out率和一些不感興趣基因表達波動的影響。其模型敏感性和特異性不高。因此,迫切需要一種能平衡敏感性和特異性的解卷積模型。
設計思路
在機器學習中,文本挖掘領域的一類最常見的主題模型(topic model)是隱狄利克雷分布,簡稱LDA (Latent Dirichlet allocation)。其目的是為了從文檔中發(fā)現(xiàn)潛在的語義結(jié)構(gòu)。而在生物信息學中,大部分需要處理的單細胞基因表達矩陣數(shù)據(jù)存在稀疏性。又因為主題模型能容忍數(shù)據(jù)的稀疏性并且具有很好的可解釋性,從而使得可以被應用于處理scRNA-seq數(shù)據(jù)。
本文開發(fā)的解卷積方法STRIDE可以整合利用scRNA-seq數(shù)據(jù)對空間轉(zhuǎn)錄組數(shù)據(jù)每個spot進行細胞類型解析。STRIDE首先使用LDA對帶注釋的scRNA-seq數(shù)據(jù)進行主題建模,通過variational Bayes (VB)算法求解基因表達-主題分布和主題-細胞分布(即每種細胞類型潛在的基因表達模式)的參數(shù),最后再通過貝葉斯推斷得到細胞類型-主題分布。然后使用細胞類型-主題分布可以將scRNA-seq數(shù)據(jù)中的每個細胞分配到最可能的細胞類型,從而達到對scRNA-seq數(shù)據(jù)進行細胞的分解的目的。
在空間轉(zhuǎn)錄組數(shù)據(jù)中每個spot的基因表達可以被看作是不同類型的多個細胞的混合物。所以,對于空間轉(zhuǎn)錄組數(shù)據(jù),先根據(jù)在scRNA-seq數(shù)據(jù)中獲得基因-主題分布使用LDA去估計spot-主題分布,而后聯(lián)合spot-主題分布和細胞類型-主題分布計算spot屬于每種細胞類型的概率,反過來就可以將這種概率看作每種細胞類型在spot中所占的比例,從而達到對ST數(shù)據(jù)進行細胞的分解的目的。此外,STRIDE還提供幾個下游分析,包括特征(即主題)檢測和可視化,基于鄰域細胞群的空間聚類和區(qū)域識別,空間結(jié)構(gòu)的3D重建。圖1是整個方法的過程以及其下游分析。
圖1 STRIDE工作流程的示意圖
數(shù)據(jù)介紹
首先,作者從乳腺癌(BRCA)scRNA-seq數(shù)據(jù)模擬了三個ST數(shù)據(jù)集,具有已知細胞類型組成的合成混合物可以作為基準,用來測試 STRIDE 在分解細胞類型方面的性能。作者驗證了主題建模發(fā)現(xiàn)特定細胞類型主題的能力,得出的28個不同的主題富含不同的細胞類型,GO注釋表明主題與特定細胞類型之間的有效關聯(lián)(圖2A)。接著,基于訓練的相同數(shù)據(jù)集并驗證,STRIDE可實現(xiàn)較高的細胞類型分配準確度(圖2B)。作者將STRIDE模型和其他已發(fā)表方法進行比較(圖2D-F),使用了Pearson’correlation系數(shù)評估模型預測和真實的一致性,以及計算組內(nèi)均方根誤差(RMSE)來評價模型的靈敏度和特異性,STRIDE均表現(xiàn)出最佳性能。最后,作者比較不同測序深度下STRIDE的魯棒性,如圖2G所示,STRIDE模型在6類測序深度的數(shù)據(jù)上預測值和真實值的相關性都是最大的,STRIDE模型的魯棒性高于其它解卷積模型。
圖2.使用模擬數(shù)據(jù)對STRIDE的性能進行基準測試
為了考察STRIDE模型在真實數(shù)據(jù)集上的表現(xiàn)。作者將其應用在小鼠小腦ST數(shù)據(jù)集上。因為小鼠小腦呈現(xiàn)明確定義的細胞類型層結(jié)構(gòu),因此可用于評估STRIDE模型的細胞類型分解性能。結(jié)果如圖3A,這與以前的研究結(jié)果(圖3B)一致,兩種類型的分子層中間神經(jīng)元MLI1和MLI2被映射到小腦皮質(zhì)的頂層和最外層。伯格曼細胞(bergmann)和普爾基涅細胞(purkinje)共定位于同一中間層—Purkinje層,而顆粒細胞(granule)定位于底層顆粒層—Granule層(圖3C)。少突膠質(zhì)細胞(oligodendrocytes)和星形膠質(zhì)細胞(astrocytes)分散在顆粒層下方(圖3D)。
圖3. STRIDE在小鼠小腦的應用
此外,作者還將STRIDE模型應用于人類鱗狀細胞癌微環(huán)境中腫瘤細胞研究其異質(zhì)性。STRIDE計算得到spot的細胞類型比例(圖4A),進一步根據(jù)spot細胞類型比例的相似性進行空間聚類(圖4B),共獲得6個簇。其中C4簇和C2簇分別代表著纖維血管生態(tài)位和免疫相關前端,而C3簇主要由上皮細胞(epithelial)和惡性細胞(malignant)構(gòu)成,由此可以將C3簇區(qū)域視為腫瘤區(qū)域,這與之前的研究結(jié)果一致。作者同時探討了免疫細胞亞群分布與腫瘤相對位置之間的關系,表明STRIDE解卷積可以定義空間域,并進一步表征腫瘤微環(huán)境中細胞類型的空間分布模式。
由于腫瘤細胞通常表現(xiàn)出高度的異質(zhì)性,所以作者利用上述的空間域來研究腫瘤細胞異質(zhì)性與其空間位置之間的潛在關系。作者將C3定義為腫瘤核心區(qū)域,C1,C4,C5作為腫瘤邊緣區(qū)域(圖4D)。然后分別對兩個區(qū)域進行了差異基因表達分析和功能富集分析。結(jié)果表明腫瘤核心和腫瘤邊緣區(qū)域顯示出不同的hallmark通路。腫瘤核心區(qū)的特點是雌激素反應和膽固醇穩(wěn)態(tài)通路的富集,據(jù)以前的研究,這在鱗狀細胞癌的發(fā)生中起著重要作用。相比之下,邊緣區(qū)域特異性基因在干擾素相關的信號通路中高度富集,這與之前研究的結(jié)果一致。綜上所述,STRIDE的細胞類型解卷積結(jié)果有助于識別空間局部區(qū)域。
圖4. 描述人鱗狀細胞癌微環(huán)境的異質(zhì)性
為了驗證STRIDE在不同生物系統(tǒng)中的應用,作者還將其應用于器官發(fā)育的空間組織研究。作者收集了6.5–7個孕周心臟的scRNA-seq數(shù)據(jù)來訓練模型,并對三個發(fā)育階段(4.5–5、6.5和9個孕周)的所有樣本進行細胞類型解卷積。結(jié)果如圖5A所示,在所有三個階段中心房細胞(atrial)和心室肌細胞(ventricular cardiomyocytes)被預測位于上心室和下心室。心外膜細胞(epicardial)也被正確地映射到心臟的外層,即心外膜(epicardium)。通過STRIDE模型繪制的細胞類型映射與此前通過整合ISS和scRNA-seq生成的空間細胞類型圖高度一致(圖5B)。綜上所述,STRIDE可以推斷不同的時間點的組織細胞類型混合模式。
圖5.STRIDE在發(fā)育中的人類心臟上的應用
為了進一步展示STRIDE模型生成主題的應用,作者開始探索利用STRIDE解卷積結(jié)果去對多個樣本進行綜合分析。主要思想是根據(jù)spot的主題分布特征將相鄰兩張slide上的spot進行配對,即在兩個slide上的具有相似細胞組成的spot進行映射配對。結(jié)果如圖6A所示,在心室區(qū)域(ventricle)內(nèi)主要包含心室肌細胞(ventricular cardiomyocytes)的spot之間互相映射,在左心房和右心房中的心房細胞(atrial cardiomyocytes)在局部區(qū)域被正確映射。隨后作者將這些slide按順序排序,從而構(gòu)建了人類心臟的三維模型(圖6B)。使用這種方法對發(fā)育中的人類心臟進行三維重建僅需要細胞的空間表達信息即可,不需要基于圖像的配準,由此可見STRIDE模型的應用廣泛。
圖6. 發(fā)育中的人體心臟的三維模型重建
總結(jié)
作者將機器學習中的主題建模模型應用于整合單細胞數(shù)據(jù)和空間轉(zhuǎn)錄組數(shù)據(jù)來解析空間轉(zhuǎn)錄組的細胞類型組成,開發(fā)了一種高靈敏性和高特異性且魯棒性很好的方法STRIDE。這種方法不僅能夠分析空間轉(zhuǎn)錄組中spot的細胞類型組成,而且其衍生的主題分布還能夠用于特征(即主題)檢測和可視化,空間聚類和空間域的識別,以及重建心臟的三維模型等。STRIDE利用單細胞數(shù)據(jù)來解析空間轉(zhuǎn)錄組數(shù)據(jù)的細胞類型組成,從而研究細胞外部的微環(huán)境對細胞基因表達的影響,為研究細胞的異質(zhì)性提供了極大的便利。
審核編輯 :李倩
-
數(shù)據(jù)
+關注
關注
8文章
7250瀏覽量
91627 -
建模
+關注
關注
1文章
316瀏覽量
61533 -
機器學習
+關注
關注
66文章
8499瀏覽量
134396
原文標題:文獻分享 | Nucleic Acids Research | STRIDE:使用scRNA-seq數(shù)據(jù)精確分解和整合空間轉(zhuǎn)錄組
文章出處:【微信號:SBCNECB,微信公眾號:上海生物芯片】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
無刷直流電機反電勢過零檢測新方法
石墨烯制備的新方法

大華股份榮獲中國創(chuàng)新方法大賽一等獎
基于遺傳算法的QD-SOA設計新方法

一種降低VIO/VSLAM系統(tǒng)漂移的新方法

大華股份榮獲2024年中國創(chuàng)新方法大賽一等獎
利用全息技術在硅晶圓內(nèi)部制造納米結(jié)構(gòu)的新方法
一種基于因果路徑的層次圖卷積注意力網(wǎng)絡

一種將NeRFs應用于視覺定位任務的新方法

BitEnergy AI公司開發(fā)出一種新AI處理方法
保護4-20 mA,±20-mA模擬輸入的新方法

一種無透鏡成像的新方法

從“蓋房子”到“頂竹筍”:我國科學家首創(chuàng)晶體制備新方法

評論