一张图片里有几个梨和一个苹果,一个幼童或许难以体会出梨和苹果的区别(图1左部)。但是,当幼童看了一个视频,视频里梨和苹果的个数、形态、位置发生了一些改变,幼童便可以从更多的变化信息中学习到梨和苹果两类水果的区别(图1右部)。从一张图片的像素点分辨梨和苹果是简单的聚类学习,而通过视频的几帧图像分辨,是进行了整合分析的对齐和聚类。
图1 幼童通过图片和视频的几帧图像分辨梨和苹果
类似地,该问题也出现在空间转录组数据(spatially resolved transcriptomics, SRT)的分析中,将一个组织切片每个测序位置的空间区域或细胞类型聚类准确是一项具有挑战性的工作。更不必说对多个具有批次效应的组织切片同时进行细胞聚类(clustering)、低维特征提取(embedding)和对齐(alignment),这更是难上加难。空间转录组学涉及了能够根据基因表达的物理位置对组织进行转录组测序的新兴技术。尽管已经有不少关于转录组测序数据的数据整合分析方法,但大多数方法都是针对单细胞测序(single-cell RNA sequencing,scRNA-seq)数据集,而没有同时考虑空间和多个切片的信息[1-5]。因此,设计对多个组织切片的空间转录组数据进行整合分析的方法是迫切需要的,其中这些切片甚至可能来自不同的个体[6-8]。
该研究通过建立以概率模型为基础的方法PRECAST,创造性地解决了空间转录组中十分具有挑战性的整合分析问题。该方法对多个组织切片的空间转录组数据进行了聚类、低维特征提取和对齐,此外,其提取和整合的低维数据和标注信息有助于下游分析。
以概率模型为基础的方法PRECAST,可以用于分析各种复杂的空间转录组数据集,其中这些数据集的切片之间可能具有复杂的批次效应和异质的生物效应。PRECAST统一了空间因素的分析,同时进行空间特征提取、空间聚类和低维对齐(图2)。因此,PRECAST可以得到对齐的低维表示,提供出色的可视化效果,并实现整合多个组织切片的更高的空间聚类精度。
图 2 PRECAST的流程图
(图源:Liu W, et al., Nat Commun, 2023)
由PRECAST处理后的低维对齐特征和标注信息可以有利于下游分析,如去除批处理效应、多个切片整合的聚类分析、差异基因表达分析、基因空间变异分析和轨迹推断等(图3)。此外,PRECAST可以得到捕捉邻近细胞或位置点间的空间依赖关系的低维特征,为了解各种微环境在空间上对细胞的影响提供了机会。
图3 PRECAST的下游分析
(图源:Liu W, et al., Nat Commun, 2023)
为了研究肿瘤及肿瘤相邻组织中肿瘤发生的动态过程,PRECAST分析了由10x Visium平台测序得到的肝细胞癌(hepatocellular carcinoma,HCC)病人的四块组织切片,其中两块来自肿瘤(HCC1和HCC2),另两块来自肿瘤相邻组织 (HCC3和HCC4)。病理学家将这些切片的每个位置标注为肿瘤/正常上皮区域和基质区域(图4a)。
图4 图a顶部:来自四片组织切片的 H&E 图像;底部:病理学家对这些切片的手动注释。图b顶部:四片组织切片的 PRECAST UMAP RGB图;底部:PRECAST的聚类标注热图
(图源:Liu W, et al., Nat Commun, 2023)
图5 图a: 空间热图显示了恶性细胞、免疫细胞和HPC-like细胞的解卷积细胞比例。图b: PRECAST检测到的每个类中不同细胞类型的百分比
(图源:Liu W, et al., Nat Commun, 2023)
接着,为了检查PRECAST检测出的每个空间区域的细胞组成(图5),作者使用scRNA-seq数据作为参考面板对所有四个组织切片数据进行了细胞类型解卷积分析。参考面板的细胞类型由恶性细胞和肿瘤微环境细胞构成,具体包括癌症相关的成纤维细胞(cancer-associated fibro-blasts, CAFs)、肿瘤相关巨噬细胞(tumor-associated macrophages, TAMs)、肿瘤相关内皮细胞(tumor-associated endothelial cells, TECs),未知实体但表达肝源标记细胞(cells of an unknown entity but expressing hepatic progenitor cell markers, HPC-like)和免疫细胞(immune cells)[9]。恶性细胞的比例在第1-5类中明显高于其他类,而HPC-like细胞的比例在第7类中较高。在第6类中,研究者观察到TAMs和免疫细胞的比例增加;第6类的特异性基因包括TGFB1和MMP2,它们已用于TAMs的分类[10,11]。
图6 图a: RNA速度估计的主成分图。图b: 潜在时间表达变化基因的热力图
(图源:Liu W, et al., Nat Commun, 2023)
进一步,他们进行了RNA速度的分析(图6),发现了HCC1中位于第2类的TNE区域可能在肿瘤发生中起关键作用,第4类(TNE)在四个切片中共享,第5类(TNE)在肿瘤相邻组织中。更多的,第1和2类中的TNE在转录活跃状态,而第4类和5类中的TNE在被抑制状态。此外,与细胞状态最相关的基因包括SPINK1、RPL30和IL32[12-14]。