18101298214
发布日期:2023/8/21 13:10:00
肌肉骨骼系统疾病,包括骨关节炎、类风湿性关节炎、腰背痛和骨折等患病率随着人口老龄化日益升高,在全球范围内造成巨大的社会和经济负担,亟待开发新的诊疗手段以实现肌肉骨骼系统疾病的有效治疗。近年来,大量高通量测序数据(如bulkRNA-seq、microRNA-seq等)的产生促进了肌肉骨骼发育和疾病机制的研究,为促进相关疾病新型诊疗方法的开发奠定了基础。然而,高通量测序数据通常散在分布于不同数据库、存在较大的批次效应。同时,从单细胞角度解析运动系统发育和病理机制已成为近年来领域的前沿热点;随着单细胞测序(single-cellRNA-seq,scRNA-seq)数据通量的不断提升,对大规模、高维度的单细胞数据进行有效特征融合并进行整合分析亦是目前领域的一大挑战。为克服目前肌肉骨骼系统各类组学数据的异质性和离散分布,以及研究者难以有效运用的问题,领域迫切需要一个整合的和使用友好的肌肉骨骼系统组织的组学数据库。
该研究利用生物信息学计算工具和云数据库平台,构建了首个大规模、标准化、可交互的人体肌肉骨骼系统基因表达数据库,并利用数据库收集的单细胞数据,开发了基于变分自编码器(Variational autoencoder,VAE)深度学习架构的单细胞数据整合分析算法scVAE,为肌肉骨骼系统高通量测序数据的深入挖掘和高效利用提供了有力的工具。
 
 
为了构建大规模、标准化的人体肌肉骨骼系统基因表达数据库,该研究首先建立了标准化的数据整理和数据处理流程(图1)。研究者从NCBI和EMBL-EBI数据库中收集了公开发表的肌肉骨骼系统发育和疾病相关的bulk RNA-seq、microRNA-seq和scRNA-seq的元数据信息和原始测序数据,并对不同数据库来源的元数据进行了统一筛选和整理,重点呈现有助于用户判断数据集临床意义和数据质量的相关信息,最大程度减少由于数据源差异带来的信息误差,让用户能够更加高效地获取样本信息。
 
图1 人体肌肉骨骼系统基因表达数据库标准化构建流程。
 
MSdb数据库累计收集了涵盖骨、软骨、肌肉、肌腱、椎间盘等人体运动系统主要组织细胞在内的33种疾病、3610个数据集,包含超过280万个单细胞数据;数据库主要包括以下四个功能:数据浏览、数据可视化、数据整合和数据分析(图2)。这些功能的集合可以帮助科研人员更好地浏览和分析数据,从而更好地理解和研究人体肌肉骨骼系统的基因表达模式和疾病机理。
 

 图2 人体肌肉骨骼系统基因表达数据库概况。

 
为了对MSdb数据库中收集的大规模单细胞测序数据进行整合分析,该研究基于变分自编码器(VAE)深度学习架构,开发了人体肌肉骨骼系统单细胞转录组数据整合分析算法scVAE(图3)。研究者利用k近邻批次检验(kBET)算法对两种方法在保持生物变异的同时消除批次效应的程度进行了定量比较。kBET指标表示对比局部和全局批次标签分布卡方检验的平均拒绝率,kBET值越低代表批次去除效果越好。比较结果发现scVAE的kBET值明显低于Harmony,提示scVAE算法在肌肉骨骼系统单细胞数据整合效果上优于目前广泛使用的计算方法。
 
图3 scVAE算法开发和整合分析效果评价。(A)scVAE算法原理图。(B)未经整合、经scVAE整合和经Harmony整合后的单细胞UMAP图。(C)kBET拒绝率。
 
利用scVAE算法,研究者对不同研究来源的健康、骨关节炎(Osteoarthritis,OA)、类风湿性关节炎(Rheumatoid arthritis,RA)和未分化性关节炎(Undifferentiated arthritis,UA)患者滑膜组织单细胞转录组测序数据进行整合分析(图4),发现类风湿性关节炎中存在特异的CD74+HLA-DRA+炎性成纤维细胞亚群,提示该亚群在疾病中的潜在作用,深入研究该细胞亚群的功能将为RA的病理机制提供新的见解。
 
图4 scVAE整合分析揭示类风湿性关节炎特异的炎性成纤维细胞亚群。(A)scVAE整合后的单细胞UMAP图,不同颜色代表不同细胞亚群。(B)scVAE整合后的单细胞UMAP图,不同颜色代表不同疾病。(C)不同细胞亚群标记物的小提琴图。(D)成纤维细胞亚群基因表达UMAP图。
 
文章结论与讨论,启发与展望

本研究针对人体肌肉骨骼系统高通量测序数据存在的数据分散、来源不一、批次效应等问题,利用生物信息学计算工具和云数据库平台,构建了一个大规模、标准化、可交互的人体肌肉骨骼系统基因表达数据库(MSdb)。针对单细胞测序数据整合问题,我们开发了基于深度学习技术的高效、精确的整合分析方法scVAE,提升了肌肉骨骼系统大规模单细胞测序样本数据挖掘的高效性和准确性。尽管如此,本研究仍存在一定的局限性。目前MSdb只包含bulk RNA-seq、microRNA-seq和scRNA-seq数据集,并未收集其他组学数据,如基因组学和表观遗传学测序数据。在未来的工作中,可以纳入包括Bisulfite-seq、ChIP-seq、ATAC-seq和Hi-C等多组学测序数据,以提供多层次的基因表达调控信息。

上一篇:评述线粒体移植在心血管疾病中的研究与进展 下一篇:发现Eif2s3y通过调节Adamts5减轻LPS诱导的睾丸损伤并维持精子发生
已经到最底了
服务支持
新闻资讯
关于我们
微信扫一扫