

图2 人体肌肉骨骼系统基因表达数据库概况。


本研究针对人体肌肉骨骼系统高通量测序数据存在的数据分散、来源不一、批次效应等问题,利用生物信息学计算工具和云数据库平台,构建了一个大规模、标准化、可交互的人体肌肉骨骼系统基因表达数据库(MSdb)。针对单细胞测序数据整合问题,我们开发了基于深度学习技术的高效、精确的整合分析方法scVAE,提升了肌肉骨骼系统大规模单细胞测序样本数据挖掘的高效性和准确性。尽管如此,本研究仍存在一定的局限性。目前MSdb只包含bulk RNA-seq、microRNA-seq和scRNA-seq数据集,并未收集其他组学数据,如基因组学和表观遗传学测序数据。在未来的工作中,可以纳入包括Bisulfite-seq、ChIP-seq、ATAC-seq和Hi-C等多组学测序数据,以提供多层次的基因表达调控信息。