B细胞是免疫系统的重要组成部分,在保护身体免受各种病原体感染方面发挥着至关重要的作用。这些细胞能够通过其B细胞受体(BCRs)识别抗原,并通过体细胞基因重组和超突变(SHM)过程,进化产生对抗原有极高亲和力的抗体。BCR数据分析在传染病、过敏、自身免疫性疾病、肿瘤免疫和免疫肿瘤学的研究中被广泛采用。研究人员可以进一步鉴定抗原特异性单克隆抗体(mAb),开发治疗各种疾病的抗体。尽管在BCR分析领域,研究人员已建立了数据预处理,B细胞群体结构、量化特征的多种方法流程,但一种关键的方法,即多序列比对(MSA),仍然不能处理大批量的BCR数据,严重制约了克隆分组、B细胞谱系树构建、SHMs分析、抗体工程改造、结构建模等方面的深入应用,这对计算分析和数据处理方法带来了新挑战。
报告了一种名为Abalign的高速多序列比对算法,可用于抗体和BCR可变区序列的分析。Abalign算法能够突破经典方法在处理规模上的限制,使得以前几乎无法实施的GB级序列数据的多序列比对能够在普通个人电脑上短时间内完成。Abalign还开发成一款跨平台图形化软件,支持Windows、Linux和Mac系统。它不仅具备独特的多序列比对功能,还可以基于多序列比对的结果进行全面的BCR数据分析,无须任何编程即可完成VJ基因识别、克隆群聚类、B细胞系谱树、突变分析、多样性统计、Repertoire比较、人源化评估等诸多分析任务。
图1 论文封面
Abalign多序列比对算法采用了一种不同于传统先导树模式的方法,它基于该实验室之前开发的抗体编号AbRSA[1]方法实现高速比对。其基本思想(如图2所示)是:首先,使用动态规划算法将待比对序列与预设计的抗体/BCR共识序列进行对齐,以识别抗体/BCR的可变区域;其次,将对齐结果用标准化索引号标记,并存储在矩阵中,其中每一行存储一个序列,每一列包含大致对齐的残基;然后,进行扩展矩阵计算,因为一个编号位置可能包含多个残基,需要在同一列的残基较少的位置插入间隙,Abalign考虑了框架区(FR)和互补决定簇(CDR)的不同保守程度,并采用了不同的处理策略;最后,对扩展矩阵进行校正和优化,输出多序列比对结果。Abalign对抗体和BCR的多序列比对准确性达到并超过广泛使用的ClustalO、MUSCLE、MAFFT等方法,运行速度有数量级的提升,内存开销也显著小于常用软件,尤其在处理大规模数据时,Abalign的优势更加显著(如图3所示)。
图2 Abalign多序列比对算法流程
图3 Abalign多序列比对的耗时和内存测试结果
图4 Abalign软件的功能示意图
Clonal grouping:Abalign提供可调节的克隆群组定义方案,通过基于VJ基因的类型、CDR3长度和序列相似度等指标,将具有相似特征的BCR序列归类为一组,帮助用户深入了解BCR repertoire的组成和变化(图4A)。
B-cell lineage tree:Abalign能构建和可视化B细胞系谱树,展示了不同克隆之间的关系和发育路径。通过细胞系谱树,研究人员能够探索BCR的演化过程,了解突变、亲和力成熟以及选择压力等重要信息(图4B)。
Mutation profiling:Abalign通过色图形式展示突变频率的增加或减少,帮助用户分析突变对BCR亲和力成熟的贡献。这种可视化的突变分析有助于深入理解BCR的突变模式和选择过程(图4C)。
Diversity statistics:Abalign提供常用的克隆型多样性统计指标,如Shannon指数和Simpson指数等,帮助用户评估BCR库的多样性。这些统计指标反映了BCR序列的丰富度和均匀性,对于研究免疫应答的多样性变化具有重要意义(图4D)。
Repertoire comparison:Abalign能够定量化分析多个样本中克隆型的重叠,从而追踪克隆型的纵向变化,筛选出扩增的克隆型,并从多个个体中找出共同集合。该功能有助于研究疾病发展过程中抗体的成熟和进化,以及筛选单克隆抗体和疾病标志物(图4E/G/H/I/J)。
Humanness assessment:Abalign收集了超过一千万条的人类BCR/抗体序列,分析了每个位置的氨基酸类型频率。通过比较查询序列与氨基酸类型频率的关系,Abalign能够评估查询抗体的人源性,从而协助抗体的人源化改造(图4K)。
B细胞免疫库的高通量测序正在彻底革新人们研究和监测疾病相关适应性免疫反应的方式方法。这篇论文报道的新方法Abalign,能够在个人计算机上通过超快的MSA处理大量的BCR/抗体数据,能产生与抗体编号方案一致的结果,可以与BCR数据分析无缝连接。用户可以无需任何编程脚本,很方便地通过窗口按钮完成各种分析,包括克隆分组、谱系树构建、突变分析、多样性统计、VJ基因分配、Repertoire比较等等。Abalign为BCR数据分析提供了一种便捷的计算工具,为免疫学研究、疫苗研发、抗体开发、疾病诊断和监测等方面提供支持。