18101298214
发布日期:2023/8/9 22:01:00

新型冠状病毒(SARS-CoV-2)的基因组数据,包括基因组序列和相关元数据,是病毒检测、疫苗制备、变异监测,以及药物研发和疾病治疗的重要数据基础。截至2023年7月,已有来自193个国家/地区的超过1,600万条SARS-CoV-2基因组被测序。为了归档与整合数量庞大且持续增长的SARS-CoV-2基因组数据,全球已建立了系列数据资源库,为SARS-CoV-2研究、疫情防控和新型冠状病毒肺炎治疗提供了关键的数据支撑。

近日,来自中国科学院北京基因组研究所(国家生物信息中心)的国家基因组科学数据中心(National Genomics Data Center,NGDC)团队,回顾了现有SARS-CoV-2基因组数据资源的类别、内容、特点,指出基因组数据共享和整合的问题与挑战。最后,作者对数据标准化、汇交机制等提出了新的见解,以促进SARS-CoV-2基因组数据的高效归档和整合,并为应对新的大流行疾病的数据整合奠定基础(图1)。

 

图1. 文章首页截图

新型冠状病毒基因组数据归档库汇交用户递交的基因组数据,颁发序列号,并对基因组序列和相关元数据进行标准化。文中介绍了GenBank、ENA、DDBJ、EpiCoVTM、GenBase、CNGBdb和NCNSTRSS共7个归档库,讨论了他们在数据访问开放性、元数据标准化、数据审编和注释方面的异同。其中,GenBank、ENA、DDBJ分别由美国国家生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)以及日本国立遗传研究所(NIG)构建,均属于国际核酸序列数据库联盟INSDC 的成员数据库,每天交换数据,保持数据一致。INSDC的数据集面向全球用户公开共享。EpiCoVTM由全球共享流感数据倡议组织GISAID构建,数据受控,但存储了全球最多的新冠病毒基因组数据,并提供了最为丰富的数据描述信息。我国由不同的数据中心分别构建了新冠病毒基因组数据的归档库,但这些数据库之间无数据共享或交换。

为了全面整合全球SARS-CoV-2基因组数据并开展质控审编和变异分析,整合型数据库CoV-Seq、VirusDIP、ViruSurf、RCoV19整合了INSDC和EpiCoVTM等数据源的数据。文中讨论了这些数据库在数据来源、去冗余处理、数据审编、序列质量评估、变异注释等方面的异同。其中,VirusDIP 和RCoV19仍保持数据每日更新,而CoV-Seq 和ViruSurf现已不再更新。相比于VirusDIP,RCoV19还收集了来自NCNSTRSS和GenBase的数据,涵盖了较全面的SARS-CoV-2基因组数据。RCoV19识别来源于不同归档库的相同序列,在此基础上交叉引用数据源的序列号,以帮助获得非冗余的基因组信息。

然而,SARS-CoV-2基因组数据的整合面临很多问题和挑战,包括病毒株名复杂度低、株名不一致、株名缺失、序列不一致、数据更新不同步、元数据错误匹配,严重阻碍了数据的重复利用。首先,病毒株名的复杂度较低或长度较短导致难以保证序列信息的唯一性。据作者统计,至少390,101条基因组序列完全使用数字作为病毒株名,其中至少82,176个病毒株名长度小于五个字符;至少38,005条基因组序列完全使用字母作为病毒株名。同时,相同病毒基因组在不同归档库中病毒株名的不一致以及病毒株名缺失也是普遍存在的问题。文中指出至少68,802 对相同的基因组序列,在 GenBank 和 EpiCoVTM数据库中显示不同的病毒株名。GenBank 中至少3,176,537 条基因组序列缺少病毒株名,且主要来源于ENA交换数据。另外,序列不一致、基因组数据更新不同步、元数据不匹配等问题也为数据整合带来很大挑战。至少 2,756,473 对来源于不同库的相同序列拥有不同的序列长度,这与不同数据库的序列处理标准不同有关。至少10,728 条序列已从一个或多个数据源中删除,88,345 条序列的病毒株名、405,261 条序列的长度、45,479 条序列的样本采集日期、1,380 条序列的宿主信息和 88,899条序列的样本采集地点信息在某一个数据归档库中已更新。最后,作者发现至少有400余条基因组序列存在元数据匹配错误。病毒基因组序列的病毒株名分别对应于不同的病毒株,很可能由输入错误导致。

由于大量的SARS-CoV-2基因组数据分散在不同的资源库中,缺乏集中管理并由此导致很多问题,严重阻碍了数据的整合分析和重复利用,影响人们更好地了解病毒传播并制定临床治疗和流行病防控策略。对此,作者在元数据规范化、基因组数据递交,以及数据更新等方面提出建议:

1. 数据归档库应收集尽可能丰富的元数据,并就元数据格式标准(包括病毒株名、序列号格式、样本信息、患者信息、测序和组装信息、递交信息)达成全球共识。

2. 数据递交者有义务确保递交到不同归档库的序列和元数据一致,并同步更新不同数据库中的相同基因组数据。

3. 数据归档库应指定特定字段用于交叉引用其他归档库中的相关序列号。

4. 建议数据归档库引入例如GenBank的 "修订历史"功能,显示元数据修改记录,便于用户发现并更新元数据信息。

 

上一篇:揭示HIV-1流行重组亚型的Env蛋白结构与免疫识别特征 下一篇:人造皮肤可以同时模仿自然皮肤的感官反馈和机械特性
已经到最底了
服务支持
新闻资讯
关于我们
微信扫一扫