代谢组学的飞速发展,尤其是分析技术的进步、样本数量的增加、样本类型的多样化以及多检测平台的联合应用,使代谢组数据在数量和复杂性上急剧增加。代谢组学数据库的开发对于归纳总结这些大数据、提高数据的使用率、进行深层次的交叉分析以及揭示隐藏在大数据背后的生物学机理都有重要的作用。
当前,代谢组学研究中涉及到的数据库大致可划分为两个层次:存储原始检测数据的原始数据库和存储代谢物及代谢通路相关信息的代谢物库。产生最早且发展相对成熟的是代谢物库。早期的代谢物库主要是存储各种代谢物的基本信息,包括代谢产物的简介、化学式、分子量、化学分类、化学性质、所在的代谢通路和质谱图等。用户可以将待鉴定物质的信息与库中代谢物的信息进行一一比对,对目标物质进行定性及代谢通路搜索。其中Human Metabolome Database (HMDB)、Kyoto Encyclopedia of Genes and Genomes (KEGG)、Metabolite Link (Metlin)、The Golm Metabolome Database (GMD)和The Small Molecule Pathway Database (SMPDB)等等代谢物库是该类数据库的代表,发展相对成熟,应用广泛。
2010年以来,随着精准医学和生物信息学的发展,在一些国际组织的倡导和大力推动下,原始数据库开始出现。这类数据库在建立、完善、标准化和推广上都存在很多困难,依赖于全世界科研观念和技术的发展。基因组数据库建设的成功先例对该类数据库的发展有一定的促进和借鉴作用。原始数据库的出现和标准化建设将为更多的科研工作者提供了交流合作的机会,也是进一步提高数据利用率和挖掘深度的有效途径,将大大促进代谢组学技术的进步,也会为各种组学的整合分析以及组学与其他学科的交叉研究奠定数据基础。因此,虽然这类数据库建设和完善难度较大,但却是组学发展的必然趋势。2010年以来,欧洲和美国的多个机构逐步建立了一系列原始数据库并组建了专业团队致力于维护和推广应用。当前,有代表性的四大库是美国NIH的Metabolomics Workbench、欧洲生物信息研究所的Metabolights、Metabolic Phenotype Database(MetaPhen,属于MetabolomeExpress的一部分)和Metabolomic Repository Bordeaux (MeRy-B)。其中,前两种应用较为广泛,且接受多种仪器平台和物种的数据。Metabolomics Workbench还允许对公开可用数据进行探索性的统计分析。Metabolights更侧重于数据管理,且数据递交的标准更严格。MetaPhen和MeRy-B的规模更小,且专注于植物代谢组学。MeRy-B以1H-NMR数据为主,MetaPhen则侧重于GCMS数据。
目前,原始数据库建设的公认标准是MSI(Metabolomics Standards Initiative, European Bioinformatics Institute, http://msi-workgroups.sourceforge.net/)和COSMOS (Coordination of Standards in Metabolomics, European Union, http://cosmosfp7.eu)。上述数据库基本都符合这两个标准。有些组织也公布了自己的标准,但与这两个标准高度一致。按照MSI和COSMOS的要求,数据库要求被授权的资源提供者在提供规定格式(如ISA-Tab)的原始数据的同时,还必须提供以下信息:提交者的基本信息、实验设计,研究对象及相应处理,样本搜集和存储条件、样本前处理,仪器平台和分析条件、样本的临床信息和代谢物信息等。其中代谢物的信息包括基本描述,外部数据库识别代码,化学式,简化分子线性输入规范(Simplified molecular-input line-entry system, SMILES),应用化学协会识别代码(the International Chemical Identifier of IUPAC),峰强度或浓度以及用于识别代谢物的相关信息,例如m/z,保留指数,碎片信息等。如果资源提供者采用提交的资源已公开发表过文章,还需提供文章全文。只有满足以上要求的资源才会被加入到数据库中。
下表中列出了常用的典型数据库及其主要性能的比较。
表1. 典型数据库及其主要性能比较
当前,各大代谢物库的应用已相对广泛成熟,对代谢组学发展的贡献有目共睹。原始数据库虽然发展势头强劲但仍处于建设初期,尚未有大量应用的报道。但可喜的是,已有学者将多个原始数据库或某一库中的多项资源进行整合使用,进一步提高了数据资源的利用率。2015年,荷兰的莱登大学、欧洲生物信息学研究所和德国的莱布尼茨植物化学研究所等多家机构共同建立了一个跨库原始数据检索平台——MetabolomeXchange(http://metabolomexchange.org/site/),为数据库资源的整合和扩展应用提供了又一快捷途径。
以上是代谢组学所涉及到的两类数据库的总结。关于每个数据库的特点我们下期继续分析。