答疑解惑专题(四)——开源代谢组学全功能软件介绍-自主发布-资讯-生物在线

答疑解惑专题(四)——开源代谢组学全功能软件介绍

作者:麦特绘谱生物科技(上海)有限公司 2018-10-29T14:51 (访问量:14467)

高通量代谢组学研究的一大难点在于数据处理和分析。对于质谱或核磁产生的海量数据需要借助于自动化的软件来进行数据分析。代谢组学全流程软件应具备完整的分析工作流程,包括数据预处理、物质鉴定、统计分析以及数据的解释与整合。本文将介绍几种应用最为广泛且功能强大的全流程软件(表1),供大家参考。



表1. 四种全流程软件对比。



软件简介



MAVEN:MAVEN是基于现有开源软件建立的LC-MS数据分析软件,可处理MRM(multiple reaction monitoring)和高分辨的全扫描数据。软件设计目的是开发一款用于探索和验证代谢组学数据的图形用户界面,降低代谢组学分析的复杂性。该软件具有从特征值提取到代谢物通路分析及数据可视化的整个数据分析功能。同时为了便于数据验证,MAVEN 运用机器学习算法来自动评估峰值质量。



MZmine:MZmine是一款开源软件,主要处理LC-MS和GC-MS平台数据,可用于非靶向和靶向代谢组学数据分析。软件设计核心理念是将功能模块和数据处理模块严格分开,以提高软件的易用性。其中数据处理模块采用嵌入式可视化工具,实现立即预览分析结果的功能。软件新增功能:基于RANSAC算法对齐峰列表、在线数据库鉴别峰、改进的同位素模式识别以及实现数据可视化。项目管理是该软件新增的另一核心模块,用户可随时追踪并储存临时的数据分析结果。



MetaboAnalyst:MetaboAnalyst是一款完全免费的web平台代谢组学数据分析软件。软件分为八个功能模块,可归纳成三大类:(1)探索性数据分析,包括“统计分析”和“时间序列”模块。(2)功能分析,分别是“富集分析”、“通路分析”和“整合通路分析”模块。(3)高级分析方法,包含“生物标志物分析”、“样本量的估计”和“效能分析”模块。此外,它还包含“其他实用程序”模块,该模块具有脂质组学数据分析的特殊功能和化合物ID 转换工具。



XCMS Online:XCMS Online是一款基于云计算的数据处理平台,它继承了XCMS强大的数据预处理功能,如峰识别、峰对齐等,同时新增了单因素和多因素统计分析方法、代谢物特征注释和代谢物鉴定,为非靶向代谢组学提供了完整的工作流程方案。另外它将XCMS的命令行界面改为用户友好型的图形用户界面,降低了操作难度。



图1. 软件的主要功能界面。A,B,C,D分别为MAVEN, MZmine, MetaboAnalyst, XCMS Online。



主要功能对比




原始数据格式:MAVEN软件要求原始数据以mzXML、mzData格式录入。MZmine数据导入支持csv、mzTab、XML等格式,同时输出格式有XML、SQL和 MetaboAnalyst。XCMS Online软件可支持多种原始数据格式,包括netCDF、mzXML、mzData和Agilent.d文件,但数据加载的时间会因文件大小而不同,有时甚至长达数小时。而MetaboAnalyst数据输入不同于前三类软件,它要求的格式为csv、txt或zip包,数据类型为化合物浓度、NMR/MS 的箱式结构或峰强度列表或LC/GC-MS图谱,因而输入的数据通常要求已完成去噪平滑和基线校正等谱图预处理。



数据预处理:数据预处理主要包括峰识别、峰对齐、样本标准化、零值填充和奇异样本剔除。MetaboAnalyst和XCMS Online软件主要是基于XCMS R包实现峰识别、峰对齐和峰匹配等数据预处理功能。MetaboAnalyst峰识别采用高斯模型算法,峰对齐提供四种分析方法,即COW、DTW、基于化学迁移的峰对齐和根据质量公差及保留时间公差的峰对齐,且这些方法能够检验数据的完整性。XCMS Online除进行单一的峰识别峰对齐外,还将保留时间校正前后的结果以总特征离子色谱图和RT校正曲线图的形式展示出来,并从RT校正曲线中识别出极端值,并将其删除。MAVEN软件利用机器学习算法对峰质量进行评估,通过设定m/z范围提取对应的色谱图,以此识别峰,然后进行峰分组并得出峰质量分数。MZmine软件的峰列表处理分为六大模块:零值填充、同位素检测、滤过、对齐、标准化和峰鉴定。其中峰列表对齐运用RANSAC算法。



统计分析:MetaboAnalyst是所有综合性分析工具中统计功能和方法最全面的软件,包括常规的统计方法和高级机器学习算法,单因素分析包含t检验、火山图、单因素方差分析和相关分析;多因素分析有PCA、PLS-DA和OPLS-DA;高维特征值的提取方法有显著性分析(Significance Analysis of Microarrays, SAM)和微阵列的经验贝叶斯分析(Empirical Bayesian Analysis of Micoarrays, EBAM)算法;聚类分析有系统树图、热图、K均值和自组织神经网络分析;有监督分析方法包括RF和SVM算法。同时还提供了时间序列分析,用来检测代谢物浓度或代谢物判别模型随时间的变化趋势。MZmine中的统计分析相对其数据预处理并不是开发的重点内容,仅提供基本统计方法,但同时支持使用第三方统计软件提供的高级算法,包括交叉验证图、聚类分析、曲线距离分析、Log ratio图、热图、PCA以及Sammon’s投影法等。MAVEN软件包中的数据分析主要是针对两样本间的比较,利用t检验来估计两样本间的差异。XCMS Online提供的基本统计方法有配对t检验和多组比较的方差分析,另外提供了其特有的多样本间两两比较的meta分析方法。其中单因素分析的统计结果以云图输出,多因素则以PCA得分图输出。



其他高级功能:MetaboAnalyst软件是唯一提供功能分析(包括富集分析、通路分析和整合通路分析)和高级分析(包括生物标志物分析、样本量估计和效能分析)的软件。功能分析中的代谢物富集分析目前只针对哺乳动物,代谢通路分析模块又分为代谢通路富集分析和路径拓扑结构分析。高级分析中,生物标志物分析是基于PLS-DA、SVM及RF的基础上使用ROC曲线进行分析的;效能分析和样本量的估计则基于 Bioconductor软件包SSPA。该方法是利用实验数据中检测的全部统计量来估计效应大小的分布、效能和最小样本量。



物质鉴定及通路分析数据库:MAVEN提供通路可视化界面(图 1A),其数据库来源于KEGG 和Metacyc。MZmine软件为物质鉴定提供多条途径,包括自定义数据库搜索、在线数据库搜索以及片段和加合物搜索等,同时支持在线连接多种通路分析的组学数据库。物质鉴定库有HMDB、METLIN和PUBChen;通路分析数据库支持KEGG;其他还包括chemspider、Lipid Maps、MassBank、Plantcyc和YMDB数据库。MetaboAnalyst中物质鉴定支持 HMDB 和 METLIN等库,代谢物通路分析提供KEGG和SMPDB等库。XCMS Online软件同样支持 HMDB和METLIN物质鉴定库以及BIOCYC和KEGG代谢通路库。



小结

MAVEN软件的显著优势在于能对峰质量进行良好的评估,能提供可信度较高的代谢组学数据,同时能实现数据在代谢途径中的可视化绘图。MZmine软件除具有全面的数据预处理功能外,同时支持用户开发新的算法,所以它既适合于无编程基础的组学工作者也适合一些高级用户。MetaboAnalyst的优势则在于它强大的数据统计分析、高级分析以及功能分析等功能,这对代谢组学数据的注释和整合具有重要意义。XCMS Online软件是经典 XCMS 函数包的扩展,使用简便,是一款良好的用户友好型软件,但不具有良好的扩展性。



参考文献:

梁丹丹, 李忆涛, 郑晓皎,等. 代谢组学全功能软件研究进展[J]. 上海交通大学学报:医学版, 2018, 38(7).



更多内容请阅读原文献
麦特绘谱生物科技(上海)有限公司 商家主页

地 址: 上海市浦东新区秀浦路2555号康桥商务绿洲E6栋5层

联系人: 林景超

电 话: 400-867-2686

传 真: 021-20900216

Email:marketing@metaboprofile.com

相关咨询
ADVERTISEMENT