ResistoXplorer——基于Web的耐药基因组数据可视化,统计和探索新分析工具
ResistoXplorer基于Web的耐药基因组数据可视化,统计和探索性新分析工具。
对宏基因组测序后的数据进行抗生素耐药性基因组的注释与分析,逐渐成为一条必经之路。过去,人们需要自己下载相关数据库再用比对工具进行比对,然后去冗余,再进行下游分析。这通常需要学习编程并熟练应用,对于一些临床医生或科研人员是一个很大的挑战。
最近有一款新的工具,用于对耐药基因组数据的成分分析,功能分析和比较分析。
ResistoXplorer,一款Web程序,地址: http://www.resistoxplorer.no
ResistoXplorer的主要功能包括:
1.支持多种常用和先进的方法,用于成分分析、可视化和探索性数据分析
2.全面支持各种数据归一化方法,包括标准的和最新的统计和机器学习算法
3.支持对配对数据集进行垂直数据综合分析的多种方法
4. ARG功能注释及其微生物和表型关联,基于10多个参考数据库的对比结果
5.功能强大且齐全的网络可视化,直观展现ARG于微生物的关联
打开网址后的界面:
由三个主要分析模块组成(上图红色箭头所指框内):
“ARG List”:探索给定的ARG信息的功能和微生物宿主的关联,可视化网络。
“ARG Table”:对从宏基因组组学研究中获得的耐药基因组丰度文件进行功能分析,α多样性分析,排序分析,差异丰度分析等。
“Intergration”:综合分析,进一步探索潜在的联系,并结合新的生物学见解和假说,相似性分析,成对微生物-ARG相关分析等
上图绿色箭头所指框内:
“DataFormat”和“About”: 提供了关于注释表的格式、结构和数据库统计信息的详细描述
“FAQs”:提供了一些问题的答疑
“Resources”:分为“Manuals”和“Downloads”两个模块
Manuals是使用手册,对用户进行操作指导,建议仔细阅读。
Downloads,提供了示例上传文件和单个数据库的下载
分析流程
ResistoXplorer接受抗性基因列表和ARG/taxa丰度表作为输入数据。然后是数据处理、数据分析和结果输出三个步骤。数据处理包括数据过滤和标准化,数据分析包括成分分析,比较分析和综合分析。结果输出以可视化图形,表格或html格式输出。
ResistoXplorer的功能注释使用的参考数据库来自9个通用的AMR数据库,CARD、ResFinder、MEGARes、AMRFinder、SARG、DeepARG-DB、ARGminer、ARDB和ARG-ANNOT。
此外,研究人员还从BacMet数据库和抗菌肽(AMP)耐药基因数据集中手动构建了功能注释信息,使用户能够对抗菌药物/金属和AMP抗性基因进行功能分析和下游分析。
数据处理、分析及结果
数据过滤和标准化
默认情况下,低质量的特征会根据样本流行度及其丰度水平进行过滤。默认值是其他工具所使用的值,大多数在文献中可以找到。用户可以根据分位数间范围、标准差或变异系数排除这些低变异特征。
除alpha多样性和稀疏性分析外,过滤后的数据大多数用于下游分析。在综合分析的情况下,用户还可以对分类注释和耐药基因组丰度数据选择不同的数据筛选标准。
过滤后的数据还需要normalization(归一化)。ResistoXplorer提供了三种数据归一化方法,rarefying, scaling和transformation(稀疏、缩放和转换)。此外还支持其他归一化方法,如中心对数(CLR)和加性对数比(ALR)变换,以便于成分数据分析。方法的选择取决于要执行的分析类型。归一化后的数据用于探索性数据分析,包括排序、聚类和综合分析。用户可以自行探索适合的参数。
成分分析
A) 显示各样本在不同分类水平下的ARG丰度。
B) Shannon多样性指数
C) 桑基图。显示了各组内的包括类别,机制和分组的ARG丰度分布。
D) 稀疏曲线。评估样本中估计的多样性的可靠性,在稀疏曲线中,识别的唯一特征(ARG)的数量与序列样本大小相对应。
E) 排序分析。左边是基于时间点的带有样本颜色的3D PCA图。右边是根据不同的治疗组和时间点绘制3D PCoA图。目前,支持三种通用的排序方法, PCoA、NMDS和 PCA。结果表示为2D和3D样本图。
比较分析
差异丰度分析
使用DESeq2、Edger、metagenomeSeq、Lefse,以及单变量分析方法,比如ALDEx2和ANCOM。DESeq2和Edger说明计数数据的特征,相比之下metagenomeSeq使用推荐的CSS规范化,在更大的分组规模下具有更高的性能。
Lefse使用标准的非参数检验统计显著性,结合线性判别分析来评估差异丰富特征的效应大小。
ALDEx2对来自数据的模型化概率分布的对数比值执行参数或非参数统计测试,并返回统计测试的期望值以及效应大小估计。
ANCOM使用非参数统计检验来检验所有特征对的对数比丰度,以找出均值差异。结果以表格样式展现。
基于机器学习的分类
提供了两种功能强大的监督分类方法--随机森林和支持向量机(SVM),以识别潜在的生物标志物。
C)随机森林
D)展示了SVM在特征(变量)数量减少的情况下的分类性能
其他的一些可视化分析
用户可以根据样本的丰度和流行程度,执行核心抗性分析来检测样本或样本组中存在的核心特征集,以热图的形式展现;以及关联分析和层次聚类,使用热图或者树状图可视化。
综合分析
使用各种综合数据分析方法来探索和揭示微生物群和抗性群之间潜在的潜在关联,这种分析大多用于探索不同环境中细菌和ARGs之间的联系。目前,为数据集成和相关分析提供了几种领先的、常用的单变量和多变量统计方法。所有这些分析都是在过滤和归一化数据集上执行的。
全局相似性分析
用两种基于多变量相关性的方法来确定微生物组和AMR数据集之间的总体相似性,分别为普鲁克分析(PA)和协惯量分析(CIA),在各种功能和分类级别上执行分析。相似系数和P值用于评估两个数据集之间的关联的强度和显著性,相似性系数在0到1之间,0表示两个数据集之间的完全相似,而1表示两个数据集之间的完全不相似。可视化结果用2D和3D排序图表示,如下图
A) 来自普鲁克分析的3D NMDS图,包含与数据集相关的样本、形状和颜色。
B) 来自协惯量分析的3D PCoA图,其中连接两点的线的长度表示两个数据集之间的样本的相似性。
组学数据集成方法
基于多变量投影的探索性方法,如正则化典型相关分析(RCCA)和稀疏偏最小二乘法(SPLS),用于微生物组和AMR数据的集成。这些方法旨在突出高维“组学”数据集之间的相关性。
A 门水平微生物群落与ARGs(组水平)之间的聚类图像热图
B 显示存在于两个数据集中的特征(分类群/参数)的相关结构的相关圆图
成对微生物-ARG相关分析
使用单变量相关分析来确定单个菌群和ARGs(耐药基因组)之间是否存在强相关。使用Spearman、Pearson、CCLasso和最大信息系数(Maximal Information Coefficient)四种方法。用户可以使用绝对相关系数和调整p值的组合来选择强且显著的成对相关性。结果如下图,每个节点表示一个菌或ARG。用户可以双击一个节点,以突出显示网络中相应的相关节点。边缘的宽度和颜色表示两个节点之间相关性的强度和方向。
探索ARGs-微生物宿主网络
基于网络的可视化分析系统,提供了解ARGs和微生物宿主之间复杂的“多对多”关系的可能性。例如,通过查找在多个微生物中发现的ARGs或通过识别同时包含多个感兴趣的ARGs的微生物,可以直接从网络的角度找到承上启下的关键点。
从ResistoXplorer程序中涵盖的数据库中搜集ARGs-微生物宿主信息,构建的关联表用于网络可视化和功能分析。如下图,它由三个主要组件组成:中央网络可视化区、左侧的网络定制和功能分析面板,包含节点表的右侧面板。
用户可以使用带滚轮的鼠标直观地查看和操作中心区域的网络。例如,可以滚动滚轮来放大和缩小网络,将鼠标悬停在任何节点上以查看其名称,单击节点以在右下角显示其详细信息,或双击节点以将其选中。
顶部的水平工具栏显示了操纵网络的基本功能。第一个是颜色选择器,能够为下一次选择选择高亮颜色。还可以使用工具栏中的虚线方形图标选择并拖动多个节点。对当前网络中存在的ARGs进行功能富集分析,使用超几何测试方法,这种方法与网络可视化系统相结合,在解释AMR耐药机制和提供ARGs的可能传播路径信息可能会有更好的效果。
文章中为了展示该工具的可用性,在已发表的一些研究中,选择了1个研究进行抗性分析,“利用商业饲养牛检验图拉霉素(抗菌药物)对肠道微生物组和耐药性的影响”,分析的内容就如同上面展示的那样,这里就不多加赘述。
与其他工具的比较,文章中也列举了一个表格,分别与AMR++Shiny、resistomeAnalusis、WHAM!在分析模块上进行了比较。实际上大同小异,主要的分析模块以及使用的数据库都是相似的,只是谁的数据库更强大,搭载的分析模块更多的区别。
哪款软件的算法和统计分析匹配你的实验数据,或者它能为你提供更多的数据信息,就是适合你的。
这款在线分析抗生素耐药性基因组的程序值得探索一下,统计分析方法和数据库内容都挺强大的,交互式的使用也免去了对编程语言的探索,并且开发人员也表示会持续更新和精选数据库以达到更准确的下游分析。
相关阅读:
谷禾官网:
参考文献
Dhariwal A, Junges R, Chen T, Petersen FC. ResistoXplorer: a web-based tool for visual, statistical and exploratory data analysis of resistome data. NAR Genom Bioinform. 2021 Mar 24;3(1): lqab018.
Interagency Coordination Group on Antimicrobial Resistance No time to wait–securing the future from drug-resistant infections. Rep. Secret. Gen. Nations. 2019.
Simonsen G.S., Tapsall J.W., Allegranzi B., Talbot E.A., Lazzari S. The antimicrobial resistance containment and surveillance approach-a public health tool. Bull. World Health Organ. 2004; 82:928–934.
Cecchini M., Langer J., Slawomirski L. Antimicrobial Resistance in G7 Countries and Beyond: Economic Issues, Policies and Options for Action. Paris: Organization for Economic Co-operation and Development. 2015; 1–75.
Xia Y., Zhu Y., Li Q., Lu J. Human gut resistome can be country-specific. PeerJ. 2019; 7:e6389.
Forslund K., Sunagawa S., Kultima J.R., Mende D.R., Arumugam M., Typas A., Bork P. Country-specific antibiotic use practices impact the human gut resistome. Genome Res. 2013; 23:1163–1169.
谷禾健康
是谷禾面向健康领域的品牌,通过无创采集微量粪便样品,常温快递运输至谷禾检测中心,经全自动化样品处理和提取后大规模高通量测序获取菌群基因数据并进行分析解读,凭借全球领先的样本积累和业界独有的人工智能算法实现了基于肠道菌群的疾病预测和系统健康风险评估, 以及肠道菌群,病原物感染,重金属污染以及营养物质和激素代谢水平等在内的综合健康风险提示,并提供精准个性化的健康管理方案。公司成立于2012年,总部位于杭州,拥有优秀的研发团队和独立实验室,经过多年的积累,已完成超8万例临床肠道菌群样本检测,并构建了超过30万各类人群样本数据库。
谷禾健康的服务旨在通过持续不断的研发和改进,大量自动化提升效率,降低检测成本,为广大消费者提供更好更有价值的产品。
联系方式:400-161-1580