R语言完美重现STAMP结果图 _R语言

写在前面
之前写过一篇关于统计学软件STAMP的教程，使用STAMP对微生物群落数据进行统计学分析还是挺方便的，尤其是对R语言不是很熟悉的朋友来说，图形化的界面和相对简单的操作还是挺友好的。

STAMP——微生物组间差异统计分析简明教程中文帮助文档

我们通常使用的STAMP的结果主要就是两组数据之间差异性检验的被称作Extended error bar(扩展柱状图)的图像。
由于STAMP的结果图相对固定，可修改的图像参数有限，经常会遇到一些问题，比如靶标物种或功能基因名字过程就会导致显示不全，在与其它图像拼接成一副图的时候也会出现字号太小导致看不清楚的问题。
正好前几天在群里有人询问了这个图有没有其它的绘制办法，今天就给大家带来一个使用ggplot2绘制Extended error bar的方法。

文章插图

数据准备这里我将使用一套同一环境位点水体和沉积物16S扩增子测序的PICRUSt功能预测结果作为示例。
选择的是KEGG L2水平的功能预测的相对丰度数据。
绘图的数据文件有两个，一个是丰度数据，另一个是样本分组数据。

文章插图

文章插图
后台回复“STAMP”获取示例文件和完整代码。
首先将数据导入R环境，我是首先过滤掉了平均丰度低于1%的功能分类。

data <- read.table("KEGG_L2.txt",header = TRUE,row.names = 1,sep = "t")group <- read.table("group.txt",header = FALSE,sep = "t")library(tidyverse)data <- data*100data <- data %>% filter(Apply(data,1,mean) > 1)

??如果使用不同分类学水平的微生物数据或着更深层次的功能注释数据，由于物种或功能基因种类较多，可能会导致结果中具有差异的数目特别多，比如几十个差异物种放在一副图里基本上是不可能看清的，这种时候就要对数据进行过滤，去除低丰度的物种或基因，具体的过滤标准请根据自身数据情况自行确定。

统计学检验在绘制Extended error bar之前首先要对数据进行差异显著性检验，以选出丰度在不同组间具有显著差异的物种或功能基因，这里以两组数据为例，使用的检验方式通常为t-test和Wilcox秩和检验。
当分析数据符合正态分布时，使用t-test，如不符合正态分布，则使用Wilcox秩和检验。

t-test首先对数据进行调整，构建用于t-test的数据框。

data <- t(data)data1 <- data.frame(data,group$V2)colnames(data1) <- c(colnames(data),"Group")data1$Group <- as.factor(data1$Group)

由于R语言的t-test一次只能分析一列数据，在网上搜到了一个批量进行t-test的方法，感觉是最简便的了。
【R语言完美重现STAMP结果图】首先使用select_if选择格式为数字列，然后使用map_df分别对每一个列进行t-test，最后使用broom：tidy将结果整合在tidy的数据框中。

diff <- data1 %>%select_if(is.numeric) %>%map_df(~ broom::tidy(t.test(. ~ Group,data = https://www.isolves.com/sh/zs/2020-07-23/data1)), .id = 'var')

最后对t-test的p值进行校正，保留校正后p值小于0.05的数据。
diff$p.value <- p.adjust(diff$p.value,"bonferroni")diff <- diff %>% filter(p.value < 0.05)
秩和检验秩和检验和上面的t-test一样，只需要把代码中的t.test换成wilcox.test就可以了。

diff1 <- data1 %>%select_if(is.numeric) %>%map_df(~ broom::tidy(wilcox.test(. ~ Group,data = https://www.isolves.com/sh/zs/2020-07-23/data1)), .id = 'var')diff1$p.value <- p.adjust(diff1$p.value,"bonferroni")diff1 <- diff %>% filter(p.value < 0.05)

数据可视化这个Extended error bar的结果图整体分为两个部分，左侧为组建物种或基因丰度平均值的比较条形图，右侧为组间平均丰度及其95%置信区间的散点图。
画图的思路是首先分别绘制左右两幅图，之后再拼接在一起，因此需要首先构建绘制两幅图所需的绘图文件。

绘图数据获取对于左侧的组间丰度均值比较条形图，我们首先根据差异性检验的结果从原始的丰度数据文件中提取具有显著差异的列，之后按照分组计算其组内平均丰度，再转换成ggplot绘图所用的长格式数据框。

abun.bar <- data1[,c(diff$var,"Group")] %>%gather(variable,value,-Group) %>%group_by(variable,Group) %>%summarise(Mean = mean(value))
上一页
1
2
3
下一页
		  	






























推荐阅读

           
                  
              
                  京城新闻■如何与新冠肺炎区分？，春季流感高发 
                
                   
                
              
            

                  
              
                  金桔蜜饯的做法简单,金桔蜜饯的做法 
                
                   
                
              
            

                  
              
                  母婴参考|孕妈有以下感应，抓紧补三种营养，只长胎不长肉，胎儿进入猛涨期 
                
                   
                
              
            

                  
              
                  净利润|牛气冲天！ 又一个重磅利好来了！ 
                
                   
                
              
            

                  
              
                  中宏网国际|俄方早已作出抉择：准备乘中国飞船上天，美国力邀俄罗斯合作探月 
                
                   
                
              
            

                  
              
                  【梦舞清风】老年人想要改善睡眠质量有哪些小技巧？ 
                
                   
                
              
            

                  
              
                  天狼星|12月三款新皮肤加入，第四款天狼星锁定射手，阿离守约玩家巨赚！ 
                
                   
                
              
            

                  
              
                  剑与远征团队远征圣物合成顺序大全 团队远征圣物合成图一览|剑与远征团队远征圣物合成顺序大全 团队远征圣物合成图一览 
                
                   
                
              
            

                  
              
                  能够早恋的是啥样的家庭环境 
                
                   
                
              
            

                  
              
                  武汉雨水今起歇息3天 气温缓慢回升 
                
                   
                
              
            

                  
              
                  遭遇不测为何被称为“三长两短” 三长两短 
                
                   
                
              
            

                  
              
                  “扩列”是怎么回事？ 扩列是什么意思 
                
                   
                
              
            

                  
              
                  港媒：黑衣暴徒滥用私刑 与恐怖分子有何区别？ 
                
                   
                
              
            

                  
              
                  如果一个人会因为小事情开心，那他也会很容易因为小事情而烦恼吗 
                
                   
                
              
            

                  
              
                  男生怎么穿搭成熟有气质,成熟男人应该怎么穿搭- 
                
                   
                
              
            

                  
              
                  「网红」网红带货 监管要跟上 
                
                   
                
              
            

                  
              
                   贪欢|甜炸的古言文五年前一夜贪欢，五年后四个小祖宗闯进了他的王府 
                
                   
                
              
            

                  
              
                  TNGA家族再添新成员 全新雷凌能否满足消费者的多元需求 
                
                   
                
              
            

                  
              
                  「打野」为何玩辅助能上王者，打野却卡在钻石，百星王者：3个字 
                
                   
                
              
            

                  
              
                  朱珠|布拉德皮特与《吸血鬼日记》男主前妻相恋，女友29岁被吐槽老气 
                
                   
                
              
            

          

天黑黑孙燕姿在线试听 孙燕姿天黑黑是什么语言 

C 语言实现的跨平台开发库 TBOX 

家庭语言暴力危害不容忽视 

在C语言中如何高效地复制和连接字符串？ 

「C语言」常用算法 

茶文化与公益完美结合深圳新增个人命名基金 

C语言有多少个关键字，你知道吗？ 

汉语是不是全球最难的 世界上公认最难的语言排名 

C语言的三套标准：C89、C99、C11 

工藤静香|51岁工藤静香重现忧郁气质，豪宅内拎LV摆拍，被吐槽穿搭无季节感