R:Wilcoxon秩和检验(第二版)

# 清除所有变量并设置工作目录
rm(list = ls())
setwd("C:\\Users\\Administrator\\Desktop\\新建文件夹 (2)")

# 加载必要的库
library(doBy)

# 读取数据
gene <- read.table('table.l5.relative-SE.txt', sep = '\t', header = TRUE, stringsAsFactors = FALSE)
group <- read.table('group.txt', sep = '\t', header = TRUE, stringsAsFactors = FALSE)

# 将gene数据转换为长格式
gene_long <- as.data.frame(t(gene))
colnames(gene_long) <- gene_long[1, ]
gene_long <- gene_long[-1, ]
gene_long$sample <- rownames(gene_long)
gene_long <- reshape2::melt(gene_long, id.vars = 'sample', variable.name = 'gene', value.name = 'expression')

# 合并gene和group数据框
gene_grouped <- merge(gene_long, group, by = 'sample')
gene_grouped$expression <- as.numeric(as.character(gene_grouped$expression))

str(gene_grouped)


# 初始化结果变量
result <- NULL

# 进行Wilcoxon秩和检验
for (gene_id in unique(gene_grouped$gene)) {
  sub_data <- subset(gene_grouped, gene == gene_id)
  
  # 确保expression列是数值类型
  sub_data$expression <- as.numeric(as.character(sub_data$expression))
  
  if (length(unique(sub_data$group)) > 1) {
    test_result <- wilcox.test(expression ~ group, data = sub_data)
    if (!is.na(test_result$p.value) && test_result$p.value < 0.05) {
      stats <- summaryBy(expression ~ group, data = sub_data, FUN = c(mean, median))
      result <- rbind(result, c(gene_id, as.character(stats[1, 1]), stats[1, 2], stats[1, 3], as.character(stats[2, 1]), stats[2, 2], stats[2, 3], test_result$p.value))
    }
  }
}


# 将结果转换为数据框并添加列名
result <- as.data.frame(result)
names(result) <- c('gene_id', 'group1', 'mean1', 'median1', 'group2', 'mean2', 'median2', 'p_value')

# 进行p值校正
result$p_adjust <- p.adjust(result$p_value, method = 'BH')

# 输出结果到文件
write.table(result, 'table.l5.relative-SE.wilcox.txt', sep = '\t', row.names = FALSE, quote = FALSE)

在分析微生物群落通路的差异时,是否使用Wilcoxon秩和检验(也称为Mann-Whitney U检验),需要考虑几个关键因素:

  1. 数据类型:Wilcoxon秩和检验适用于非参数数据,即当你的数据不满足正态分布或者样本量较小时,这种检验可以是一个好的选择。

  2. 样本独立性:该检验适用于两个独立样本的情况。在你的案例中,如果你比较的是两组不同处理或条件下的玉米根际微生物群落通路,且这两组样本是独立的,那么使用Wilcoxon秩和检验是合适的。

  3. 数据特征:对于微生物群落通路的差异分析,数据通常是定量的,但可能不符合正态分布。在这种情况下,Wilcoxon秩和检验作为一种非参数检验,比传统的参数检验(如t检验)更加适用。

  4. 样本大小:如果每个组的样本量较小(通常小于30),标准的参数检验可能不太适用,而Wilcoxon秩和检验则可以提供更可靠的结果。

  5. 数据的生物学意义:在实际应用中,考虑检验的生物学意义也很重要。例如,如果你的数据表现出明显的非正态分布,那么使用非参数检验可能更能反映数据的实际生物学特性。

综上所述,如果你的微生物群落通路数据是非正态分布的,并且来自两个独立的样本组,那么使用Wilcoxon秩和检验来对比它们之间的差异是合理的。然而,最终决策还应考虑到数据的具体特点和分析目的。在实际操作中,可以通过先行的数据探索性分析(如绘制箱线图或进行正态性检验)来辅助决策。

posted @ 2024-01-12 20:25  王哲MGG_AI  阅读(161)  评论(0编辑  收藏  举报