随机抽样将所有样本的测序深度标准化到相同的水平

dataset$sample_sums() %>% range #计算并查看样本总数的范围

dataset$rarefy_samples(sample.size = 1000000) #执行重采样，标准化样本中的测序深度

"46 features are removed because they are no longer present in any sample after random subsampling ..."
- 这意味着在稀释过程中，有46个特征（OTUs或物种）在所有样本中的累计计数都低于10000，导致在抽样过程中这些特征被完全移除。这通常发生在具有较低丰度的特征上，当抽样深度设置过高时，较低丰度的特征可能完全不会被抽到。
"46 taxa with 0 abundance are removed from the otu_table ..."
- 这表示因为上述稀释抽样，这些特征的丰度变为0，因此从OTU表中被移除。这是对OTU表进行清理的正常步骤，以确保表中不包含任何无效或空的数据行。

稀释抽样（rarefaction）的原理基于一个简单的假设：如果样本之间的测序深度（即测序得到的读数总数）不同，那么它们之间的比较可能会因为测序量的差异而产生偏差。为了消除这种潜在的偏差，稀释抽样通过随机抽样将所有样本的测序深度标准化至相同的较低水平，从而使比较更为公正。

选择一个共同的测序深度：这通常是所有样本中观测到的最低测序深度，或者一个根据研究目的选择的特定值。这个值称为“稀释深度”。
随机抽取：对于每个样本，从其OTU（操作分类单元）表中随机抽取与稀释深度相等数量的读数。这意味着从每个样本中随机选择读数，直到达到指定的稀释深度。
重复计算：由于抽样是随机的，不同的随机抽样可能会导致略有不同的结果。因此，这个过程通常需要重复多次，以平均这些随机变化。
更新OTU表：每次随机抽样都会生成一个更新后的OTU表，其中包含每个OTU在每个样本中的丰度。在多次重复后，这些更新后的OTU表通常被平均或合并，以形成最终的稳定结果。

消除测序深度偏差：通过将所有样本的测序深度标准化，可以确保数据比较的公平性，避免因样本间测序深度差异而导致的分析偏差。
数据稳定性和可靠性：稀释抽样可以减少由测序深度变化引起的样本间的变异性，使得生物多样性的估计更加稳定和可靠。
生物多样性估计：稀释抽样广泛用于估计物种丰富度和多样性指数，如Shannon多样性指数和Simpson多样性指数，因为这些估计通常对样本的测序深度非常敏感。

通过稀释抽样，研究者可以更准确地评估和比较不同样本或实验条件下的微生物群落结构，而不会受到技术变量（如测序深度）的影响。这种方法特别适用于测序数据量大且差异显著的生态或医学微生物研究中。

posted @ 2024-05-07 10:41 王哲MGG_AI 阅读(95) 评论(0) 编辑收藏举报

王哲_UJN_MGG_AI