The human noncoding genome defined by genetic diversity
文章通过11,257个全基因组序列和16,384个heptamers(7聚体)构建了人基因组的map of sequence constraint。检测出基因组最constrained regions中的调控元件(非编码区)。
使用Hi-C,检测来与最essential 基因相关的2M的most constrained 调控元件。
非编码基因组的constrained regions丰度很高,是unconstrained regions的52倍。
这个成千上万个体的sequence constraint 图有助于理解人类基因组的noncoding elements,prioritize variants以及在更大范围内重新考虑gene units。
用大量的k-mer比对来检测附近核苷酸上下文背景下每个核苷酸基因组范围内变异的概率(probabilities of variation),特别是用heptamers(7-mer)用来分析。7-mer能解释替换概率中超过81%的变异。共16,384个unique的7-mer在人基因组中丰度差别很大,每个基因组的counts数从1941-6,332,326不等。一些7-mer与基因组元件显著相关。每个7-mer的特征在于独特的变异率,计算了7-mer第四个核苷酸的变异率和频率。这个统计量在7-mer间相差95倍,计算的score用来定义基因组每个核苷酸的预期变异。
定义context-dependent tolerance score(CDTS)作为观察到变异与预期变异的绝对差异。将基因组划分为550bp的滑动窗口来研究context-dependent constraint regions,然后对每个region排序:most-least。并做了不同CDTS值范围内特定基因组元件的enrichment和depletion。protein-coding exons 在CDTS 1st percentile中强烈富集;与H3K3me3的赖氨酸三甲基化关联的区域是显著depletion。
Constraint: 随着自然选择清除人群中的有害变异,检测选择的方法已经modelled相比预期,变异的减少或等位基因频率分布的更改。As natural selection purges deleterious variants from human populations, methods to detect selection have modelled the reduction in variation (constraint) or shift in the allele frequency distribution8, compared to an expectation.
Constraint region:通过测量protein-changing变异的外显子核苷酸距离来定义Constraint regions。Constraint "regions" are defined by measuring the exonic nucleotide distance between each pair of protein-changing variants.
Variant prioritization: 基于每个变异的预测结果或群体中观察到的频率等基础因素对个体基因组的变异进行排序的过程。可以用来从大量candidate variants中寻找causal variants。The process of ranking the variants observed in an individual genome on the basis of factors such as the predicted consequence of each variant and the observed frequency in a population
本文来自博客园,作者:BioinformaticsMaster,转载请注明原文链接:https://www.cnblogs.com/koujiaodahan/p/14655724.html
posted on 2021-04-13 22:38 BioinformaticsMaster 阅读(90) 评论(0) 编辑 收藏 举报