GWAS中的名称概念

基因:

是指决定生物某一遗传性状的染色体DNA片段

基因型:

`基因型`又称`遗传型`,是某一生物个体全部基因组合的总称。它反应生物体的遗传构成,即从双亲获得的全部基因的总和。遗传学中具体使用的基因型,往往是指某一性状的基因型。两个生物只要有一个基因座不同,那么它们的基因型就不相同,因此基因型指的是一个个体所有等位基因的所有基因座上的所有组合。
`基因型`是生物性状表型的内在遗传基础,是肉眼看不到的,只能通过杂交试验根据表型来推断

单倍型

是`单倍体基因型`的简称,在遗传学上是指在同一染色体上进行共同遗传的多个基因座上等位基因的组合;通俗的说法就是若干个决定同一性状的紧密连锁的基因构成的`基因型`。按照某一指定基因座上基因重组发生的数量,单倍型甚至可以指至少两个基因座或整个染色体。

二倍体:

凡是由受精卵发育而来,且体细胞中含有两个染色体组的生物个体,均称为二倍体。由二倍体的体细胞培育而来的植物,以及由只含一组染色体组的单倍体经过染色体数目加倍处理而来的植物也叫二倍体。可用2n表示。人和几乎全部的高等动物,还有一半以上的高等植物都是二倍体。染色体倍性是指细胞内同源染色体的数目,只有一组称为“单套”或“单倍体”

等位基因:

一般指位于`一对同源染色体上的相同位置上控制着相对性状的一对基因`。它可能出现在染色体某特定座位上的两个或者多个基因中的一个。
若一个座位上的基因以两个以上的状态存在,便称为`复等位基因`。
若成对的等位基因中两个基因完全相同,则个体对此性状来说是纯合子,若两个等位基因各不相同,则个体对该性状来说是杂合子。在杂合子配对中,显性等位基因使隐性等位基因的性状得不到表现。

杂合体:

`杂合子`(英语:Heterozygote),也称`异型合子`,在遗传学上是拥有两种不同等位基因的二倍体生物,或是其基因型,例如“Aa”或是“Bb”。在显性遗传的原则下,若有一个等位基因属于显性,则表现型将以此显性基因为主
也指两个基因型不同的配子结合而成的`合子`,亦指由此种合子发育而成的生物个体。
`杂合体`的同源染色体,在其对应的一对或几对基因座位上,存在着不同的等位基因,如Aa、AaBb、AaBbCc等等,具有这些基因型的生物,就这些成对的基因来说,都是杂合体。在它们的自交后代中,这几对基因所控制的性状会发生分离。杂合体个体(杂种)在生活力、产量和寿命方面常比纯合体有优势

纯合体:

`纯合子`(英语:homozygote),亦称`同型合子`,在遗传学上,二倍体生物的某个基因座上拥有相同的等位基因,而基因型和基因的表现型也是完全相同和对等。例如“AA”、“OO”

同源染色体:

在二倍体生物细胞中,形态,结构基本相同的染色体,并在减数第一次分裂的四分体时期中彼此联会,最后分开到不同的生殖细胞(即精子、卵细胞)的一对染色体,在这一对染色体中一个来自母方,另一个来自父方。

连锁不平衡:

分属两个或两个以上基因座位的等位基因同时出现在一条染色体上的几率,高于随机出现的频率。
简单地说,只要两个基因不是完全独立地遗传,就会表现出某种程度的连锁。这种情况就叫`连锁不平衡`。连锁不平衡可以是同一条染色体上的不同区域,也可以是不同染色体上。

基因分型:

基因分型(Genotyping)是利用生物学检测方法测定个体基因型(Genotype)的技术

次等位基因频率MAF:

`最小等位基因频率`通常是指在给定人群中的不常见的等位基因发生频率,例如TT,TC,CC三个基因型,在人群中C的频率=0.36,T的频率=0.64,则等位基因C就为最小等位基因频率,MAF=0.36。`
MAF的定义目前理解还是以NCBI的官网定义为准,也就是`次等位基因频率`,主要是为了从罕见的变异中区分常见的多态性

参考:https://www.ncbi.nlm.nih.gov/projects/SNP/docs/rs_attributes.html#gmaf

基因频率:

`基因频率`是某种基因在某个种群中出现的比例。
`基因型频率`是某种特定基因型的个体占群体内全部个体的比例。
前者是某基因个体数占全部基因数的比例,后者是某基因型个体数占群体总数的比例

孟德尔遗传定律

两个定律一个原则

  • 分离定律
    在杂合子细胞中,位于一对同源染色体上的等位基因,具有一定的独立性;当细胞进行减数分裂时,等位基因会随着同源染色体的分离而分开,分别进入两个配子当中,独立地随配子遗传给后代
    孟德尔将这批高茎品种的种子再进行培植,第二年收获的植株中,高矮茎均有出现,高茎:矮茎两者比例约为3:1
  • 自由组合定律
    一对染色体上的等位基因与另一对染色体上的等位基因的分离或组合是彼此间互不干扰的,各自独立地分配到配子中去
    孟德尔将豌豆高矮茎,有无皱纹等包含多项特征的种子杂交,发现种子各自的特点的遗传方式没有相互影响,每一项特征都符合显性原则以及分离定律,这被称为独立分配定律
  • 显性原则
    孟德尔将高茎种子培育成的植株的花朵上,受以矮茎种子培育成的植株的花粉。与此相反,在矮茎植株的花朵上受以高茎植株的花粉。两者培育出来的下一代都是高茎品种

连锁遗传定律

就是原来为同一亲本所具有的两个性状,在F2中常常有连系在一起遗传的倾向,这种现象称为`连锁遗传`
在生殖细胞形成时,一对同源染色体上的不同对等位基因之间可以发生交换,称为`交换律与互换律`

线性回归

`线性回归`是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
回归分析中,只包括一个`自变量`和一个`因变量`,且二者的关系可用一条直线近似表示,这种回归分析称为`一元线性回归分析`。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析
说白了就是自变量和因变量的关系

自变量

自变量是指研究者主动操纵,而引起因变量发生变化的因素或条件,因此自变量被看作是因变量的原因

协变量

协变量:在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响响应。同时,它指与因变量有线性相关并在探讨自变量与因变量关系时通过统计技术加以控制 的变量。常用的协变量包括因变量的前测分数、人口统计学指标以及与因变量明显不同的个人特征等

表型

指生物体所表现的性状,是可以直接观测的,例如红色和白色的花

质量性状

属性性状,即能观察而不能量测的性状,是指同一种性状的不同表现型之间不存在连续性的数量变化,而呈现质的中断性变化的那些性状。在单基因遗传病中,基因型和表现型之间的对应关系较为明显,因此这一性状的变异在群体中的分布往往是不连续的,可以明显地分为2~3群,所以单基因遗传的性状也称质量性状。角的有无、毛色、血型、遗传缺陷、花药、籽粒、颖壳等器官的。质量不易受环境条件上的影响,它们在群体内的分布是不连续的,杂交后代的个体可明确分组。

数量性状

数量性状指个体间表现的差异只能用数量来区别,变异呈连续性的性状。它具有两个主要特征:变异呈连续性,变异易受环境条件影响。其主要特征有:①个体间差异很难描述,需要度量;②在一个群体中,变异呈连续性;③数量性状常受多基因控制;④数量性状对环境影响敏感

哈迪温伯格定律

理想状态下,各等位基因的频率和等位基因的基因型频率在遗传中是稳定不变的,即保持着基因平衡。条件:①种群足够大;②种群个体间随机交配;③没有突变;④没有选择;⑤没有迁移;⑥没有遗传漂变

群体结构

群体分层是指群体内存在亚群的现象,亚群内部个体间的相互关系大于整个群体内部个体间的平均亲缘关系
从若干个遗传群体内抽取部分个体,合并到一起即可构建一个混杂群体,这是抽样造成的混杂。
群体遗传学中的群体混杂/群体结构,一般是指由于recent admixture,群体之间存在基因交流而造成的。

PCA

主成分分析PCA(Principal component analysis)就是用降维的方法从重测序百万级别的snp信息中提取关键信息,这些信息按照效应从大到小分为PC1、PC2、PC3…一般PC1对总体信息的解释比例在3~10%之间,结果主要展示前三个PC pairwise的散点图。根据不同的生物学问题,PCA分析用于检测离群样本、分析群体进化关系等

NJ树

邻接法Neighbor-Joining普遍用于重测序数据中相同物种的进化树构建,速度快,但在序列相似度较低时出现长枝吸引现象。该方法通过确定距离最近或相邻的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(Node)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树

亲缘关系

生物类群在系统发生上所显示的某种血缘关系。在对亲缘关系的了解上,而比较形态学上的相同点是非常重要的,其他生殖法、杂交试验、血清学的分类等

LD衰减

一般而言,两个位点在基因组上离得越近,相关性就越强,LD系数就越大。反之,LD系数越小。也就是说,随着位点间的距离不断增加,LD系数通常情况下会慢慢下降。这个规律,通常就会使用LD衰减图来呈现。LD系数的衰减速度在不同的亚群体快慢不同。
相同物种的不同群体,由于其遗传背景不同,LD衰减速度也存在很大的差异。驯化选择,会导致群体遗传多样性下降,位点间的相关性(连锁程度)加强。所以,通常驯化程度越高,选择强度越大的群体,LD衰减速度是最慢的。例如,栽培稻比野生稻通常更大的LD衰减距离。类似的,自然选择、遗传漂变导致的群体遗传多样性下降,也会减慢LD衰减的速度。

摩尔根距离

基因在在染色体上的物理距离

遗传漂变

基因的随机漂移或遗传漂变(random genetic drift):由某一代基因库中抽样形成下一代个体的配子时发生机误,这种机误引起基因频率的变化称之为基因的随机漂移或遗传漂变。换句话说,就是利用随机抽样的办法建立小群体时,由于抽样误差引起基因频率随机波动的现象。
始祖效应、奠基者效应或建立者效应(Founder Effect):有少数个体的基因频率决定了他们后代中的基因频率的效应,是一种极端的遗传漂变作用

重组

狭义上的基因重组只是说的两个特定的时期的现象,分别是减数第一次分裂前期四分体上非姐妹染色单体之间的交叉互换和减数第一次分裂后期非同源染色体之间的自由组合。染色体重组只是说的染色体之间的重新组合和交叉互换(狭义上的基因重组)

胚系突变(Germline variant):

又叫生殖细胞突变,是来源于精子或卵子这些生殖细胞的突变,因此通常身上所有细胞都带有突变;

体细胞突变(Somatic mutation)

又叫获得性突变,是在生长发育过程中或者环境因素影响下后天获得的突变,通常身上只有部分细胞带有突变。

错义突变(missense mutation):

是指DNA的突变引起mRNA中密码子改变,编码另一种氨基酸.如DNA中某GAA发生转换突变成AAA后,使原编码的谷氨酸(Glu)改变为赖氨酸(Lys)。

沉默突变(silent mutation):

也称同义突变(same-sense mutation)DNA的突变虽引起mRNA中密码子改变为另一种密码,但由于密码子的兼并作用,并未使编码的氨基酸改变。

无义突变(nonsense mutation):

DNA的突变引起mRNA中的密码子改变为一种终止密码子。

同义突变与非同义突变区别:

不导致氨基酸改变的核苷酸变异我们称为同义突变,反之则称为非同义突变。一般认为,同义突变不受自然选择,而非同义突变则受到自然选择作用。在进化分析中,了解同义突变和非同义突变发生的速率是很有意义的。常用的参数有以下几种:同义突变频率(Ks)、非同义突变频率(Ka)、非同义突变率与同义突变率的比值(Ka/Ks)。如果Ka/Ks>1,则认为有正选择效应。如果Ka/Ks=1,则认为存在中性选择。如果Ka/Ks<1,则认为有负选择效应
posted @ 2019-05-31 16:38  raisok  阅读(2610)  评论(0编辑  收藏  举报