获取基因的所有转录本(不同亚型)的外显子区域
转载地址: https://www.cnblogs.com/yahengwang/p/9361101.html
1. 基因转录本亚型
蛋白质亚型或“蛋白质变体“是一组高度相似的蛋白质成员,这些成员来源于单个基因或基因家族,是遗传差异造成的结果。虽然许多具有相同或相似的生物学作用,但一些亚型具有独特的功能。这些高度相似的蛋白质亚型可以由可变剪切(图1)、可变启动子或单基因的其他转录后修饰形成,通常不考虑翻译后修饰。通过RNA剪切机制,mRNA具有从基因中选择不同蛋白质编码区(外显子)的能力,甚至是从RNA中选择外显子的不同部分以形成不同的mRNA序列,每个独特的mRNA序列产生独特的蛋白质。
图1 可变剪切产生不同的转录本和蛋白质
1.1 可变剪切
可变剪切依据外显子之间连接位置的不同,又可以具体细分为如下(图2)几种剪切方式:
-
- 组成型拼接
- 外显子跳跃拼接
- 内含子保留拼接
- 相互排斥的外显子拼接
- 替代5’端剪切
- 替代3'端剪切
图2 不同的RNA剪切机制
2. 基因所有亚型外显子区域获取
楼主想研究一个基因所有外显子区域,而不是单独一个转录本的外显子区域,因此需要获取该基因的所有转录本信息,这里备选三个数据库(NCBI、Ensembl和UCSC)供使用,以BRCA1为例。
2.1 使用NCBI数据库获取BRCA1基因的所有外显子区域
2.1.1 选择“Gene”数据库,输入基因名(例如,“BRCA1”),点“Search”按钮搜索
2.1.2 根据物种(例如,“human”),点击相应基因链接
2.1.3 查看转录本个数,点击“GenBank”进入详情
2.1.4 点击“Send to”,按下图所示选择相应的项,点击“Create File”创建“gff3”格式文件
如图所示,得到BRCA1基因区域所有“feature”的物理位置,包括外显子。
2.2 使用Ensembl数据库获取BRCA1基因的所有外显子区域
2.2.1 物种选择“Human”数据库,输入基因名(例如,“BRCA1”),点“Go”按钮搜索
2.2.2 选择“BRCA1”链接,查看详细
2.2.3 如图所示,“BRCA1”共有33个转录本,点击“Export data”按钮,配置相关参数导出数据
2.2.4 选择输出格式为“gff3”,输出内容只选择“exon”,然后点击“next”,如下图所示
2.3 使用UCSC数据库获取BRCA1基因的所有外显子区域
使用UCSC数据库,需要安装MySQL客户端链接UCSC数据库(不建议使用)
2.3.1 链接UCSC数据库
2.3.2 查询基因“BRCA1”,共有6个记录
3. 小结
NCBI、Ensembl和UCSC均可以对基因的转录本的所有外显子进行查询,推荐使用Ensembl数据库,其次NCBI数据库,最后UCSC数据库。
参考资料