课程笔记

1.如何下载基因组gff3文件

https://itol.embl.de/

ensembl plant -download-

2.提取cds序列

需要两个文件

①基因组序列文件:序列

②基因结构注释文件gff3：序列对应的结构

TBtools:GXF Sequences Extracter

首先把gff文件拖进去，初始化，选择CDS、parent,拖进去基因组序列文件，输入输出文件位置。

会形成2个文件，一个是格式化的序列TBtools.fa，一个是索引TBtools.fa.fai

3.查看CDS有多少个基因：Fasta Tools-Fasta Stats,然后把cds文件拖进来。

预览一下：big file previewer-big text preview :以ATG开始，以TAG/TGA中止。

4.把cds翻译成蛋白：拖进去fasta格式的cds,输入蛋白输出路径。

5.简化蛋白ID

基因家族分析

1.PlantTFDB网站：转录因子数据库。

2.Tair-browse-gene family下载基因家族序列

利用tair下载拟南芥的ERF蛋白序列，把122序列号复制到①中

复制基因到下面的框-直接get sequence,复制序列到txt文档，打开fasta stats查看。

3.blast：two sequence file

文件：

①122个拟南芥的蛋白序列

②目标物种的蛋白序列：用cds翻译的蛋白序列

③输入.tab文件

用excel打开，选择第二列序列复制到upsetprot去冗余,双击柱状图，复制序列名称。

提取ID的蛋白序列

NCBI-Protein-Blast

posted @ 2021-12-11 18:30 ^_^Anne 阅读(1020) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· winform 绘制太阳，地球，月球运作规律
· 超详细：普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· AI 智能体引爆开源社区「GitHub 热点速览」
· 写一个简单的SQL生成工具

公告

昵称： ^_^Anne
园龄： 3年4个月
粉丝： 1
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

课程笔记

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜