21-有参转录组实战7-基因序列提取
#本教程仿自于“https://zhuanlan.zhihu.com/p/439168788”。 #正则表达式教程https://www.runoob.com/regexp/regexp-tutorial.html。 #1,提取转录本 gffread Ptri_genome.gtf -g Ptri_genome.fa -w Ptri.transcripts.fa #2,CDS gffread Ptri_genome.gtf -g Ptri_genome.fa -x Ptri.cds.fa #3,Protein gffread Ptri_genome.gtf -g Ptri_genome.fa -y Ptri.protein.fa #4,Length of chromosomes cut -f 1,2 Ptri_genome.fa.fai > Ptri_chr.size #5,检查GTF文件第一行 head -n 1 Ptri_genome.gtf | sed 's/"/\t/g' | tr '\t' '\n' | sed = | sed 'N;s/\n/\t/' #6,检查GTF文件第二行 sed -n '2p' Ptri_genome.gtf | sed 's/"/\t/g' | tr '\t' '\n' | sed = | sed 'N;s/\n/\t/'
#7,提取启动子Promoter, 2000bp, first, create bed file sed 's/"/\t/g' Ptri_genome.gtf | awk 'BEGIN{OFS=FS="\t"}{if($3=="transcript") {if($7=="+") {start=$4-2000; end=$4;} else {if($7=="-") start=$5; end=$5+2000; } if(start<0) start=0; print $1,start,end,$12,$12,$7;}}' >Ptri.promoter.bed #8, Install bedtools conda install bedtools #9, Get the promoter sequences bedtools getfasta -name -s -fi Ptri_genome.fa -bed Ptri.promoter.bed > Ptri.promoter.fa #10, Simplify title but not recommend cut -d ':' -f 1 Ptri.promoter.fa> Ptri.promoter.simplename.fa #11, Gene, the bed file can view the gene location type="transcript" sed 's/"/\t/g' Ptri_genome.gtf | awk -v type="${type}" 'BEGIN{OFS=FS="\t"}{if($3==type) {print $1,$4-1,$5,$12,".",$7}}' > Ptri_gene.bed #12, Get the gene sequences bedtools getfasta -name -s -fi Ptri_genome.fa -bed Ptri_gene.bed > Ptri_gene.gene.fa #13, Simplify title but not recommend cut -d ':' -f 1 Ptri_gene.gene.fa > Ptri.gene.simplename.fa #14, 最后保留这些文件,一些细节可用Notepad++ software修改,excel自行整合。不想理解代码,建议用TBtools,这软件在提取序列上还是很好用的。 #Ptri.transcripts.fa#转录本 #Ptri.cds.fa#CDS #Ptri.protein.fa#蛋白 #Ptri_chr.size#染色体长度 #Ptri.promoter.fa#启动子 #Ptri_gene.bed#基因的位置信息 #Ptri_gene.gene.fa#基因序列
#虫师
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人