可变剪切位点强度计算[自用]
软件安装
# 安装bedtools
$ conda install -c bioconda bedtools
# 安装astk
$ pip install git+https://github.com/huang-sh/astk.git@dev
剪切位点强度计算
支持 suppa2, rMATS输出结果。可直接计算各位点强度得分。该软件是对MaxEntScan(http://hollywood.mit.edu/burgelab/maxent/Xmaxentscan_scoreseq.html)的一个封装。
以下举了两个例子,分别使用suppa2和rMATS的输出结果,进行计算
# 基因组序列文件
gfa=GRCm38.primary_assembly.genome.fa
astk sss -e event/suppa2_SE.sig.dpsi -od output/SUPPA2_SE -fi $gfa &
astk sss -e event/SE.MATS.JCEC.txt -od output/rMATS_SE -fi $gfa &
运行结果:
$ ll -h output/rMATS_SE | cut -f 5- -d " "
53 Sep 2 21:23 A0_3SS
53 Sep 2 21:23 A1_5SS
53 Sep 2 21:23 A2_3SS
53 Sep 2 21:24 A3_5SS
53 Sep 2 21:24 A4_3SS
53 Sep 2 21:24 A5_5SS
23K Sep 2 21:24 splice_scores_box.png
161K Sep 2 21:24 splice_scores.csv
$ ll -h output/SUPPA2_SE | cut -f 5- -d " "
53 Sep 2 21:23 A0_5SS
53 Sep 2 21:23 A1_3SS
53 Sep 2 21:23 A2_5SS
53 Sep 2 21:23 A3_3SS
16K Sep 2 21:23 splice_scores_box.png
51K Sep 2 21:23 splice_scores.csv
对于skipping exon 类型其中,rMATS输出结果会比SUPPA2的多两个。因为rMATS的输出结果包含了上游exon的3‘ss,和下游exon的5ss。而suppa2没有。
其中A_SS文件内包含了剪切位点的序列和bed坐标文件
splice_scores_box.png
splice_scores.csv是csv表格,包含各位点得分