lncRNA芯片重注释
lncRNA reannotation
PeRl
2018/9/29
下载lncRNA注释文件GTF
为了在基因芯片中重注释lncRNA对应的探针,我们需要下载合适的lncRNA基因组序列信息,数据来源于 GENECODE数据库.
转换lncRNA文件格式
在后续的数据整理中,我们需要将GTF文件转化为bed文件,程序如下并命名为 gtf2bed.pl
:
use strict;
use warnings;
my $num_args = $#ARGV + 1;
if ($num_args != 2) {
print "\nUsage: gft2bed.pl input_file output_file\n";
exit;
}
my $input_file=$ARGV[0];
my $output_file=$ARGV[1];
open(OUTPUT,">",$output_file);
my @chr;
my @group;
my @class;
my @start;
my @end;
my @score;
my @region;
my @strand;
my @info;
my @array1;
open (my $inFile, '<', $input_file) or die $!;
while (<$inFile>) {
next if /^#/;
push(@array1,split /\n/);
}
close ($inFile);
my @awk;
foreach my $var (@array1)
{
my @awk= (split /\s+/, $var);
$awk[9]=~s/;//;
$awk[9]=~s/"//;
$awk[9]=~s/"//;
if ($awk[2] eq "gene"){
print OUTPUT "$awk[0] $awk[3] $awk[4] $awk[9] $awk[6]\n";
}
}
close OUTPUT;
运行改脚本转换文件格式:
perl gtf2bed.pl lncRNA.gtf lncRNA.bed
下载芯片探针bed
我们需要利用芯片探针的序列信息与lncRNA的序列进行匹配,因此需要去对应平台下载探针信息。 在这个文档中我下载的是 affymetrix HG-U133-Plus 2.0 Array.
存储文件为 `HG-U133_Plus_2.hg19.bed.
利用bedtools进行比对
首先我们需要下载安装 bedtools:
wget https://github.com/arq5x/bedtools2/releases/download/v2.25.0/bedtools-2.25.0.tar.gz
tar -zxvf bedtools-2.25.0.tar.gz
cd bedtools2
make
只用利用 `intersect
进行两个bed文件的比对:
bedtools intersect -a HG-U133_Plus_2.hg19.bed -b lncRNA.bed -wa -wb > result.bed
最终我们就得到了比对的结果: