lncRNA芯片重注释

 

下载lncRNA注释文件GTF

为了在基因芯片中重注释lncRNA对应的探针,我们需要下载合适的lncRNA基因组序列信息,数据来源于 GENECODE数据库.

转换lncRNA文件格式

在后续的数据整理中,我们需要将GTF文件转化为bed文件,程序如下并命名为 gtf2bed.pl:

use strict;
use warnings;

my $num_args = $#ARGV + 1;
if ($num_args != 2) {
    print "\nUsage: gft2bed.pl input_file output_file\n";
    exit;
}

my $input_file=$ARGV[0];
my $output_file=$ARGV[1];

open(OUTPUT,">",$output_file);

my @chr;
my @group;
my @class;
my @start;
my @end;
my @score;
my @region;
my @strand;
my @info;

my @array1;
open (my $inFile, '<', $input_file) or die $!;
while (<$inFile>) {
  next if /^#/;
  push(@array1,split /\n/);
}

close ($inFile);

my @awk;

foreach my $var (@array1)
    {
        my @awk= (split /\s+/, $var);
        $awk[9]=~s/;//;
        $awk[9]=~s/"//;
        $awk[9]=~s/"//;
        if ($awk[2] eq "gene"){
            print OUTPUT  "$awk[0]  $awk[3] $awk[4] $awk[9] $awk[6]\n";
        }
}
close OUTPUT;

运行改脚本转换文件格式:

perl gtf2bed.pl lncRNA.gtf lncRNA.bed

下载芯片探针bed

我们需要利用芯片探针的序列信息与lncRNA的序列进行匹配,因此需要去对应平台下载探针信息。 在这个文档中我下载的是 affymetrix HG-U133-Plus 2.0 Array.

存储文件为 `HG-U133_Plus_2.hg19.bed.

利用bedtools进行比对

首先我们需要下载安装 bedtools:

wget https://github.com/arq5x/bedtools2/releases/download/v2.25.0/bedtools-2.25.0.tar.gz
tar -zxvf bedtools-2.25.0.tar.gz
cd bedtools2
make

只用利用 `intersect 进行两个bed文件的比对:

bedtools intersect -a HG-U133_Plus_2.hg19.bed -b lncRNA.bed -wa -wb > result.bed

最终我们就得到了比对的结果:

posted @ 2018-09-29 14:41  PeRl`  阅读(2837)  评论(0编辑  收藏  举报