摘要:
annovar软件组件介绍之一——table_annovar.pl(译) 对于初学者,使用ANNOVAr的最简单方法是使用table_annovar.pl程序,该程序采用输入突变文件(例如,VCF文件)并生成带有多个制表符分隔的输出文件,每个列表示一组注释。另外,如果输入是VCF文件,则程序还生成新 阅读全文
摘要:
以下是对Ensembl突变数据库中储存的数据的描述,对于Ensembl数据库中不同的物种,我们从各种来源(例如,dbSNP数据库)导入突变数据(SNP、CNV、等位基因频率、基因型等),导入的突变数据和等位基因经过质量控制过程来标记可疑数据。 我们将突变分成几个不同的类,并计算突变的预测结果,并且我 阅读全文
摘要:
在基因注释时,难免碰到各种GENE在不同数据库之间的ID转换(例如,Ensembl ID 转Entrez ID,或者Entrez ID与GENE Symbol之间的转换)。这里介绍一下常用的三个在线网站, DAVID、bioDBnet、Ensembl Biomart, DAVID访问太慢,Ensem 阅读全文
摘要:
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2018-06-11 09:35:49 # @Author : Yaheng Wang (m13262578991@163.com) # @Link : http://www.wy2160640.github.io # @Version : $Id$ import... 阅读全文
摘要:
在指定路径下,搜索Excel文件中包含的指定内容,首先需要遍历指定路径,得到该路径下所有Excel文件的绝对/相对路径;然后读取Excel中内容,将文件中的每个单元格的值与要搜索的内容进行判断(正则比较,等值比较)。因此,实现该功能需要完成两部分内容,路径遍历和Excel文件内容读取。 使用os模块 阅读全文
摘要:
在生物信息学分析中,经常对DNA序列进行一系列操作,包括子序列截取,互补序列获取,反向序列获取,反向互补序列获取。在python语言中,可编写如下函数完成这些简单功能。 子序列截取 python中对序列截取使用字符串切片功能就可以完成,例如: 注意,切片操作是“0-base”的,包左不包右。 互补序 阅读全文
摘要:
PandaSeq安装 $ ./autogen.sh && ./configure && make && sudo make install PandaSeq安装报错 PandaSeq install error: ltld required, install libtool library解决方法 阅读全文
摘要:
Ensemble公共MySQL数据库 对于大量数据和更详细的分析,Ensemble的MySQL服务器ensembldb.ensembl.org,useastdb.ensembl.org或asiadb.ensembl.org,可以以匿名方式访问。 第三台服务器martdb.ensembl.org提供对 阅读全文
摘要:
1.python安装 我的电脑是32位的,安装了Python 3.5.4版本其它安装版本 2.python环境变量配置 将”C:\Program Files\Python35",”C:\Program Files\Python35\Scripts”(视具体python安装路径添加)添加进环境变量pa 阅读全文
摘要:
vcf格式示例 ##fileformat=VCFv4.1 ##FILTER=<ID=LowQual,Description=”Low quality”> ##FORMAT=<ID=AD,Number=.,Type=Integer,Description=”Allelic depths for the 阅读全文
摘要:
primer3是由怀特黑德生物医学研究所Steve Rozen等人发起的一个自动寡核苷酸分析和设计的开源项目,被广泛应用在分子生物领域。primer3-py是用python语言封装的primer3的API,官方推荐安装linux,mac平台,如何在windows平台下安装呢? 阅读primer3-p 阅读全文
摘要:
pysam模块 因为要分析sam文件中序列的情况,因此要对reads进行细分,所以之前想用数据库将sam文件信息存储,然后用sql语句进行分类。后来发现很麻烦,pysam就是一个高效读取存储在SAM / BAM / CRAM格式文件中的映射短读序列数据信息的python模块,可以轻松地对reads进 阅读全文
摘要:
简介 SRA数据库是美国国立卫生研究院(NIH)的高通量测序数据的主要归档,是国际核苷酸序列数据库协作(INSDC)的一部分,其中包括NCBI序列读取存档(SRA),欧洲生物信息学研究所(EBI)和DNA数据库 日本(DDBJ)。 提交给三个组织中的任何一个的数据都是共享的。 SRA数据库数据来自高 阅读全文
摘要:
一、BED 文件格式 BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。 每行的数据格式要求一致。 必须包含的3列: 1.chrom, 染色体名字(e.g. chr3, chrY) 2.chromStart, 目标区段在染色体起始位置 阅读全文
摘要:
UCSC Genome Browser是由University of California Santa Cruz (UCSC) 创立和维护的,该站点包含有人类、小鼠和大鼠等多个物种的基因组草图和注释信息,并提供一系列的网页分析工具。 1.MySQL安装 本人使用的是Centos6.8系统,推荐使用y 阅读全文