2018 年 7月 18 日随笔档案 - 青蛙快飞

2018年7月18日

摘要： annovar软件组件介绍之一——table_annovar.pl（译）对于初学者，使用ANNOVAr的最简单方法是使用table_annovar.pl程序，该程序采用输入突变文件（例如，VCF文件）并生成带有多个制表符分隔的输出文件，每个列表示一组注释。另外，如果输入是VCF文件，则程序还生成新阅读全文

posted @ 2018-07-18 21:07 青蛙快飞阅读(3174) 评论(0) 推荐(0) 编辑

Ensembl突变数据描述之（一）——突变物种数据库及预测工具

摘要：以下是对Ensembl突变数据库中储存的数据的描述，对于Ensembl数据库中不同的物种，我们从各种来源（例如，dbSNP数据库）导入突变数据（SNP、CNV、等位基因频率、基因型等），导入的突变数据和等位基因经过质量控制过程来标记可疑数据。我们将突变分成几个不同的类，并计算突变的预测结果，并且我阅读全文

posted @ 2018-07-18 21:04 青蛙快飞阅读(1867) 评论(0) 推荐(0) 编辑

geneid/genesymbol/ensemblid等之间的转换

摘要：在基因注释时，难免碰到各种GENE在不同数据库之间的ID转换（例如，Ensembl ID 转Entrez ID，或者Entrez ID与GENE Symbol之间的转换）。这里介绍一下常用的三个在线网站， DAVID、bioDBnet、Ensembl Biomart， DAVID访问太慢，Ensem 阅读全文

posted @ 2018-07-18 21:03 青蛙快飞阅读(6205) 评论(0) 推荐(0) 编辑

使用python ftplib包递归下载文件夹及文件

摘要： #!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2018-06-11 09:35:49 # @Author : Yaheng Wang (m13262578991@163.com) # @Link : http://www.wy2160640.github.io # @Version : $Id$ import... 阅读全文

posted @ 2018-07-18 21:02 青蛙快飞阅读(860) 评论(0) 推荐(0) 编辑

使用python内置模块os和openpyxl搜索指定文件夹下Excel中的内容

摘要：在指定路径下，搜索Excel文件中包含的指定内容，首先需要遍历指定路径，得到该路径下所有Excel文件的绝对/相对路径；然后读取Excel中内容，将文件中的每个单元格的值与要搜索的内容进行判断（正则比较，等值比较）。因此，实现该功能需要完成两部分内容，路径遍历和Excel文件内容读取。使用os模块阅读全文

posted @ 2018-07-18 21:00 青蛙快飞阅读(3908) 评论(0) 推荐(0) 编辑

python实现DNA序列字符串转换，互补链，反向链，反向互补链

摘要：在生物信息学分析中，经常对DNA序列进行一系列操作，包括子序列截取，互补序列获取，反向序列获取，反向互补序列获取。在python语言中，可编写如下函数完成这些简单功能。子序列截取 python中对序列截取使用字符串切片功能就可以完成，例如：注意，切片操作是“0-base”的，包左不包右。互补序阅读全文

posted @ 2018-07-18 20:59 青蛙快飞阅读(6948) 评论(0) 推荐(0) 编辑

PandaSeq安装报错ltld required, install libtool library

摘要： PandaSeq安装 $ ./autogen.sh && ./configure && make && sudo make install PandaSeq安装报错 PandaSeq install error: ltld required, install libtool library解决方法阅读全文

posted @ 2018-07-18 20:55 青蛙快飞阅读(676) 评论(0) 推荐(0) 编辑

使用MySQL客户端登录Ensemble数据库查询相关信息

摘要： Ensemble公共MySQL数据库对于大量数据和更详细的分析，Ensemble的MySQL服务器ensembldb.ensembl.org，useastdb.ensembl.org或asiadb.ensembl.org，可以以匿名方式访问。第三台服务器martdb.ensembl.org提供对阅读全文

posted @ 2018-07-18 20:54 青蛙快飞阅读(659) 评论(0) 推荐(0) 编辑

Windows上python + selenium + Firefox浏览器的环境配置

摘要： 1.python安装我的电脑是32位的，安装了Python 3.5.4版本其它安装版本 2.python环境变量配置将”C:\Program Files\Python35",”C:\Program Files\Python35\Scripts”(视具体python安装路径添加)添加进环境变量pa 阅读全文

posted @ 2018-07-18 20:52 青蛙快飞阅读(685) 评论(0) 推荐(0) 编辑

VCF文件处理工具PyVCF

摘要： vcf格式示例 ##fileformat=VCFv4.1 ##FILTER=<ID=LowQual,Description=”Low quality”> ##FORMAT=<ID=AD,Number=.,Type=Integer,Description=”Allelic depths for the 阅读全文

posted @ 2018-07-18 20:52 青蛙快飞阅读(3342) 评论(0) 推荐(0) 编辑

windows下primer3-py安装

摘要： primer3是由怀特黑德生物医学研究所Steve Rozen等人发起的一个自动寡核苷酸分析和设计的开源项目，被广泛应用在分子生物领域。primer3-py是用python语言封装的primer3的API，官方推荐安装linux，mac平台，如何在windows平台下安装呢？阅读primer3-p 阅读全文

posted @ 2018-07-18 20:51 青蛙快飞阅读(1484) 评论(0) 推荐(0) 编辑

pysam操作sam文件

摘要： pysam模块因为要分析sam文件中序列的情况，因此要对reads进行细分，所以之前想用数据库将sam文件信息存储，然后用sql语句进行分类。后来发现很麻烦，pysam就是一个高效读取存储在SAM / BAM / CRAM格式文件中的映射短读序列数据信息的python模块，可以轻松地对reads进阅读全文

posted @ 2018-07-18 20:47 青蛙快飞阅读(2858) 评论(0) 推荐(0) 编辑

NCBI SRA数据库

摘要：简介 SRA数据库是美国国立卫生研究院（NIH）的高通量测序数据的主要归档，是国际核苷酸序列数据库协作（INSDC）的一部分，其中包括NCBI序列读取存档（SRA），欧洲生物信息学研究所（EBI）和DNA数据库日本（DDBJ）。提交给三个组织中的任何一个的数据都是共享的。 SRA数据库数据来自高阅读全文

posted @ 2018-07-18 20:44 青蛙快飞阅读(2963) 评论(0) 推荐(0) 编辑

通过bed文件获取fasta序列

摘要：一、BED 文件格式 BED 文件格式提供了一种灵活的方式来定义的数据行，以用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致。必须包含的3列： 1.chrom, 染色体名字(e.g. chr3， chrY) 2.chromStart, 目标区段在染色体起始位置阅读全文

posted @ 2018-07-18 20:43 青蛙快飞阅读(1133) 评论(0) 推荐(0) 编辑

利用mysql客户端查询UCSC数据库

摘要： UCSC Genome Browser是由University of California Santa Cruz (UCSC) 创立和维护的，该站点包含有人类、小鼠和大鼠等多个物种的基因组草图和注释信息，并提供一系列的网页分析工具。 1.MySQL安装本人使用的是Centos6.8系统，推荐使用y 阅读全文

posted @ 2018-07-18 20:41 青蛙快飞阅读(399) 评论(0) 推荐(0) 编辑

加载中......

生信小栈

亚恒的生信学习笔记

公告