随笔分类 - 数据处理
测序原理-数据格式-数据库
摘要:环境的查看: conda env list 环境的创建: conda create -n new_env(环境名) 进入某个环境: source activate myenv 退出某个环境: conda deactivate source deactivate py37 查看conda安装的包: c
阅读全文
摘要:dplyr包 mutate(),将一列向量加入到已有的数据框,向量长度和数据框列数要一样 select(),选择数据框的某几列 filter(),对数据框的行进行筛选 df1 <- data.frame( name = c("Alice", "Alice", "Bob", "Bob", "Carol
阅读全文
摘要:在真核生物中,大多数基因可以编码多个蛋白质,这是因为基因经过可变剪接,可产生多个转录异构体,从而大大增加了基因组的蛋白编码潜力。来自同一个基因的可变剪接异构体可能有着明显不同、甚至拮抗的作用。为了研究基因表达,研究人员利用新一代测序方法研究了生物体各个基因的片段,这种方法通常称为RNA测序(RNA
阅读全文
摘要:第三代测序技术是指单分子测序技术,在测序过程中不需要涉及PCR扩增,实现了对每一条DNA分子的单独测序。三代测序技术具有超长读长,还拥有不需要模板扩增、运行时间较短、直接检测表观修饰位点、较高的随机测序错误等特点。它弥补了第二代测序读长短、受GC含量影响大等局限性,已在小型基因组从头测序和组装中有较
阅读全文
摘要:NCBI上下载的原始数据为SRA数据,而适用于大部分生物软件的是fastq格式,所以我们需要将sra格式的原始数据转为fastq格式。NCBI提供了数据转换的软件fastq dump。 1、下载软件 解压后软件就在 2、转换格式 使用基本命令行 但是这个默认使用方法得到结果往往很糟, 比如说他默认会
阅读全文
摘要:Ensembl是一项生物信息学研究计划,旨在开发一种能够对真核生物基因组进行自动诠释(automatic annotation)并加以维护的软件。该计划由英国维康基金桑格研究院及欧洲分子生物学实验室所属分部欧洲生物信息研究所共同协作运营,这是为了回应人类基因组计划即将完而于1999年启动的 。在存在
阅读全文