摘要: 从string-db下载蛋白质相互作用的信息,在处理时发现蛋白A与B互作被记录了两次比如下边的例子(即AB、BA) ```Bash df.drop_duplicates() # Symbol1 Symbol2 # Gnai3 Pdcl2 # Pdcl2 Gnai3 # Gm4340 Gm3376 # 阅读全文
posted @ 2023-05-27 09:12 生信探索 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 实际数据分析中遇到需求,把某个Excel表格按照某一列分为多个sheet,并且要求如果某个key对应的行数较少应该合并到一个sheet中。 ```Python import pandas as pd import bioquest as bq # https://jihulab.com/BioQue 阅读全文
posted @ 2023-05-27 09:11 生信探索 阅读(104) 评论(0) 推荐(0) 编辑
摘要: <~生~信~交~流~与~合~作~请~关~注~公~众~号@生信探索> 学习的第一个GATK找变异流程,人的种系变异的短序列变异,包括SNP和INDEL。写了一个SnakeMake分析流程,从fastq文件到最后的vep注释后的VCF文件,关于VCF的介绍可以参考上一篇推文基因序列变异信息VCF (Va 阅读全文
posted @ 2023-05-27 09:10 生信探索 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 写的数据预处理snakemake流程其实包括在每个单独的分析中比如种系遗传变异和肿瘤变异流程中,这里单独拿出来做演示用,因为数据预处理是通用的,在call变异之前需要处理好数据。 数据预处理过程包括,从fastq文件去接头、比对到基因组、去除重复、碱基质量校正,最后得到处理好的BAM或CRAM文件。 阅读全文
posted @ 2023-05-27 09:09 生信探索 阅读(13) 评论(0) 推荐(0) 编辑