03 2021 档案
摘要:1. 主要纠错类型 上篇HiC挂载软件以及如何用Juice_box手工纠错?我吐槽了Juicebox操作麻烦,且没有详细文档。今天在3d-dna流程3D de novo assembly (3D-DNA) pipeline中,终于找到Juicebox的官方文档了:http://aidenlab.or
阅读全文
摘要:1.常用HiC挂载软件 ALLHiC 张兴坦老师专为多倍体和高杂合度物种基因组挂载开发。如果是复杂基因组,肯定是首选。对于简单基因组,我跑了下,结果不佳。提了issue,张老师特意开发了个为简单基因组设计的流程:https://github.com/tangerzhang/ALLHiC/blob/m
阅读全文
摘要:需求 客户随手丢来一个基因型文件,类似于hapmap格式,只是少了中间多余的那几列,像这种类hapmap格式文件,往往是芯片数据。 这样的数据因为缺乏等位基因:参考碱基和变异碱基信息,对应在vcf文件中就是REF和ALT,导致后续一些分析没法进行。 那么,问题来了:怎么根据这个基因型文件来推断参考和
阅读全文
摘要:需求 要写一个接口,同时支持压缩和未压缩文件读入 示例代码 笨办法 import os import gzip filename = sys.argv[1] if not filename.endswith('.gz'): with open(filename, 'r') as infile: fo
阅读全文
摘要:需求 客户的一个简单需求: 我有一批功能基因位点,想从重测序的群体材料中找到这些位点,如何批量快速获得? 示例文件 gene.txt test.vcf 代码实现 run.sh cat $1 |while read gene chr from to do #echo $chr $from $to if
阅读全文
摘要:ln -s 改成 ln -sf f在很多软件的参数中意味着force ln -sf /usr/bin/bazel-1.0.0 /usr/bin/bazel
阅读全文
摘要:1.原理的区别 主要区别在于,非加权组平均法(UPGMA)是基于平均链接方法的聚集层次聚类方法,而邻接法(NJ)是基于最小演化准则的迭代聚类法。 UPGMA的假定条件是:在进化过程中,每一世系发生趋异的次数相同,即核苷酸或氨基酸的替换速率是均等且恒定的。 UPGMA生成有根树,而NJ生成无根树。由于
阅读全文
摘要:下了一些sra数据库中的公共数据,因为pretech和aspera不稳定,稍微大点的文件经常传断,部分文件我只能通过本地下载再上传。 那么问题来了,sra没有md5校验,我怎么知道我数据的完整性,尤其是通过本地下载的那些数据? 网上查了下是说,sra是自带md5校验的(The SRA archive
阅读全文
摘要:python写流程控制的时候,有时需要等待运行结果完成才能进行下一步。有几个想法: 一是反复循环判断直到生成结果文件(且文件中有预期结果),低效易出错; 二是用subprocess模块来判断进程结果,较为常用; 三是用drmaa包,功能强大,但使用相对复杂。 这次介绍如何用subprocess来实现
阅读全文