上一页 1 ··· 27 28 29 30 31 32 33 34 35 ··· 59 下一页
摘要: 需求 已知某基因组序列,染色体或scaffold ID顺序不定,想要对其按数字排序。 原顺序: 想要的排序结果: 实现 使用bioawk,没有的话conda直接安装。 bioawk -c fastx '{print}' old.genome.fa | \ sort -k1,1V | awk '{pr 阅读全文
posted @ 2021-04-22 18:09 生物信息与育种 阅读(569) 评论(0) 推荐(0) 编辑
摘要: 问题 这个问题应该很常见吧。R中输出数据框时,想要把行名和列名都输出。如果直接输出的话,输出的结果列名会往前移动一位,这显然不是我们想要的。 直接上例子: > a = matrix(1:9, nrow = 3, ncol = 3, dimnames = list(LETTERS[1:3], LETT 阅读全文
posted @ 2021-04-18 18:11 生物信息与育种 阅读(1580) 评论(0) 推荐(0) 编辑
摘要: 基因结构预测中同源注释策略,将mRNA、cDNA、蛋白、EST等序列比对到组装的基因组中,在文章中通常使用以下比对软件: tblastn gamp exonerate blat 根据我的实测,以上软件整体都比较慢。gmap可设置多线程来提升速度。tblastn虽然也可以,但对提速没什么影响。exon 阅读全文
posted @ 2021-04-16 12:11 生物信息与育种 阅读(2830) 评论(0) 推荐(0) 编辑
摘要: homology策略预测基因结构,下载了公共mRNA/CDS序列,考虑用gmap比对。本来是个很简单的脚本,但总是不那么顺利。 无论是用conda安装,还是源码安装较新版本,都存在问题。 gmap_build -D ./ -d reference reference.fa gmap -t 10 -D 阅读全文
posted @ 2021-04-15 22:43 生物信息与育种 阅读(1586) 评论(0) 推荐(0) 编辑
摘要: 需求 一个数据框一列或多列中有重复行,如何将它的重复行转化为多列?即本来两列一对一的关系,如何转化为一对多的关系?普通的spread函数实现较为麻烦。 示例数据如下: Item Value Apricot 4 Apricot 2 Apricot 5 Banana 4 Carrot 7 Carrot 阅读全文
posted @ 2021-04-14 16:02 生物信息与育种 阅读(758) 评论(0) 推荐(0) 编辑
摘要: 1.conda安装 conda安装虽然简单,但还是有很多坑,而且很多都是隐形的坑。 # conda install -c bioconda repeatmasker conda install -c bioconda repeatmodeler repeatmodeler依赖于repeatmaske 阅读全文
posted @ 2021-04-06 22:59 生物信息与育种 阅读(6449) 评论(2) 推荐(1) 编辑
摘要: 1. 主要纠错类型 上篇HiC挂载软件以及如何用Juice_box手工纠错?我吐槽了Juicebox操作麻烦,且没有详细文档。今天在3d-dna流程3D de novo assembly (3D-DNA) pipeline中,终于找到Juicebox的官方文档了:http://aidenlab.or 阅读全文
posted @ 2021-03-29 18:12 生物信息与育种 阅读(3978) 评论(0) 推荐(1) 编辑
摘要: 1.常用HiC挂载软件 ALLHiC 张兴坦老师专为多倍体和高杂合度物种基因组挂载开发。如果是复杂基因组,肯定是首选。对于简单基因组,我跑了下,结果不佳。提了issue,张老师特意开发了个为简单基因组设计的流程:https://github.com/tangerzhang/ALLHiC/blob/m 阅读全文
posted @ 2021-03-28 23:18 生物信息与育种 阅读(4723) 评论(0) 推荐(0) 编辑
摘要: 需求 客户随手丢来一个基因型文件,类似于hapmap格式,只是少了中间多余的那几列,像这种类hapmap格式文件,往往是芯片数据。 这样的数据因为缺乏等位基因:参考碱基和变异碱基信息,对应在vcf文件中就是REF和ALT,导致后续一些分析没法进行。 那么,问题来了:怎么根据这个基因型文件来推断参考和 阅读全文
posted @ 2021-03-25 22:26 生物信息与育种 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 需求 要写一个接口,同时支持压缩和未压缩文件读入 示例代码 笨办法 import os import gzip filename = sys.argv[1] if not filename.endswith('.gz'): with open(filename, 'r') as infile: fo 阅读全文
posted @ 2021-03-15 16:27 生物信息与育种 阅读(610) 评论(0) 推荐(0) 编辑
上一页 1 ··· 27 28 29 30 31 32 33 34 35 ··· 59 下一页