05 2021 档案
摘要:问题 原问题来自:How to calculate overlapping genes between two genome annotation versions? 其实可分为两个问题: 一是我组装了一个新的基因组,做了多个注释版本,如何比较它们的feature?比如gene 二是我组装了一个新的
阅读全文
摘要:基因组长度 利用seqkit统计长度 seqkit stat test.fa 结果如下: file format type num_seqs sum_len min_len avg_len max_len test.fa FASTA DNA 149 396,098,845 10,246 2,658,
阅读全文
摘要:1. FastqCount简介 快速实用小工具:FastqCount https://github.com/zhimenggan/FastqCount 统计指标包括: Total Reads Total Bases N Bases Q20 Q30 GC 2. 使用 压缩文件可搭配pigz使用更香。
阅读全文
摘要:记录下braker2的使用要点,以备忘记。 流程使用 braker2有很多流程,根据你的数据:组装的基因组、转录组、蛋白(同源,包括近缘或远缘)选择不同流程,官网有说明: https://github.com/Gaius-Augustus/BRAKER 现在的动植物组装,大多数都含有以上三类数据吧,
阅读全文
摘要:samtools用conda安装后,总是出现共享库缺失的报错。即便你刚安装samtools时可以用,但后面在同一环境中安装其他相关软件,有可能产生了冲突,导致库替换,因而报错。 避免这种情况,可能最好是给samtools单独一个环境。但我不喜欢这样,我的习惯是一般做一件事才建一个环境,不然环境太多了
阅读全文
摘要:之前最多只做过两类单水平的分面,即两两组合的面板图。如果某类超过两个水平呢? 一类的分面:facet_wrap(~ align) 两类的分面(x轴和y轴):facet_grid(align ~ gender) 如果某类超过两水平,如何实现? 很简单:facet_wrap(~ align + gend
阅读全文
摘要:前言 通常我们用rbind和cbind合并相同行列的数据框。当两个数据框具有不同行列数目时,直接用会报错。 > df1 <- data.frame(a = c(1:5), c = c(6:10));df1 a c 1 1 6 2 2 7 3 3 8 4 4 9 5 5 10 > df2 <- dat
阅读全文
摘要:生信其实很简单,就是用别人的工具调参就行了。生信也很折腾,哪一步都可能遇到问题,随时让你疯掉(老辩证法了~)。但是,你遇到的问题大部分人也都经历过。这时,检索技能就显得很重要了。平时Biostar和StackOverflow之类的网站肯定要经常光顾的。 另外,Researchgate论坛上有一些整理
阅读全文
摘要:ggplot虽然好用,但base才是真正的瑞士军刀,什么都能用,各种自定义图形自由组合,出版级图片用base才是王道。但要达到随心所欲,需要熟练掌握。 legend是比较重要的低级函数,有很多细节处理,用的时候记不起来,实践的时候也要调来调去。这里转载一篇博文,比较详细,不要刻意去记,用的时候对照一
阅读全文
摘要:在GWAS分析的结果中,偶尔会遇到到pvalue为0的SNP位点,这时如果直接做曼哈顿或QQ图,会出错,因为log0无意义。 此时,该如何处理? 如果你用的是Plink1.9来做的GWAS,可加一个参数: --output-min-p 1e-99,即将小于1e-99的pvalue都当成1e-99,0
阅读全文