随笔分类 -  工具

摘要:问题一:各区域注释之和大于变异总数? snpEff的结果很简单,但常常遇到如下问题。 我的SNP总数: 但是,注释的exon、intron和intergenic之和2,278,570就已经大于了总SNP数。 我大概能知道是什么原因。一个snp会落在多个基因上,所以既有可能落在exon,又有可能落在i 阅读全文
posted @ 2021-08-19 00:06 生物信息与育种 阅读(739) 评论(0) 推荐(0) 编辑
摘要:假设我要从NCBI中下载全部水稻的mRNA序列,如何实施? 找序列 第一步,肯定是找到相关序列。 我从ncbi taxonomy进入,搜索oryza。因为要搜索mRNA核酸序列,从此选择nucleotide,点击Go: 注意,如果你真正想要的是哪些序列。比如,稻属中可能野生稻之类的并非你想要的。这时 阅读全文
posted @ 2021-08-06 00:02 生物信息与育种 阅读(1252) 评论(0) 推荐(0) 编辑
摘要:问题 一直以来用Eigensoft的smartpca来做群体遗传的PCA分析很顺畅,结果也比较靠谱。 但今天报错如下: $ ~/miniconda3/bin/smartpca -p smartpca.par parameter file: smartpca.par ### THE INPUT PAR 阅读全文
posted @ 2021-07-21 14:43 生物信息与育种 阅读(665) 评论(0) 推荐(0) 编辑
摘要:iTOL基本用法已经会了,之前记录过一点:系统发育(进化)树绘制小结。最近重用,调图时又发现了些细节,记录下备忘。 1. 注册 不注册也可用,但注册登录可保存树在itol网站上。 2. 去枝长 进化树能展示枝长是最好的,能用来判断材料和群体间的特殊性。但现在大部分文章中的进化树都是去掉了枝长的,也可 阅读全文
posted @ 2021-07-18 23:56 生物信息与育种 阅读(6741) 评论(0) 推荐(0) 编辑
摘要:问题 原问题来自:How to calculate overlapping genes between two genome annotation versions? 其实可分为两个问题: 一是我组装了一个新的基因组,做了多个注释版本,如何比较它们的feature?比如gene 二是我组装了一个新的 阅读全文
posted @ 2021-05-28 18:55 生物信息与育种 阅读(613) 评论(0) 推荐(0) 编辑
摘要:基因组长度 利用seqkit统计长度 seqkit stat test.fa 结果如下: file format type num_seqs sum_len min_len avg_len max_len test.fa FASTA DNA 149 396,098,845 10,246 2,658, 阅读全文
posted @ 2021-05-28 14:13 生物信息与育种 阅读(3834) 评论(0) 推荐(0) 编辑
摘要:1. FastqCount简介 快速实用小工具:FastqCount https://github.com/zhimenggan/FastqCount 统计指标包括: Total Reads Total Bases N Bases Q20 Q30 GC 2. 使用 压缩文件可搭配pigz使用更香。 阅读全文
posted @ 2021-05-26 21:00 生物信息与育种 阅读(1741) 评论(0) 推荐(0) 编辑
摘要:记录下braker2的使用要点,以备忘记。 流程使用 braker2有很多流程,根据你的数据:组装的基因组、转录组、蛋白(同源,包括近缘或远缘)选择不同流程,官网有说明: https://github.com/Gaius-Augustus/BRAKER 现在的动植物组装,大多数都含有以上三类数据吧, 阅读全文
posted @ 2021-05-24 21:28 生物信息与育种 阅读(2551) 评论(1) 推荐(0) 编辑
摘要:samtools用conda安装后,总是出现共享库缺失的报错。即便你刚安装samtools时可以用,但后面在同一环境中安装其他相关软件,有可能产生了冲突,导致库替换,因而报错。 避免这种情况,可能最好是给samtools单独一个环境。但我不喜欢这样,我的习惯是一般做一件事才建一个环境,不然环境太多了 阅读全文
posted @ 2021-05-13 23:31 生物信息与育种 阅读(3154) 评论(0) 推荐(0) 编辑
摘要:需求 客户反映,完整的基因组太大打不开,要我将之按各条染色体和scaffold拆分。如何快速实现? 方法一 借助工具: $ pip install pyfaidx $ faidx -x sequences.fa 方法二 自己写脚本:split.pl #!/usr/bin/perl $f = $ARG 阅读全文
posted @ 2021-04-28 17:05 生物信息与育种 阅读(1893) 评论(0) 推荐(0) 编辑
摘要:conda是个安装软件的神器,但镜像不稳定,下载安装软件的速度有时很慢。对于几十Mb甚至上百Mb的软件往往下不动,下了半天可能失败。 找了一个叫mamba的加速神器,可以用来并行下载和安装,大大加快速度,减少失败几率。 首先,mamba本身需要先通过conda来安装: conda install - 阅读全文
posted @ 2021-04-27 23:45 生物信息与育种 阅读(2994) 评论(0) 推荐(0) 编辑
摘要:前言 将vcf转化为plink格式时,命令如下: plink --vcf snp.vcf --recode --allow-extra-chr --out test 出现错误: Error: Multiple instances of '_' in sample ID. If you do not 阅读全文
posted @ 2021-04-23 11:51 生物信息与育种 阅读(1637) 评论(0) 推荐(0) 编辑
摘要:基因结构预测中同源注释策略,将mRNA、cDNA、蛋白、EST等序列比对到组装的基因组中,在文章中通常使用以下比对软件: tblastn gamp exonerate blat 根据我的实测,以上软件整体都比较慢。gmap可设置多线程来提升速度。tblastn虽然也可以,但对提速没什么影响。exon 阅读全文
posted @ 2021-04-16 12:11 生物信息与育种 阅读(3290) 评论(0) 推荐(0) 编辑
摘要:homology策略预测基因结构,下载了公共mRNA/CDS序列,考虑用gmap比对。本来是个很简单的脚本,但总是不那么顺利。 无论是用conda安装,还是源码安装较新版本,都存在问题。 gmap_build -D ./ -d reference reference.fa gmap -t 10 -D 阅读全文
posted @ 2021-04-15 22:43 生物信息与育种 阅读(1776) 评论(0) 推荐(0) 编辑
摘要:1.conda安装 conda安装虽然简单,但还是有很多坑,而且很多都是隐形的坑。 # conda install -c bioconda repeatmasker conda install -c bioconda repeatmodeler repeatmodeler依赖于repeatmaske 阅读全文
posted @ 2021-04-06 22:59 生物信息与育种 阅读(7796) 评论(2) 推荐(1) 编辑
摘要:1. 主要纠错类型 上篇HiC挂载软件以及如何用Juice_box手工纠错?我吐槽了Juicebox操作麻烦,且没有详细文档。今天在3d-dna流程3D de novo assembly (3D-DNA) pipeline中,终于找到Juicebox的官方文档了:http://aidenlab.or 阅读全文
posted @ 2021-03-29 18:12 生物信息与育种 阅读(4548) 评论(0) 推荐(1) 编辑
摘要:1.常用HiC挂载软件 ALLHiC 张兴坦老师专为多倍体和高杂合度物种基因组挂载开发。如果是复杂基因组,肯定是首选。对于简单基因组,我跑了下,结果不佳。提了issue,张老师特意开发了个为简单基因组设计的流程:https://github.com/tangerzhang/ALLHiC/blob/m 阅读全文
posted @ 2021-03-28 23:18 生物信息与育种 阅读(5512) 评论(0) 推荐(0) 编辑
摘要:需求 客户的一个简单需求: 我有一批功能基因位点,想从重测序的群体材料中找到这些位点,如何批量快速获得? 示例文件 gene.txt test.vcf 代码实现 run.sh cat $1 |while read gene chr from to do #echo $chr $from $to if 阅读全文
posted @ 2021-03-13 23:04 生物信息与育种 阅读(6948) 评论(0) 推荐(1) 编辑
摘要:1.原理的区别 主要区别在于,非加权组平均法(UPGMA)是基于平均链接方法的聚集层次聚类方法,而邻接法(NJ)是基于最小演化准则的迭代聚类法。 UPGMA的假定条件是:在进化过程中,每一世系发生趋异的次数相同,即核苷酸或氨基酸的替换速率是均等且恒定的。 UPGMA生成有根树,而NJ生成无根树。由于 阅读全文
posted @ 2021-03-05 18:08 生物信息与育种 阅读(11847) 评论(0) 推荐(0) 编辑
摘要:网上有一些很详细的教程,我这里只记录要点,其余部分按以下教程步骤来就行。 1. PicGo安装 国内下载可能较慢,取决于你的网速。下载安装好后,需要安装nodejs 和gitee插件,直接在PicGo上安装可能很慢,建议用npm在命令行安装gitee插件。 npm install picgo-plu 阅读全文
posted @ 2021-02-26 11:00 生物信息与育种 阅读(148) 评论(0) 推荐(0) 编辑