cd-hit 转录本聚类 - 冰冻三丈

可以将Trinity.fasta最长转录本作为unigenes，也可以使用其他软件，如GTICL和cd-hit。一般GTICL和cd-hit得到的unigenes比Trinity软件得到的数量要多，有人指出在GTICL和cd-hit的结果中能找到自己想要的基因，而在最长库中有的难以找到。

1. 安装

Cd-hit下载网址为https://github.com/weizhongli/cdhit。

解压后直接输入命令：make，进行编译即可。

2. 运行

Cd-hit的输入文件仅有一个fasta文件，可将几个样品的基因或蛋白序列汇总进行聚类，如：cat a.fasta b.fasta c.fasta > all.fasta。注意各样品的序列名称不能重复。

$ cd-hit-est -i in.fasta -o out.fasta -n 8 -d 0 -M 100000 - T 48

cd-hit-est: 核酸聚类

-M: 内存，单位M

-T: CPU线程数

-c: threshold，默认为0.9

-d: 命名符号长度，默认20,0则为>原序列名

Choose of word size:

-n 10, 11 for thresholds 0.95 ~ 1.0

-n 8,9 for thresholds 0.90 ~ 0.95

-n 7 for thresholds 0.88 ~ 0.9

-n 6 for thresholds 0.85 ~ 0.88

-n 5 for thresholds 0.80 ~ 0.85

-n 4 for thresholds 0.75 ~ 0.8

发表于 2018-01-23 15:48 冰冻三丈阅读(1520) 评论(0) 编辑收藏举报