Mothur 命令手册-Mothur命令中文解释(二)
Mothur命令中文解释——Mothur中文简易教程
这些是mothur H-Z的目前所有命令的说明的翻译,第二部分。(使用Ctrl+F搜索你所查命令)
参看http://www.mothur.org/wiki/Category:Commands 页面上查阅的所有命令
我查了一下网上的中文教程,似乎没有。
现在国内使用Mothur的人还很少,不过国外有不少做生态的都用到mothur了。毕竟有很多都是命令行操作。
前天我还搜到了一个印度人在网上发的询问帖子,想问哪里有关于mothur的简单教程呢,他说mothur官方网站的教程有点难,看不太懂。
今天这些命令里有三个可能会比较常用,一个是help,就类似于Linux中的man命令,也就是你在windows中常见的帮助文件。
还有两个,sffinfo和pipeline.pds,在处理sff文件时会用上。
其中sffinfo就能将sff文件转化为fasta格式的文件,fasta是mothur处理的文件中最常见的格式。
由于最近我要处理一个sff文件,所以特别关注了与sff有关的命令,呵呵。
Hcluster
这个命令可以用来给OTUs分配序列,并输出一个.list, .rabund, .sabund和.sorted.dist文件。它不会像cluster命令那样把距离矩阵(distance matrix)保存在RAM(随机存储器)中,允许大距离文件被处理。Hcluster对小文件的处理比cluster要慢,但在大文件上更有竞争力。目前,hcluster实行4种成簇方式:
1.最近相邻:一个OTU内的每个序列与OTU中最相似的序列有最多X%的距离。
2.最远相邻:一个OTU内的所有序列与OTU内的其它序列有最多X%的距离。
3.平均相邻:这个方法介于其他两种方法之间的水平
4.重量相邻:
Heatmap.bin
这个命令从一个*.list或*.shared文件提供的数据生成一个heat map。heatmap中的每一行呈现一个不同的OTU,每个组中的OTU的颜色根据那个组内那个OTU的丰富度在黑与红之间形成成比例。这个命令会生成一个SVG文件(图片格式),它可以在GIMP或Adobe Illustrator中被进一步修改。有一些选项用于为每个采取不同方法的OTU相对丰度按比例绘制或排列。
Heatmap.sim
这个命令将会产生一个表明多个样本之间成对相似性的heatmap,采用了多个对比群落成员和结构的calculators(http://www.mothur.org/wiki/Calculators)
Help
help命令将会输出mothur中有效命令的表单。或者,如果你想要针对一个特定命令的帮助信息,用help作为选项,比如 mothur > read.list(help),就会输出read.list的帮助信息。
Homova
分子方差的同质性(Homogeneity of molecular variance)是一个为方差同质的Bartlett's test的非参数模拟,这已经被用于种群遗传学,检测以下假设:两个或多个种群的基因多样性是同类的或同质的(Stewart and Excoffier,1996);这个测试还没有用于微生物生态学文献。
Indicator
这个命令可以三种方式运行:
1.用一个shared或relabund文件和一个design文件
2.用一个shared或relabund文件和一个tree文件
3.用一个shared或relabund,tree文件和design文件
Indicator命令输出一个.indicator.summary文件和一个.indicator.tre文件,如果给了一个tree。新的tree在每个内部的节点包含了标签。标签是节点号码,所以你可以把tree关联到summary文件。Summary文件为每个OTU的每个节点列出了indicator的值。
Libshuff
这个命令像以前在s-libshuff和libshuff程序中那样实施libshuff方法。libshuff法是一个描述两个或更多群落是否拥有相同结构的通用测试,采用Cramer-von Mises检测统计。这个检测统计值的显著性表明了群落(偶然)拥有同样结构的可能性。因为每个成对的对比需要两个显著测试,所以为多个对比进行一个矫正(比如Bonferroni's correction)。
List.seqs
这个命令将会写出在一个fasta,name,group,list或align.report文件中发现的序列名字。这对于使用get.seqs,remove.seqs命令和生成group文件时有用。
Make.biom
make.biom命令让你把你的shared文件转换为一个biom文件。关于biom格式:http://biom-format.org/documentation/biom_format.html
Make.fastq
这个命令读取一个fasta和一个quality文件并创建一个fastq文件。
Make.group
这个命令读取一个fasta文件或一系列fasta文件,并创建一个group文件。
Make.shared
这个命令读取一个list和group或biom文件,并为每个group创建一个.shared和一个rabund文件。
Mantel
Mantel命令计算两个矩阵的mantel相关系数。Sokal, R. R., & Rohlf, F. J. (1995). Biometry, 3rd edn. New York: Freeman.
Merge.files
这个命令将把多个文件连结(使连续)起来并把结果输出到一个新文件。这对于合并多个fasta格式的序列文件,454 quality文件,group文件,name文件或其它等等是有用的。
Merge.groups
这个命令读取一个shared文件和一个design文件并把shared文件中同样也在design文件中分组的groups合并。
Metastats
这个命令基于White.J.R.,Nagarajan.N.和Pop.M.开发的Metastats程序。统计方法用来检测客观宏基因组样本的差异丰度特征。
Mgcluster
该命令解释暂无,需要blast参数,官方网站有使用方法。
http://www.mothur.org/wiki/Mgcluster
Nmds
这个命令是Sarah Goslee在R(http://www.r-project.org/)中所写nmds代码的模型化。采用非矩阵多维尺度分析功能,使用的Borg & Groenen的优化算法。
Normalize.shared
这个命令创建一个.norm.shared文件。
Otu.association
这个命令计算一个shared/relabund文件中的OTUs的相关系数。
Otu.hierarchy
这个命令把不同距离上的OTUs关联起来。
Pairwise.seqs
这个命令将计算序列之间不正确的成对距离。这会生成一个列格式的距离矩阵,与read.dist中的列选项兼容。这个命令也能产生一个phylip格式的距离矩阵,关于如何操作gap对比和末端gaps有多个选项。
Parse.list
这个命令读取一个list文件和group文件,并为group文件中的每个group生成一个list。
Parsimony
这个命令采用parsimony方法(aka P-test),以前在TreeClimber中使用过,现在在MacClade和UniFac网站中也有。这个Parsimony方法是一个通用的检测,用来描述两个或更多群落是否拥有同样的结构。检测统计值的显著性只表明群落随机具有相同结构的可能性。这个值不表明相似度水平。
Pca
运行这个命令需要一个shared或relabund文件。
Pcoa
需要一个plylip格式的距离矩阵文件。
Pcr.seqs
这个命令将根据用户自定义的选项修剪输入的序列。
Phylo.diversity
这个命令需要输入一个tree文件。两个文件将被输出:phylo.diversity和(如果你设置rarefy=T).rarefaction。
Phylotype
这个命令可根据他们的分类用于给OTUs分配序列,输出一个.list,.rabund和.sabund文件。
Pipeline.pds
这个命令被设计用于指导你使用mothur(完成)通过你的分析。为了展示这个命令的各种特性,我们将使用Pat's Pipeline Files(点击下载http://www.mothur.org/w/images/0/0f/Pipeline.tutorial.zip)
Pre.cluster
这个命令执行一个移除序列这个目标的假单链接算法,之所以移除这些序列,由于焦磷酸测序过程的错误。这个算法的一个版本是由Sue Huse开发,将在接下来的环境微生物学一篇论文中发表。基本的理念是丰富的序列比稀少序列更可能产生一些错误序列。考虑到这些,这个算法根据它们的丰富度给序列排名。然后大略读过序列表单在原始序列的一些阈值内以寻找更稀少的序列。在阈值内的那些序列与更大的序列合并。最初的Huse方法在一个距离矩阵上完成这个任务,然而现在我们基于原始序列做这个。我们的方法的优点是这个算法在排列的序列上完成而不是距离矩阵。因为通过pre-clustering你移除了大量的序列使距离计算更为快速。
Quit
quit 命令没有选项,可带或不带括号调用。
Rarefaction.shared
这个命令将产生使用,无需更换方法重新取样的样品间稀疏曲线。生态学家用稀薄(rarefaction)的传统方式是没有内随机样本的抽样秩序,而样本之间。举例来说,如果我们想知道OTU在人类结肠癌的数量,我们可以从结肠内,不同地点取样和测定一堆16S rRNA基因序列。通过确定个OTU在每个样品的数量,并比较这些样品的组成,就有可能确定你们在单个范围内的生物多样性的采样的好坏。 mothur有能力观察到的物种数量的样品间稀疏曲线生成数据。对于本教程,你应该下载并解压缩Patient70Data.zip(http://www.mothur.org/w/images/b/b2/Patient70Data.zip)
Rarefaction.single
这个命令将会产生样本内的rarefaction曲线,采取无需更换方法的重新采样。Rarefaction曲线提供一个对比不同样品中的观察到的丰度的方法。大体来说,如果你没有采的许多个体作样本你将期望已经观察了你平均获得的OTUs的数目。尽管有一个公式可产生rarefaction曲线(参看http://www.mothur.org/wiki/Rarefaction),但mothur使用随机步骤。它也能帮你评估你的样本密度(强度)。如果一个rarefaction曲线变得与X轴平行,你可以合理相信你的采样工作做的很好,而且相信观察到的丰富度水平。否则,你需要继续采样。Rarefaction实际上对多样性的测量比它对丰度的测定更好。
Read.dist
注意:从mothur1.18.0开始,read.list命令不复存在。你可以直接输入你的距离矩阵文件的名称到命令行中来使用它们。
Read.tree
注意:从mothur1.18.0开始,这个命令不复存在,你可以直接输入文件名字到命令行来使用它们。
Remove.groups
这个命令从一个特定的group或一套groups中移除序列。你可以输入一下这些文件类型:fasta, name, group, list, taxonomy和shared。
Remove.lineage
这个命令读取一个taxonomy文件和一个taxon,并生成一个新的文件,只包含不在taxon中的序列。你也可以把一个fasta,name,group,list,或align.report文件包括到这个命令中,mothur将会为每个生成新的“只包含不在taxon中的序列”的文件。
Remove.otus
这个命令删除这样的OTUs,它们含有“来自特定group或一套groups的序列”。
Remove.rare
这个命令读取以下文件类型之一:list,rabund,sabund或者shared文件,它输出一个删除了稀有OTUs的新文件。
Remove.seqs
这个命令把一个list中的序列名称和一个fasta, name, group, list或align,report文件生成一个新的文件,不包含list中的序列。这个命令与list.seqs连结对于显示序列集群(collection)有帮助。
Reverse.seqs
提供一个fasta格式的文件,reverse.seqs将生成一个包含有它们互补序列的文件。
Screen.seqs
这个命令使你保留满足特定用户所定标准的序列。而且,它能使你剔除那些不符合来自names,group或align.report文件的标准的序列。
Sens.spec
说明暂无。
Seq.error
这个命令读取一个查询的alignment文件和一个参考的alignment文件,并创建...(后面未说明)
Set.current
这个命令使你为mothur的使用设置current文件,你也可以清空current文件。
Set.dir
这个命令使你重新指向mothur创建的output文件,或者设置mothur将要查找input文件的所在目录。如果它不能在input位置找到你的文件你也可以设置一个缺省的(或默认的)位置供mothur查找。这使你把你的参考文件保留在一个位置。
Set.logfile
你或许想给你的logfile(日志文件)起一个特定的名字或者附加一系列的logfiles。set.logfile可以使你做这件事。
Sffinfo
这个命令从一个.sff文件释放读取序列。
Shhh.flows
这个命令是Chris Quince的PyroNoise算法的Pat Schloss翻译,使用的mothur的bells和whistles的合并从C到C++。基于Qunice提供的测试数据资料组的处理,shhh.flows把同样或相似的输出结果给AmpliconNoise. 这个命令采用期望最大算法以纠正流程图,确认每个流程图的理想化形式。并且把流程图转译到DNA序列。我们的测试表明当使用trim.flows命令把Titanium数据消减到450flows时,shhh.flows为任何其他已有的方法提供质量最高的数据。对比之下,当我们使用Quince建议的最小/最大数目(360/720)flows时,错误率没有那么大。这较大提高的错误率不是来自计算花费。然而,在trim.seqs的特征采取分钟的顺序,shhh.flows可以采取小时的次序。没有多个处理器或MPI时不建议对较大数据资料组运行shhh.flows命令。你可以为你的操作系统获得合适版本的MPI(http://www.open-mpi.org/).你也需要一个lookup文件告诉shhh.flows对一个给定同源多聚长度观察到一个强度值的可能性。你可以在这儿(http://www.mothur.org/wiki/Lookup_files)获得mothur兼容的文件,你将需要把这些文件与你的数据或mothur可执行程序放在一起。
Shhh.seqs
这个命令是基于mothur的,对Chris Quince's序列表示程序——SeqNoise的重新编写。
Sort.seqs
这个命令把来自fasta,name,group,quality,flow或taxonomy文件的序列放在同样的次序(order)下。
Split.abund
这个命令读取一个fasta文件,和一个list或一个names文件,把序列分割为稀有和丰富groups.
Split.groups
这个命令读取一个fasta和group文件,并为group文件中的每个group生成一个fasta文件。
Sub.sample
这个命令用来作为一个使你的数据标准化的路径,或者从你的原始set创建一个小的set。它把以下这些文件类型作为输入:fasta, list, shared, rabund和sabund,并产生一个包含你原始文件样本的新文件。
Summary.qual
这个命令读取一个quality文件和一个作为选项的name,并概括总结quality信息。
Summary.seqs
这个命令将会总结(概述)一个未排序或排序过的fasta格式文件的序列质量。
Summary.shared
这个命令将会产生一个summary文件,对OTU数据的每一行都有calculator值,为group文件中不同groups间有所有可能的对比。这个命令在你对你的多样本数据分析产生collector's或者rarefaction曲线不感兴趣时有用。但是,如果你对于确定这些值对于样本有多敏感感兴趣,这值得你花点时间查看那些为calculators生成的collector‘s曲线。如果这些值对样本不敏感,那么你可以相信这些值。否则,你需要继续采样(抽样)。
Summary.single
这个命令将产生一个summary文件,其它解释同summary.shared命令,不过使用方法有所不同。
Summary.tax
这个命令读取一个taxonomy文件和一个作为选项的名字或者group文件,总结taxonomy的信息。
System
这个命令使用户在不离开mothur环境的情况下,运行mothur以外的程序。这个命令对于改变目录和重命名文件有用。这个命令的语法不同于其它命令——实际需要运行的命令应该放在括号内。如果你对于shell程序不熟悉,你也许可以使你在不同的Mac/Linux和Windows的已有的shell程序中熟悉一下。
Tree.shared
这个命令将会产生一个newick格式的tree文件,描述多个groups之间的差异性(1-similarity)。采用UPGMA算法的groups使用群落间的距离被分簇,就像使用描述群落成员或结构相似性的任何calculators 那样被计算。差异性作为相似性的一个负值被计算。
Trim.flows
这个命令是与trim.seqs命令的功能是相似的,除了他使用由454测序产生的sff文件中汇集的flowgram数据。trim.flows的主要用法是作为运行shhh.seqs的一个预备步骤。Chris Qunice有一系列的perl脚本可以完成类似的任务。这个命令使你根据基于条形码的样本把你的flowgram数据分块,削减flows到一个特定的长度范围,剔除太短或有太多错配而不能编入条形码和引物的序列。
Trim.seqs
这个命令提供对需要显示和排序的pyrosequences(一种测序方法)的预处理功能。RDP(http://rdp.cme.msu.edu/)可以提供类似的分析,这里我们给你增加了灵活性和速度。这个命令将是你能修剪掉引物和条形码序列,使用条形码信息生成一个group文件并把一个fasta文件分割为次级文件,显示基于来自454测序方法的qual文件序列,剔除基于序列长度和当前不明碱基的序列,获得你的序列的反向互补。当这个分析清楚的朝着pyrosequencing 汇集(collection)开始工作,它也可以和传统的Sanger 测序方法一起使用。
Unifrac.unweighted
这个命令执行unweighted UniFrac算法。unifac.weighted命令实行这个命令weighted版本。这两个方法在UniFrac网站(http://bmf2.colorado.edu/unifrac/)都有。UniFac方法是通用的测试,描绘两个或多个群落是不是具有同样的结构。这个测试统计值的显著性只能表明群落随机具有同样结构的可能性。这个值不表明相似度水平。
Unifrac.weighted
解释见Unifrac.unweighted
Unique.seqs
这个命令只返回这样的特定序列,它们来自一个fasta格式的序列文件和一个表明这些序列与参考序列相同的文件。经常有一些序列的集合有相当数目的相同序列。它占用大量的处理时间来排序,计算距离以及给每个单独的序列分簇。
Venn
这个命令从一个提供的*.shared文件的数据生成一个Venn示意图。这个命令能产生示意图(以SVG格式)以对比2个,3个或4个group共有的丰富度。这个SVG文件可以进一步在像Gimp或Adobe Illustrator的程序中修改,根据面积的部分按比例显示由区域表示的丰富度。基于观察到的丰富度或估计的丰富度(采用chao和sharedchao calculators)这里有一些选项来测定丰度。
转自:http://www.douban.com/note/217955444/ 感谢xixihaha9288童鞋