摘要:
fastp是一款数据质控过滤软件,fastp可以实现处理数据的一次性处理,包括过滤低质量,过滤adapter,截取reads,split分割大文件等操作 阅读全文
摘要:
可以用来切除illumina测序平台的接头序列,还可以去除由我们自己指定的特定接头序列,而且同时也能够过滤read末尾的低质量序列。 阅读全文
摘要:
EM算法可以用于解决数据缺失的参数估计问题(隐变量的存在实际上就是数据缺失问题,缺失了各个样本来源于哪一类的记录) 阅读全文
摘要:
朴素贝叶斯(Naive Bayes)是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y 阅读全文
摘要:
Trim Galore是对FastQC和cutadapt的包装。适用于所有高通量测序,包括RRBS(Reduced Representation Bisulfite-Seq )、 Illumina、Nextera和smallRNA测序平台的双端和单端数据。主要功能包括两步: 阅读全文
摘要:
FastQC用于可视化评估测序数据的质量 阅读全文
摘要:
XGBoost是Extreme Gradient Boosting的缩写,而Gradient Boosting起源于Friedman的文章*Greedy Function Approximation: A Gradient Boosting Machine*,这是一篇关于梯度提升树(gradient boosted trees)的教程,大部分内容基于Tianqi Chen的 阅读全文
摘要:
read命令用于从标准输入中读取输入单行,并将读取的单行根据IFS变量分裂成多个字段,并将分割后的字段分别赋值给指定的变量列表var_name。第一个字段分配给第一个变量var_name1,第二个字段分配给第二个变量var_name2,依次到结束。如果指定的变量名少于字段数量,则多出的字段数量也同样分配给最后一个var_name,如果指定的变量命令多于字段数量,则多出的变量赋值为空。如果没有指定任何var_name,则分割后的所有字段都存储在特定变量REPLY中 阅读全文
摘要:
grep (Global search Regular Expression(RE) and Print out the line, 全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。 阅读全文
摘要:
xargs命令可以通过管道接受字符串,并将接收到的字符串通过空格分割成许多参数(默认情况下是通过空格分割)然后将参数传递给其后面的命令,作为后面命令的命令行参数。 阅读全文