2020年7月14日
摘要: fastp是一款数据质控过滤软件,fastp可以实现处理数据的一次性处理,包括过滤低质量,过滤adapter,截取reads,split分割大文件等操作 阅读全文
posted @ 2020-07-14 16:24 WarningMessage 阅读(9319) 评论(0) 推荐(0) 编辑
2020年7月13日
摘要: 可以用来切除illumina测序平台的接头序列,还可以去除由我们自己指定的特定接头序列,而且同时也能够过滤read末尾的低质量序列。 阅读全文
posted @ 2020-07-13 09:18 WarningMessage 阅读(3391) 评论(0) 推荐(0) 编辑
2020年7月7日
摘要: EM算法可以用于解决数据缺失的参数估计问题(隐变量的存在实际上就是数据缺失问题,缺失了各个样本来源于哪一类的记录) 阅读全文
posted @ 2020-07-07 14:30 WarningMessage 阅读(1299) 评论(0) 推荐(3) 编辑
2020年6月27日
摘要: 朴素贝叶斯(Naive Bayes)是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y 阅读全文
posted @ 2020-06-27 12:27 WarningMessage 阅读(633) 评论(0) 推荐(0) 编辑
2020年6月24日
摘要: Trim Galore是对FastQC和cutadapt的包装。适用于所有高通量测序,包括RRBS(Reduced Representation Bisulfite-Seq )、 Illumina、Nextera和smallRNA测序平台的双端和单端数据。主要功能包括两步: 阅读全文
posted @ 2020-06-24 09:45 WarningMessage 阅读(3002) 评论(0) 推荐(0) 编辑
摘要: FastQC用于可视化评估测序数据的质量 阅读全文
posted @ 2020-06-24 09:33 WarningMessage 阅读(745) 评论(0) 推荐(0) 编辑
2020年6月23日
摘要: XGBoost是Extreme Gradient Boosting的缩写,而Gradient Boosting起源于Friedman的文章*Greedy Function Approximation: A Gradient Boosting Machine*,这是一篇关于梯度提升树(gradient boosted trees)的教程,大部分内容基于Tianqi Chen的 阅读全文
posted @ 2020-06-23 14:26 WarningMessage 阅读(490) 评论(0) 推荐(0) 编辑
摘要: read命令用于从标准输入中读取输入单行,并将读取的单行根据IFS变量分裂成多个字段,并将分割后的字段分别赋值给指定的变量列表var_name。第一个字段分配给第一个变量var_name1,第二个字段分配给第二个变量var_name2,依次到结束。如果指定的变量名少于字段数量,则多出的字段数量也同样分配给最后一个var_name,如果指定的变量命令多于字段数量,则多出的变量赋值为空。如果没有指定任何var_name,则分割后的所有字段都存储在特定变量REPLY中 阅读全文
posted @ 2020-06-23 12:03 WarningMessage 阅读(186) 评论(0) 推荐(0) 编辑
摘要: grep (Global search Regular Expression(RE) and Print out the line, 全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。 阅读全文
posted @ 2020-06-23 12:00 WarningMessage 阅读(262) 评论(0) 推荐(0) 编辑
摘要: xargs命令可以通过管道接受字符串,并将接收到的字符串通过空格分割成许多参数(默认情况下是通过空格分割)然后将参数传递给其后面的命令,作为后面命令的命令行参数。 阅读全文
posted @ 2020-06-23 11:57 WarningMessage 阅读(220) 评论(0) 推荐(0) 编辑