自动批量裁剪+合成+整理正反向序列

说明

自动识别，批量拼接文件夹中的16S rRNA 正反向序列。
优化了前文中的方法，简化运行方式点击查看。具体来说，拖动文件夹和文件 取代 输入路径。
在前面安装的包基础上，增加了 filesstrings。

准备

根据前文安装所需软件和包点击查看。
额外安装 filesstrings。

install.packages("filesstrings")

R 代码文件点击下载
文件夹包含成对的正反向序列。
- 例如 D20-27F.seq 和 D20-1492R.seq，为一对。
- 不严格要求为fasta格式，自动为缺少 >行 的序列文件添加这一行，名字使用文件名。
- 根据 D20 识别，与27F和1492R无关，会自动调整正反位置。
- 允许文件中有 D20 开头的 ab1 文件（峰图），会自动忽略。

运行

进入文件所在盘符。
输入 RScript，空格。
拖入 R代码，回车。
再拖入包含序列的 文件夹，回车。
显示识别的路径，如果因为有中文出现乱码也会反应出来。
CMD中显示合并的过程，联配的详情。
显示文件移动成功。

结果

n 对序列生成 n 个文件夹，名字为 识别的名称_16SrRNA。
文件夹中包括所有以 识别的名称 开头的文件，包括原始序列，合成序列和合成报告。
一个汇总所有合并序列信息：
- 序号
- 识别名字
- 序列1长度
- 序列1裁剪起点
- 序列1裁剪终点
- 序列2长度
- 序列2裁剪起点
- 序列2裁剪终点
- 联配的长度（裁剪后）
- 错配长度
- 合成序列长度

注意

根据第一次联配进行裁剪时，设置前后序列多裁剪了50个bp，减少错配的可能性。所以报告中显示100bp联配，实际上裁剪前有200bp的联配长度。
代码文件夹中还有用来测试的序列。
可能不支持路径中包含中文。
安装说明
原理说明

posted @ 2018-12-06 13:33 Xeonilian 阅读(681) 评论(0) 编辑收藏举报

刷新页面返回顶部