摘要: 在生信分析的日常操作中,脚本中通常都会进行并行计算,那么屏幕上的信息就会乱的无从下手,无法获取我们需要的信息,因此并行计算的每一个计算单元都需要有对应的文件来记录程序运行的情况。 在shell脚本中常见的有这三种程序:shell,java和可执行程序。 首先对于shell和java程序,我发现可以用 阅读全文
posted @ 2018-08-09 10:01 xjce 阅读(368) 评论(0) 推荐(0) 编辑
摘要: 今天写了一个两个基因集找相同的基因然后输出这么个小程序就无论如何也跑不起来,原因出在循环嵌套上,这方面之前就出过问题,后来阴差阳错的就好了我也没太注意,但是最近这个问题严重制约了工作效率,我决心找到问题的所在。 这是今天可以跑的版本,我之前的错误在于把文件循环嵌套在了列表循环中,因为文件相对小一点, 阅读全文
posted @ 2018-08-06 10:58 xjce 阅读(9641) 评论(0) 推荐(0) 编辑
摘要: 通过GATK calling出来的SNP如果使用UnifiedGenotype获得的SNP文件是分sample的,但是如果使用vcftools或者ANGSD则需要Vcf文件是multi-sample的,这里就需要我们将不同samples的文件进行合并,可以通过vcftools的perl模块进行,但是 阅读全文
posted @ 2018-07-13 15:07 xjce 阅读(8237) 评论(0) 推荐(0) 编辑
摘要: 大圣,此去欲何? 踏南天,碎凌霄! 若一去不回。。。 便一去不回! 便 一去不回! 阅读全文
posted @ 2018-07-13 12:33 xjce 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 只要有ENA千万别用NCBI!!!! 最近开始分析网上Download的数据,一开始用人家现成的GWAS数据,后来觉得反正自己的数据到手该做的也是要做的,出来混早晚是要还的,所以就开始从头分析一些SRA的数据,我以为会很简单,事实证明是我简单了。 首先我们下了这样的一串数据,*.sra格式: 这些数 阅读全文
posted @ 2018-07-13 12:30 xjce 阅读(2354) 评论(0) 推荐(0) 编辑
摘要: 在对vcf的操作有这样三个软件: 利用Bcftools按样本拆分文件主要利用了“--view”这个软件包,主要代码如下: 这里面三个参数: 就可以完成了。 阅读全文
posted @ 2018-07-13 10:05 xjce 阅读(3966) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 我们经常说幻想着使用已有数据发表高分文章,的确,这样的童话故事每天都在发生,但如何走出第一步我们很多小伙伴不清楚,那么我们就从水稻SNP数据库的使用来讲起。 这是3k的水稻变异库,上面保存着现成的SNP,由于数据过大,网站的维护方使用了Plink的格式来给我们在线储存SNP的信息,可以 阅读全文
posted @ 2018-07-13 09:53 xjce 阅读(2882) 评论(0) 推荐(0) 编辑
摘要: 昨天听了师姐的开题,觉得有些坑我也可能掉进去,所以写了这么一篇随笔,警示我们大家一些开题的注意事项。 真心希望希望我开题的时候可以避开这些坑。 开题的要求: 阅读全文
posted @ 2018-05-24 08:39 xjce 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 例如将一个BLM.txt文件分成前缀为 BLM_ 的1000个小文件,后缀为系数形式,且后缀为4位数字形式 先利用 再利用 split 命令 这里参数-l是每个小文件的行数,最大不能超过要分割文件的行数,后面接要分割的文件,-d 是指系数是数字而不是字母 -a 是指系数是四位数。而后面BLM_是系数 阅读全文
posted @ 2018-04-21 21:02 xjce 阅读(6117) 评论(0) 推荐(0) 编辑
摘要: 在生信分析中,经常会遇到不同的重复和处理,这样的分析过程有时是非常费时且占用资源并不是很多的,可以同时在后台运行以节约时间,这是并行处理的意义。除了需要并行处理,循环迭代来遍历整个文件夹的需要分析的数据也是非常消耗精力和时间的,按照宁可花费机器一分钟绝不浪费程序员一秒钟的精神,我决定开始探索并行循环 阅读全文
posted @ 2018-04-21 10:18 xjce 阅读(7073) 评论(2) 推荐(0) 编辑