2018年1月10日

标准输出:1>,2>,1>&2,2>&1

摘要: 在 shell 程式中,最常使用的 FD (file descriptor) 大概有三个, 分别是: 0 是一个文件描述符,表示标准输入(stdin)1 是一个文件描述符,表示标准输出(stdout) 2 是一个文件描述符,表示标准错误(stderr) 在标准情况下, 这些FD分别跟如下设备关联:  阅读全文

posted @ 2018-01-10 11:24 青萍,你好 阅读(299) 评论(0) 推荐(0) 编辑

2018年1月9日

AWK的行循环控制

摘要: 1.控制函数:next,getline,exit。 next: 该行的action运行到next就停止,读取下一行。 getline:1.没有"<"或“|”的情况下,读取下一行,如果没有把下一行传递给变量(形式:getline tmp),则会改变NR,FNR,$0这些内置变量。 2.有“<”或“|” 阅读全文

posted @ 2018-01-09 17:10 青萍,你好 阅读(486) 评论(0) 推荐(0) 编辑

2017年12月25日

使用bedtools的一个问题

摘要: 问题:有两个平行测序样本,分别得到1.vcf和2.vcf两个文件,想知道这两个文件有多少个重合点。 从上面两个例子可以得出,bedtools的bed文件的start和end至少会有1 base距离,没有的话,它会自动添加。 换一种解决方法:R的merge函数。 阅读全文

posted @ 2017-12-25 10:17 青萍,你好 阅读(283) 评论(0) 推荐(0) 编辑

2017年12月21日

R和Python小数的保留

摘要: R: 1.保留几位有效数字: signif(x,digits) 2.保留几位小数: round(x,digits) Python: 1.“%.2f”%a 阅读全文

posted @ 2017-12-21 17:46 青萍,你好 阅读(326) 评论(0) 推荐(0) 编辑

2017年12月18日

使用awk来提取内容

摘要: 1.提取gff文件中的HLA基因的相关bed文件。 gff的格式: 阅读全文

posted @ 2017-12-18 15:40 青萍,你好 阅读(679) 评论(0) 推荐(0) 编辑

2017年12月15日

R读取大数据data.table包之fread

摘要: 参考资料: R语言data.table速查手册:https://www.cnblogs.com/nxld/p/6059570.html https://zhuanlan.zhihu.com/p/22317779?refer=rdatamining data.table的guideline: http 阅读全文

posted @ 2017-12-15 09:00 青萍,你好 阅读(5087) 评论(0) 推荐(0) 编辑

2017年12月12日

在shell,R,python中用变量和常量创建文件名

摘要: 很多时候我们希望文件名的格式是:变量+常量的。 1.shell:变量"常量" 2.R:paste(变量,“常量”,sep="-") 3.python :变量+“常量” 阅读全文

posted @ 2017-12-12 16:21 青萍,你好 阅读(2412) 评论(0) 推荐(0) 编辑

2017年12月9日

HGVS的变异格式

摘要: 符号: 1.HGVS的变异格式由两部分组成: 1.1 reference sequence file identifier (accession.version-number) : actual description of a variant 比如:NG_012232.1(NM_004006.2) 阅读全文

posted @ 2017-12-09 16:30 青萍,你好 阅读(3512) 评论(0) 推荐(0) 编辑

awk中打印连续多列,或者删除多列的技巧

摘要: 问题:比如有一个文件是20列,你只要后面的18列,怎么打印。 方法:把第一列和第二列做空;用print打印 这种方法有个问题:就是第一列和第二列并没有消失,只是为空。 方法2:循环打印;用printf打印 print和printf两者的区别: 用print打印,会在打印结束后加上"\n" 用prin 阅读全文

posted @ 2017-12-09 15:29 青萍,你好 阅读(20448) 评论(0) 推荐(0) 编辑

2017年11月30日

INDEL的重新比对和碱基质量分数的重新校准

摘要: 1.为什么要做这两步(why): indel的重新比对:这是由于比对软件的自身限制,其可能将包括indel的read解释为snp的read,这就导致calling的错误和后面的碱基质量分数的重新校准。 碱基质量分数的重新校准:这是由于测序机器的系统性误差导致的,假设机器能识别5亿个碱基有99%的概率 阅读全文

posted @ 2017-11-30 15:02 青萍,你好 阅读(1409) 评论(0) 推荐(0) 编辑

导航