青萍，你好 - 博客园

标准输出：1>,2>,1>&2,2>&1

摘要：在 shell 程式中，最常使用的 FD (file descriptor) 大概有三个, 分别是: 0 是一个文件描述符，表示标准输入(stdin)1 是一个文件描述符，表示标准输出(stdout) 2 是一个文件描述符，表示标准错误(stderr) 在标准情况下, 这些FD分别跟如下设备关联: 阅读全文

posted @ 2018-01-10 11:24 青萍，你好阅读(332) 评论(0) 推荐(0)

AWK的行循环控制

摘要： 1.控制函数：next，getline，exit。 next: 该行的action运行到next就停止，读取下一行。 getline：1.没有"<"或“|”的情况下，读取下一行，如果没有把下一行传递给变量（形式：getline tmp），则会改变NR,FNR,$0这些内置变量。 2.有“<”或“|” 阅读全文

posted @ 2018-01-09 17:10 青萍，你好阅读(517) 评论(0) 推荐(0)

使用bedtools的一个问题

摘要：问题：有两个平行测序样本，分别得到1.vcf和2.vcf两个文件，想知道这两个文件有多少个重合点。从上面两个例子可以得出，bedtools的bed文件的start和end至少会有1 base距离，没有的话，它会自动添加。换一种解决方法：R的merge函数。阅读全文

posted @ 2017-12-25 10:17 青萍，你好阅读(307) 评论(0) 推荐(0)

R和Python小数的保留

摘要： R： 1.保留几位有效数字： signif(x,digits) 2.保留几位小数： round(x,digits） Python： 1.“%.2f”%a 阅读全文

posted @ 2017-12-21 17:46 青萍，你好阅读(346) 评论(0) 推荐(0)

使用awk来提取内容

摘要： 1.提取gff文件中的HLA基因的相关bed文件。 gff的格式：阅读全文

posted @ 2017-12-18 15:40 青萍，你好阅读(722) 评论(0) 推荐(0)

R读取大数据data.table包之fread

摘要：参考资料： R语言data.table速查手册：https://www.cnblogs.com/nxld/p/6059570.html https://zhuanlan.zhihu.com/p/22317779?refer=rdatamining data.table的guideline： http 阅读全文

posted @ 2017-12-15 09:00 青萍，你好阅读(5159) 评论(0) 推荐(0)

在shell，R，python中用变量和常量创建文件名

摘要：很多时候我们希望文件名的格式是：变量+常量的。 1.shell：变量"常量" 2.R：paste(变量，“常量”,sep="-") 3.python :变量+“常量” 阅读全文

posted @ 2017-12-12 16:21 青萍，你好阅读(2440) 评论(0) 推荐(0)

HGVS的变异格式

摘要：符号： 1.HGVS的变异格式由两部分组成： 1.1 reference sequence file identifier (accession.version-number) ： actual description of a variant 比如：NG_012232.1(NM_004006.2) 阅读全文

posted @ 2017-12-09 16:30 青萍，你好阅读(3671) 评论(0) 推荐(0)

awk中打印连续多列，或者删除多列的技巧

摘要：问题：比如有一个文件是20列，你只要后面的18列，怎么打印。方法：把第一列和第二列做空；用print打印这种方法有个问题：就是第一列和第二列并没有消失，只是为空。方法2：循环打印；用printf打印 print和printf两者的区别：用print打印，会在打印结束后加上"\n" 用prin 阅读全文

posted @ 2017-12-09 15:29 青萍，你好阅读(20955) 评论(0) 推荐(0)

INDEL的重新比对和碱基质量分数的重新校准

摘要： 1.为什么要做这两步（why）： indel的重新比对：这是由于比对软件的自身限制，其可能将包括indel的read解释为snp的read，这就导致calling的错误和后面的碱基质量分数的重新校准。碱基质量分数的重新校准：这是由于测序机器的系统性误差导致的，假设机器能识别5亿个碱基有99%的概率阅读全文

posted @ 2017-11-30 15:02 青萍，你好阅读(1508) 评论(0) 推荐(0)