摘要: 版权声明:本文为博主原创文章,转载请注明出处 一、正态分布参数检验 例1. 某种原件的寿命X(以小时计)服从正态分布N(μ, σ)其中μ, σ2均未知。现测得16只元件的寿命如下: 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 阅读全文
posted @ 2017-04-17 19:04 ywliao 阅读(106346) 评论(1) 推荐(4) 编辑
摘要: 很多时候,我们需要对取出的SNV进行注释,这个时候可能会在R上进行注释,通常注释文件都含有Chr(染色体)、Start(开始位点)、End(结束位点)、Description(描述),而我们的SNV文件通常是拥有Position(位置),因此我们可以先定位Chr,再用Postion去定位到Start 阅读全文
posted @ 2017-04-07 20:50 ywliao 阅读(2751) 评论(0) 推荐(0) 编辑
摘要: 二分查找时间复杂度O(h)=O(log2n),具备非常高的效率,用R处理数据时有时候需要用到二分查找法以便快速定位 阅读全文
posted @ 2017-04-07 20:02 ywliao 阅读(1448) 评论(1) 推荐(0) 编辑
摘要: 由于基因组数据过大,想进一步用R语言处理担心系统内存不够,因此想着将文件按染色体拆分,发现python,awk,R 语言都能够非常简单快捷的实现,那么速度是否有差距呢,因此在跑几个50G的大文件之前,先用了244MB的数据对各个脚本进行测试,并且将其速度进行对比。 首先是awk处理,awk进行的是逐 阅读全文
posted @ 2017-03-26 10:01 ywliao 阅读(1877) 评论(0) 推荐(1) 编辑
摘要: 版权声明:本文为博主原创文章,转载请注明出处 R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数 阅读全文
posted @ 2017-03-24 21:56 ywliao 阅读(9406) 评论(0) 推荐(1) 编辑
摘要: sed 传入变量: awk 传入变量: R脚本传入变量: python脚本传入变量: 1. OptionParser传参 2.sys模块传入变量 阅读全文
posted @ 2017-03-24 18:49 ywliao 阅读(1107) 评论(0) 推荐(0) 编辑
摘要: 版权声明:本文为博主原创文章,转载请注明出处     R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的 阅读全文
posted @ 2017-03-20 19:32 ywliao 阅读(34172) 评论(0) 推荐(0) 编辑
摘要: 手机已经具有白天切换白天的壁纸,晚上切换晚上的壁纸的功能,这时候我可以做到白天工作一种心情,晚上休息一种心情。但是苦于电脑一直没有这种功能,于是用vb写下windows可以使用的程序,仅提供给你每天的好心情! 1、时间间隔小时为单位,0小时意味着一分钟一换壁纸。2、有day和night两个文件夹,你 阅读全文
posted @ 2017-03-08 21:49 ywliao 阅读(961) 评论(0) 推荐(0) 编辑
摘要: 一、 运行meerkat 前面已经依序安装了meerkat 的环境和meerkat,运行了预处理一步,在相对应的bam文件目录下生成了大批文件,因此,当要用meerkat处理某个bam文件时,应先将该bam文件移动到专有的一个文件夹,manual中也建议这样用。 预处理生成的文件包括: 黑名单文件. 阅读全文
posted @ 2017-03-08 20:09 ywliao 阅读(1813) 评论(0) 推荐(1) 编辑
摘要:    SNP是单核苷酸多态性,人的基因是相似的,有些位点上存在差异,这种某个位点的核苷酸差异就做单核苷酸多态性,它影响着生物的性状,影响着对某些疾病的易感性。SNPedia是一个SNP调査百科,它引用各种已经发布的文章,或者数据库信息对SNP位点进行描述,共享着人类基因组变异的信 阅读全文
posted @ 2017-03-08 18:30 ywliao 阅读(6062) 评论(8) 推荐(1) 编辑
摘要: 处理基因组数据,很多时候我们会觉得直接看序列文件不够直观,如果绘图的话,把n多G把数据用画图出来不仅费劲,就算操作也不方便。因此我们可以用UCSC开发出的genome browser,可以直接把数据信息写成track,连上genome browser 上查看,它还支持安装到本地服务器上(genome 阅读全文
posted @ 2017-03-06 09:54 ywliao 阅读(4397) 评论(1) 推荐(0) 编辑
摘要: #include using std::cin; using std::cout; using std::endl; using std::string; using std::begin; using std::end; int main() { int ia[3][4]; size_t cnt=0; for (auto &row:ia){ for (auto &col:row){ ... 阅读全文
posted @ 2017-03-01 21:39 ywliao 阅读(8104) 评论(0) 推荐(0) 编辑
摘要: 一、准备工作 meerkat 0.189版本和以前的版本相比,支持bwa mem 输出的bam文件,还支持全外显子数据count SV。 meerkat原理:参见http://compbio.med.harvard.edu/Meerkat/ 1.1 需要准备的软件 1. unix/Linux系统(自 阅读全文
posted @ 2017-02-25 10:23 ywliao 阅读(1949) 评论(1) 推荐(1) 编辑
摘要: 一、从URL读取并返回html树 1.1 Rcurl包 使用Rcurl包可以方便的向服务器发出请求,捕获URI,get 和 post 表单。比R socktet连接要提供更高水平的交互,并且支持 FTP/FTPS/TFTP,SSL/HTTPS,telnet 和cookies等。本文用到的函数是bas 阅读全文
posted @ 2017-02-22 21:40 ywliao 阅读(2196) 评论(3) 推荐(0) 编辑
摘要: 一、导出并读入微信聊天记录 参照百度的方法,使用同步助手。安装同步助手--连接手机(安卓苹果均可)--点击“其他功能“--点击微信图标即可进入聊天记录导出界面(非常简单)。 导出数据后直接用read.table读入表格 命令: dat <- read.table("message.txt",skip 阅读全文
posted @ 2017-02-13 22:04 ywliao 阅读(5068) 评论(4) 推荐(2) 编辑
摘要: 一、对数据的分布进行初步判断 1.1 原理 对于不同的分布,有特定的偏度(skewness)和峰度(kurtosis),正态分布、均匀分布、逻辑斯谛分布、指数分布的偏度和峰度都是特定的值,在偏度-峰度图中是特定的点,而伽马分布和对数正态分布在偏度-峰度图中是一条直线,贝塔分布在偏度-峰度图中是一片区 阅读全文
posted @ 2017-02-09 17:00 ywliao 阅读(16583) 评论(1) 推荐(1) 编辑
摘要: 一、使用图形对数据初步进行描述。 使用(直方图,经验分布图,与QQ图)描述数据的分布结构,预判分布。 1.常用直方图,适用于连续性数据。 hist(x),lines(density(x)) 2.经验分布图,一般的总体分布。 ecdf(x) #生成x的向量 plot(x, ..., ylab="Fn( 阅读全文
posted @ 2017-01-12 18:10 ywliao 阅读(36974) 评论(0) 推荐(1) 编辑