摘要:
http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/ 阅读全文
摘要:
R语言使用向量化计算,因此非常容易在集群上进行并行计算。parallel 包提供了非常方便的函数用来进行并行计算,但有一个问题是并行时对于内存中的对象会拷贝多份,因此会比较占内存,这里提供一个比较简易的方法在内存中共享对象从而达到降低内存占用的目的。 非常简单,在创建集群的时候添加type为 FOR 阅读全文
摘要:
使用R语言做逻辑回归的时候,当自变量中有分类变量(大于两个)的时候,对于回归模型的结果有一点困惑,搜索相关知识发现不少人也有相同的疑问,通过查阅资料这里给出自己的理解。 首先看一个实例(数据下载自:http://freakonometrics.free.fr/db.txt) 该数据集三个自变量中 X 阅读全文
摘要:
Rstudio-server 非常好用,但是免费版的也有一些问题,一个是只能支持在一个客户端的登录,另一个就是每次登录都要导入之前session的问题,对于第二个问题的解决方案,我们可以进入到~/.rstudio文件夹,然后删除suspended session文件夹,再重新登录就好。 阅读全文
摘要:
命令简介: dos2unix是将Windows格式文件转换为Unix、Linux格式的实用命令。Windows格式文件的换行符为\r\n ,而Unix&Linux文件的换行符为\n. dos2unix命令其实就是将文件中的\r\n 转换为\n。 而unix2dos则是和dos2unix互为孪生的一个 阅读全文
摘要:
http://user.ipathology.cn/26090/blog/7201.html 阅读全文
摘要:
R语言是单线程的,如果数据量比较大的情况下最好用并行计算来处理数据,这样会获得运行速度倍数的提升。这里介绍一个基于Unix系统的并行程序包:multicore. 我们用三种不同的方式来进行一个简单的数据处理: 我们从 1000 genome project 数据库下载了VCF文件,现在需要手动提取出 阅读全文
摘要:
引用自NCBI的概念(https://www.ncbi.nlm.nih.gov/projects/SNP/docs/rs_attributes.html#gmaf) Global minor allele frequency (MAF): dbSNP is reporting the minor a 阅读全文
摘要:
高中学生物的时候关于遗传学的部分,记得当时的教材上为了简化处理一般将基因型定义为AA, Aa, aa。其实这种抽象的理解对应付高考是很有用的,但是实际应用中如果还这样理解那么便会产生一些疑问。之所以会产生这样的抽象,原因是早期并不知道双螺旋DNA是遗传物质,就更不提什么中心法则和DNA测序了。然而当 阅读全文
摘要:
目前看到的关于beta分布最好的一个解释,由于贴过来格式不好看,所以附上链接: http://www.datalearner.com/blog/1051505532393058 阅读全文