摘要:
这本书确实很好,一直都没有坚持学下去,真是可惜,现在每天打卡,学习一章,并做下学习笔记。 已经有人做过类似的笔记了:统计学习笔记(1)——统计学习方法概论 那我就不用求全,只需要总结框架,并把难懂的知识点重点理解。 第一章讲的基本是理论 统计学习:数据、建模、预测,全称统计机器学习;包括监督学习、无 阅读全文
摘要:
贝叶斯,人人都学过一点,大部分人都以为自己懂了,不就是一个条件概率公式吗,其实还真没那么简单,想完全学通弄透还是要花点力气的 下面的都是你必须弄懂的: 怎么用常识解释贝叶斯公式? 什么是先验,什么是后验,它们在贝叶斯公式中如何体现,如何解释贝叶斯定理中的每一项? 贝叶斯学派的核心思想,它与其他派的区别? 贝叶斯的优势与不足? 最大似然、贝叶斯和最大后验的区别与联系? ... 阅读全文
摘要:
当今时代,开源是创新和技术快速发展的核心。本文来自 KDnuggets 的年度盘点,介绍了 2016 年排名前 20 的 Python 机器学习开源项目,在介绍的同时也会做一些有趣的分析以及谈一谈它们的发展趋势。和去年一样,KDnuggets 介绍了 GitHub 上最新的并且排名前 20 的 Python 机器学习开源项目。令人吃惊的是,去年一些最活跃的项目已经停滞不前了,也有一些项目跌出... 阅读全文
摘要:
在生信公司里,有相当一部分人都是负责编写流程和维护流程。 流程pipeline,就是让用户(前端)在填写配置文件后能够一键运行的脚本,最终自动得出结果,并生成报告,有的公司还会将结果上传。 自动化pipeline必须具备的功能: 读取配置文件,生成相应的待执行的脚本 按照先后逻辑关系依次向集群投递任务 能将大任务分割成小的任务,并行执行,缩短项目周期 必须使... 阅读全文
摘要:
今天被人问起如何看懂三代的下机数据,虽然解决了别人的问题,但感觉自己还是没有搞透。 基本的目录结构: |-- HG002new_O1l_BP_P6_021315b_MB_100pM | |-- D01_1.c60e446d-f276-41fc-9384-ffa937e22683.tar.gz | |-- D01_2.19ee4f13-c420-4974-8262-cb1da56b... 阅读全文
摘要:
一般人都知道 H 和 S 的表面上的区别,即 S 就是 soft, H 就是 hard,S 后,序列里还是会保留序列的信息,而 H 则不会。 -------------------------------------------后面都不用看了,H和S没有区别,比对软件不能发现嵌合体-------------------------------------- 但这只是表面上的,在深层次的意义上,... 阅读全文
摘要:
PacBio公司的业务范围也就5个(官网): Whole Genome Sequencing Targeted Sequencing Complex Populations RNA Sequencing Epigenetics 其中全基因组测序应该是PacBio的拿手好戏,因为它这么贵(貌似是二代的10倍),但它的核心优势就是长,还有无偏向性;这在科研上可就立马... 阅读全文
摘要:
之前只接触过双序列比对,现在需要开始用多序列比对了。 基本概念:多序列比对 - 百科 常用的 multiple alignment 软件: Muscle ClustalW T-coffee 软件之间的比较见文章:Muscle,ClustalW和T-coffee的简单比较 阅读全文
摘要:
经常听到和看到 MapReduce,谷歌的利器,广泛应用于分布式计算。但对它的了解一直很浅。 先看一篇最通俗的解释:化繁为简 如何向老婆解释MapReduce? 如何简单解释 MapReduce 算法 讲原理的文章:hadoop 学习笔记:mapreduce框架详解 谷歌技术"三宝"之MapReduce(系列文章) 拓展阅读:程序员必须知道的10... 阅读全文
摘要:
这算是第二讲了,前面一讲是:Edit Distance编辑距离(NM tag)- sam/bam格式解读进阶 MD是mismatch位置的字符串的表示形式,貌似在call SNP和indel的时候会用到。 当然我这里要说的只是利用它来计算mismatch的个数 MD = line.get_tag('MD') pat = "[0-9]+[ATGC]+" MD_list = re.find... 阅读全文
摘要:
大学层次的统计学: 假设检验 参数估计 抽样(总体和样本) 贝叶斯 高级: 多元统计分析 概率论 常用的分布: 二项分布 泊松分布 正态分布 超几何分布 各种分布:二项分布 & 泊松分布 & 指数分布 随机事件的概率 随机变量的分布 随机变量的函数 随机变量的数字特... 阅读全文
摘要:
单分子测序reads(PB)的混合纠错和denovo组装 我们广泛使用的PBcR的原始文章就是这一篇 原文链接:Hybrid error correction and de novo assembly of single-molecule sequencing reads 简介:PBcR里面有一种自纠算法(PacBioToCA),纠错的核心本质就是多重序列比对,为了加快比对速度使用了MHAP... 阅读全文
摘要:
写的零碎的python脚本太多了,到一定阶段就会出现一个问题,即以前写过的脚本找不到了,现在临时要用,还得再重写一遍,这就非常难受了,代码不能复用。 还好我有一个比较好的习惯,我喜欢把python脚本里面的核心功能封装成一个函数,即一个函数只实现一个特定的功能,我希望将我封装过得函数全部存起来,规范命名,以后要用的时候随时调用。 阅读全文
摘要:
很早就知道有全局比对和局部比对这两种比对方法,都是用到的动态规划的思想,知道一些罚分矩阵的概念,但一直都没有机会搞透彻,一些算法的细节也不太清楚,也没有亲手编程实现。 现在由于项目需求,需要手动写一个简单的全局和局部比对的程序,同时得知团队里有个大牛早就用Perl实现了,看了一下他的代码也才100行,于是我打算从头开始全面的弄懂算法的每一个细节,然后再用python实现一遍。 阅读全文
摘要:
用GATK跑了很久的流程,但还是不知道它的原理,现在项目要深入,没有流程可用,一切都要手动,所以必须开始着手了解GATK运行的原理,必须要知道需要输入什么,基本的算法,输出是什么。 参见: GATK使用(一) 【原创】GATK使用方法详解(包含bwa使用)第一部分 阅读全文
摘要:
主要是收集一些Linux的技巧: 1.编写可靠shell脚本的八个建议 指定bash,推荐使用 /usr/bin/env bash 和 /bin/bash,不要使用/usr/bin/bash。 set -e 和 set -x,把执行的内容输出来;执行出错时结束程序,就像其他语言中的“抛出异常”一样。 带上shellcheck,有点不好安装 变量展开,玩转Bash变量 注意local,变... 阅读全文