摘要:
注:这是一个横跨数年的任务,标题也可以叫做“从To Do List上划掉学习统计学”。在几年前为p值而苦恼的时候,还不知道Python是什么;后来接触过Python,就喜欢上了这门语言。统计作为数据科学的基础,想要从事这方面的工作,这始终是一个绕不过去的槛。 其实从中学就开始学习统计学了,最早的写" 阅读全文
摘要:
注:PCA是最常用的一种降维方法,降维后得到的每一个主成分是各个特征的线性组合。PCA也被称为“没有截距的回归模型”[1],因为其简单和直观,应用非常广泛。 本文相关的代码和数据:https://github.com/OnlyBelter/jupyter-note/blob/master/machi 阅读全文
摘要:
注:对于一位刚刚站在科学研究大门口的博士一年级学生,思考科研的方法以及科研与其它工作之间的异同由来已久。科研的道路上充满了不确定性,从大方向到每一步的细节都需要探索。如果我们放任这种不确定性不予理睬,那么我们做科研的道路将充满荆棘(少数情况下可能会有惊喜),这里的约束条件之一是:面对科学中无尽的前沿 阅读全文
摘要:
注:学习线性代数也是一个有些漫长的过程。第一次学习线性代数,是大学里的公共课,老师教的简单,学生学得轻松,考试分数也非常好看。但是当我在复习研究生入学考试的时候,才发现自己连线性代数这门学科的大门都没摸到。值得庆幸的是,这个备考阶段,在网易公开课看到了由Prof. Gilbert Strang讲授的 阅读全文
摘要:
注:这几个名词是RNA-Seq数据分析中的基础,在此小结一下。 在RNA-Seq的分析中,对基因或转录本的read counts数目进行标准化(normalization)是一个极其重要的步骤,因为落在一个基因区域內的read counts数目取决于基因长度和测序深度。很容易理解:一个基因越长、测序 阅读全文
摘要:
注:在很长一段时间,MNIST数据集都是机器学习界很多分类算法的benchmark,这个数据集被Hinton称为机器学习界的果蝇(学生物的同学应该都知道果蝇这种模式生物对生物学研究的重要性)。初学深度学习,在这个数据集上训练一个有效的卷积神经网络就相当于学习编程的时候打印出一行“Hello Worl 阅读全文
摘要:
注:因为毕业论文需要用到相关知识,借着 TF 2.0 发布的时机,重新捡起深度学习。在此,也推荐一下优达学城与 TensorFlow 合作发布的TF 2.0入门课程,下面的例子就来自该课程。 原文发布于博客园:https://www.cnblogs.com/Belter/p/10626418.htm 阅读全文
摘要:
注:从进入生信领域到现在,已经过去快8年了。生物信息学包含了我最喜欢的三门学科:生物学、计算机科学和数学。但是如果突然问起,什么是生物信息学,我还是无法给出一个让自己满意的答案。于是便有了这篇博客。 起源 据说在1970年,荷兰科学家Paulien Hogeweg和Ben Hesper最早在荷兰语中 阅读全文
摘要:
注:自从开始使用docker,部署方面的事情就简单多了。使用docker构建的数据库容器不用直接安装,开启后就可以使用,也比以前方便很多。下面将一些要点记录下来。 下面的例子使用以下环境: - 系统(即host):CentOS Linux release 7.4.1708 - docker:Dock 阅读全文
摘要:
注:早在学习《云计算》这门课之前就已经知道docker,学习这门课时老师还鼓励我们自己尝试一下;但是直到去年年底才有机会尝试,用过之后感觉确实很好用。最近需要部署几个shiny应用,又回顾了一下,并记录与此。 1. 初识docker 最开始听说docker,就知道可以使用docker来部署应用,相对 阅读全文
摘要:
注:很早之前就打算专门写一篇与Python数据可视化相关的博客,对一些基本概念和常用技巧做一个小结。今天终于有时间来完成这个计划了! 0. Python中常用的可视化工具 Python在数据科学中的地位,不仅仅是因为numpy, scipy, pandas, scikit-learn这些高效易用、接 阅读全文