摘要: 注:终于写到最激动人心的部分了。假设检验应该是统计学中应用最广泛的数据分析方法,其中像"P值"、"t检验"、"F检验"这些如雷贯耳的名词都来自假设检验这一部分。我自己刚开进入生物信息学领域,用的最多的就是"利用t检验来判断某个基因在实验组和对照组中表达量的差异是否显著"。此外,对"P值"真正含义的探 阅读全文
posted @ 2018-08-18 18:17 昕-2008 阅读(3527) 评论(0) 推荐(0) 编辑
摘要: 注:区间估计是除点估计之外的另一类参数估计。相对于点估计只给出一个具体的数值,区间估计能够给出一个估计的范围。 0. 点估计 vs 区间估计 根据具体样本观察值,点估计提供了一个明确的数值。但是这种判断的把握有多大,点估计本身并没有给出。区间估计就是为了弥补点估计的这种不足而提出来的。 相同点: 都 阅读全文
posted @ 2018-07-16 22:47 昕-2008 阅读(9765) 评论(0) 推荐(0) 编辑
摘要: 注:无论是任何一门语言,刚开始入门的时候,语言运行环境的搭建都是一件不轻松的事情。 Python的运行环境 要运行或写Python代码,就需要Python的运行环境,主要的Python有以下三类: 原生态的Python:就是直接从Python的官网下载,然后安装使用。这类方法最简单直接,但是后期不容 阅读全文
posted @ 2018-06-29 19:07 昕-2008 阅读(2550) 评论(0) 推荐(1) 编辑
摘要: 注:最近在工作中,高频率的接触到了SVM模型,而且还有使用SVM模型做回归的情况,即SVR。另外考虑到自己从第一次知道这个模型到现在也差不多两年时间了,从最开始的腾云驾雾到现在有了一点直观的认识,花费了不少时间。因此在这里做个总结,比较一下使用同一个模型做分类和回归之间的差别,也纪念一下与SVM相遇 阅读全文
posted @ 2018-05-01 20:12 昕-2008 阅读(39365) 评论(0) 推荐(7) 编辑
摘要: 注:数据是机器学习模型的原材料,当下机器学习的热潮离不开大数据的支撑。在机器学习领域,有大量的公开数据集可以使用,从几百个样本到几十万个样本的数据集都有。有些数据集被用来教学,有些被当做机器学习模型性能测试的标准(例如ImageNet图片数据集以及相关的图像分类比赛)。这些高质量的公开数据集为我们学 阅读全文
posted @ 2018-04-14 12:28 昕-2008 阅读(44117) 评论(0) 推荐(7) 编辑
摘要: 注:点估计是参数估计中的一种。点估计常用的方法有两种:矩估计和最大似然估计。之所以要做估计,最本质的问题是我们能获得的信息量(样本的数量)有限,因此只能在有限的信息中,用合理的方法、在可接受的精度或置信度下做近似计算,以便对总体有一个大概的认识,也就是将某种在有限样本中获得的规律,推广到更大的样本量 阅读全文
posted @ 2018-04-07 13:09 昕-2008 阅读(4073) 评论(0) 推荐(1) 编辑
摘要: 注:正则化是用来防止过拟合的方法。在最开始学习机器学习的课程时,只是觉得这个方法就像某种魔法一样非常神奇的改变了模型的参数。但是一直也无法对其基本原理有一个透彻、直观的理解。直到最近再次接触到这个概念,经过一番苦思冥想后终于有了我自己的理解。 0. 正则化(Regularization ) 前面使用 阅读全文
posted @ 2018-03-16 21:12 昕-2008 阅读(75285) 评论(5) 推荐(13) 编辑
摘要: 注:在上一篇的一般线性回归中,使用的假设函数是一元一次方程,也就是二维平面上的一条直线。但是很多时候可能会遇到直线方程无法很好的拟合数据的情况,这个时候可以尝试使用多项式回归。多项式回归中,加入了特征的更高次方(例如平方项或立方项),也相当于增加了模型的自由度,用来捕获数据中非线性的变化。添加高阶项 阅读全文
posted @ 2018-03-08 20:38 昕-2008 阅读(16837) 评论(0) 推荐(4) 编辑
摘要: 注:对于最重要的两类回归模型,之前总结了逻辑回归模型,这里总结一下"线性回归"模型。 0. 概述 线性回归应该是我们听过次数最多的机器学习算法了。在一般的统计学教科书中,最后都会提到这种方法。因此该算法也算是架起了数理统计与机器学习之间的桥梁。线性回归虽然常见,但是却并不简单。该算法中几乎包含了所有 阅读全文
posted @ 2018-03-02 17:51 昕-2008 阅读(4572) 评论(0) 推荐(2) 编辑
摘要: 注:在统计学的应用中,参数估计和假设检验是最重要的两个方面。参数估计是利用样本的信息,对总体的未知参数做估计。是典型的“以偏概全”。 0. 参数及参数的估计 参数是总体分布中的参数,反映的是总体某方面特征的量。例如:合格率,均值,方差,中位数等。参数估计问题是利用从总体抽样得到的信息来估计总体的某些 阅读全文
posted @ 2018-02-02 22:05 昕-2008 阅读(6280) 评论(0) 推荐(0) 编辑