摘要:
概要 这些结论为参数的假设检验提供了理论基础,非常重要。参考《概率论与数理统计》记录一下。 重要定理 设 $x_1,\cdots, x_n$ 是来自正态总体 $N(\mu, \sigma^2)$ 的样本,其样本均值和样本方差分别为 \\begin 阅读全文
摘要:
概要 在统计分析中,经常会有假设参数服从某种分布,所以在此文中,参考《概率论与数理统计》(茆诗松著),简单罗列一下经常碰到的分布,做下简单介绍,并且结合 Python 中 "Scipy.stats" 模块进行模拟。将要介绍的分布目录如下: "二项分布" &ems 阅读全文
摘要:
概要 基于 sklearn 包自带的 iris 数据集,了解一下分类树的各种参数设置以及代表的意义。 iris 数据集介绍 iris 数据集包含 150 个样本,对应数据集的每行数据,每行数据包含每个样本的四个特征(花萼长度、花萼宽度、花瓣长度、花瓣宽度)和样本的类别信息,所以 iri 阅读全文
摘要:
概要 本部分介绍 CART,是一种非常重要的机器学习算法。 基本原理 CART 全称为 Classification And Regression Trees,即分类回归树。顾名思义,该算法既可以用于分类还可以用于回归。 克服了 ID3 算法只能处理离散型数据的缺点,CA 阅读全文
摘要:
概要 决策树也是我们经常使用的样本归类算法。简单来说,它就是 if else 的判断集合,本文就详细介绍其原理,还有例子实现。依然参考《机器学习实战》。 基本理论 决策树是通过一系列规则对数据进行分类的过程。 决策树利用了概率论的原理,不断地将数据切分成小数据集,直到所有 阅读全文
摘要:
概要 笔试中经常出现关于图的考题,有必要熟悉下。本篇参考《大话数据结构》,简单介绍一下图,不作深入探究。 定义 图的简单定义 图 是由顶点的有穷非空集合和顶点之间边的集合组成,通常表示为:$G(V,E)$,其中 $G$ 表示一个图,$V$ 是图 $G$ 中点的集合,$E$ 阅读全文
摘要:
概要 分类的目标是标称型数据,而回归将会对连续型的数据做出预测。依然参考《机器学习实战》第 $8$ 章,总结一下总有收获。 其中有谈到方差和偏差的概念,腾讯 2018 春招笔试第一大题就是关于这个的。Here we go! "线性回归" "局部加权回归" "岭回归" "lasso" " 阅读全文
摘要:
概要 先前我们实现了 "基础版本" 的 SVM,现在我们来实现进阶版本。和上次比,这次优化的地方在于: 启发式选择参数 alpha(训练速度更快) 。通过一个外循环来选择第一个 alpha 值,并且其选择过程中会在两种方式间进行交替:一种方式是在所有数据集上进行单遍扫描,另一种方式则是在非边界(不等 阅读全文
摘要:
概要 已经学习了 "支持向量机相关理论" ,怎么能不应用一下下呢?本部分就参考机器学习实战中相关章节,实现支持向量机。 简单版本的支持向量机 数据集 我们所用的数据集,正是机器学习实战中相关的分类数据集,因为是二维的,可以做可视化,对刚开始入门的实现算法来说非常友好。原始 阅读全文
摘要:
概要 偶然看到一篇文章 "伪·黑科技】基于像素微调实现的文字隐写术" ,受此启发,能把文字转成二进制,那么图片像素转成二进制岂不更容易,于是我就写了一个隐藏图片的代码,也就有了这篇随笔。 但是刚写出来不完美,有几点需要改进的地方,现在还没有想通,做此记录,以后有机会再慢慢改进: pyt 阅读全文