随笔分类 - 机器学习
摘要:一、集成学习方法之随机森林 集成学习通过建立几个模型组合来解决单一模型预测的问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。 1、什么是随机森林 随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别
阅读全文
摘要:一、决策树概述 1、决策树思想 决策树思想的来源非常朴素,它来源于程序设计中的条件分支语句结构(if-then),最早的决策树就是利用这类结构分割数据的一种分类方法。例如,银行贷款是根据贷款人的各种条件来进行判断是否放贷: 可以看到银行贷款可以根据上面的条件依次进行判断,其中很重要的是为什么将是否有
阅读全文
摘要:一、精确率与召回率 1、精确率(Presicion) 预测结果为正例样本中真实为正例的比例(查的准)。 2、召回率(Recall) 真实为正例的样本中预测结果为正例的比例(查的全,对正样本的区分能力)。 3、精确率与召回率的理解 混淆矩阵 在分类任务下,预测结果(Predicted Conditio
阅读全文
摘要:一、朴素贝叶斯概述 之前通过k-近邻算法来进行电影的分类,但是此种方法易受异常点的干扰,本质是通过欧式距离来进行类别的判断,而朴素贝叶斯则是将预测电影属于每一个类别的概率计算出来,从而判断最有可能属于的类别。 该算法常用于垃圾邮件的分类以及文章分类。例如: 上面确定一篇文章究竟是属于科技、金融还是娱
阅读全文
摘要:一、k-近邻算法概述 1、什么是k-近邻算法 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 2、欧式距离 两个样本的距离可以通过如下公式计算,又叫欧式距离。比方说计算a(a1,a2,a3),b(b1,b2,b3)样本之间的距离:
阅读全文
摘要:一、转换器 在之前我们对数据做标准化或者其它的特征工程处理时使用了fit_transform方法,它是输入数据并且对数据进行转换;与之对应的就是fit方法与transform方法,实际上这两个方法相当于一个fit_transform方法。 In [1]: from sklearn.preproces
阅读全文
摘要:一、sklearn数据集概述 (一)数据集划分 机器学习一般的数据集会划分为两个部分: 训练数据 测试数据 1、训练数据 用于训练,构建模型,一般可设定占整个数据集的75% 2、测试数据 在模型检验时使用,用于评估模型是否有效,一般可设定占整个数据集的25% (二)sklearn数据集接口介绍 sk
阅读全文
摘要:一、算法分类 (一)数据分类 不同的算法是针对不同的数据类型的,所以在了解算法之前,可以先了解以下数据的类型: 离散型数据 连续性数据 1、离散型数据 由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再进行细分以及提高它们的精确度。 2、连续型数据 变量在某一范
阅读全文
摘要:一、数据集介绍 该案例描述的是一段时间内客户的订单,预测用户下一次将会买那些订单。 数据集的信息如下: products.csv 商品信息 order_products__prior.csv 订单与商品关系信息 orders.csv 订单信息 aisles.csv 商品所属的具体类别 1、 prod
阅读全文
摘要:一、特征选择 (一)概述 1、什么是特征选择 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。 2、为什么进行特征选择 那么,我们为什么要进行数据进行特征选择呢?其一就
阅读全文
摘要:一、什么是特征预处理 我们在进行特征抽取后,需要根据算法的要求,使用特定的统计方法(数学方法)将数据转换成其所需格式。对于不同的数据类型有不同的转换方法。 1、数值类型数据 对于数值类型数据可采用标准的缩放,其方法有: 归一化 标准化 缺失值处理 2、类别型数据 采用one-hot编码,像字典、文本
阅读全文
摘要:一、什么是特征工程 (一)数据集的构成 常用数据集是由特征值和目标值构成的,比如: 可以将前三列当作特征,根据人口、经济、教育水平来判断下面两个样本的处于那个区域(目标值)。但是有些数据集也可以是没有目标值得,比如文本数据(一篇文章)。 (二)什么是特征工程 特征工程是将原始数据转换为更好地代表预测
阅读全文