随笔分类 - Machine learning
摘要:朴素贝叶斯 概述 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本章首先介绍贝叶斯分类算法的基础——贝叶斯定理。最后,我们通过实例来讨论贝叶斯分类的中最简单的一种: 朴素贝叶斯分类。 贝叶斯理论 & 条件概率 贝叶斯理论 我们现在有一个数据集,它由两类数据组成,数
阅读全文
摘要:本文参考了该博客的实例,但该博客中的朴素贝叶斯公式计算错误,评论中的也不对,所以,重新写一篇。 作者:baidu-liuming 原文链接:带你彻彻底底搞懂朴素贝叶斯公式 更多参考:朴素贝叶斯算法原理小结 一. 朴素贝叶斯 朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶
阅读全文
摘要:原文链接:K-Means聚类算法原理 作者:刘建平Pinard K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means+
阅读全文
摘要:原文链接:https://www.joinquant.com/view/community/detail/ab2a6ecda285c5415de0e1a43db68914 Statsmodels 是 Python 中一个强大的统计分析包,包含了回归分析、时间序列分析、假设检验等等的功能。Statsm
阅读全文
摘要:基础知识 变量定义 在研究变量关系的过程中,通常对于被研究的变量,称为因变量,也称为被解释变量,一般用Y表示。其它用来说明或解释因变量变化的变量称为自变量,也称为解释变量,用X表示。自变量可以有一个,也可以有多个。例如,如果我们想预测销售收入,则销售收入就是我们这次研究的因变量,如果我们是通过广告费
阅读全文
摘要:ID3算法 ID3 提出了初步的决策树算法;C4.5 提出了完整的决策树算法;CART (Classification And Regression Tree) 目前使用最多的决策树算法; 1、ID3 算法 ID3 算法是决策树的经典构造算法,内部使用信息熵和信息增益来进行构建,每次迭代算则信息增益
阅读全文
摘要:原文:决策树系列(一)——基础知识回顾与总结 作者: 学会分享~ 1.决策树的定义 树想必大家都会比较熟悉,是由节点和边两种元素组成的结构。理解树,就需要理解几个关键词:根节点、父节点、子节点和叶子节点。 父节点和子节点是相对的,说白了子节点由父节点根据某一规则分裂而来,然后子节点作为新的父亲节点继
阅读全文
摘要:2.1经验误差与过拟合 基本概念 数据集:一个样本的集合。 属性、特征:反映样本在某方面的表现和性质,比如人的身高、体重。 属性值、特征值:属性上的取值,分为数值型和离散型。 维度:属性值或者特征值的数量。 特征向量:在由所有样本构成的n维空间中,每一个样本在n维空间中都有一个具体的坐标。 学习、训
阅读全文
摘要:感知器介绍 感知机(英语:Perceptron)是Frank Rosenblatt在1957年就职于Cornell航空实验室(Cornell Aeronautical Laboratory)时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈式人工神经网络,是一种二元线性分类器。 Frank
阅读全文
摘要:K-近邻算法(KNN)概述 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。Cover和Hart在1968年提出了最初的邻近算法。KNN是一种分
阅读全文