随笔分类 - 数据挖掘
1
数据挖掘入门系列教程
摘要:从无到有,陆陆续续一个 数据挖掘入门系列 的教程就写了18篇博客了,这个是我没有想到的,本来以为可能写10篇博客就结束了,但是写着写着写着写着就写了这么多: 1. "数据挖掘入门系列教程(一)之亲和性分析" 2. "数据挖掘入门系列教程(二)之分类问题OneR算法" 3. "数据挖掘入门系列教程(三
阅读全文
摘要:简介 在上一篇博客: "数据挖掘入门系列教程(十一点五)之CNN网络介绍" 中,介绍了CNN的工作原理和工作流程,在这一篇博客,将具体的使用代码来说明如何使用keras构建一个CNN网络来对CIFAR 10数据集进行训练。 如果对keras不是很熟悉的话,可以去看一看 "官方文档" 。或者看一看我前
阅读全文
摘要:在前面的两篇博客中,我们介绍了DNN(深度神经网络)并使用keras实现了一个简单的DNN。在这篇博客中将介绍CNN(卷积神经网络),然后在下一篇博客中将使用keras构建一个简单的CNN,对 数据集进行分类预测。 CNN简介 我们可以想一个例子,假如我们现在需要对人进行识别分类,根据我们人类的思维
阅读全文
摘要:简介 在上一篇博客: "数据挖掘入门系列教程(十点五)之DNN介绍及公式推导" 中,详细的介绍了DNN,并对其进行了公式推导。本来这篇博客是准备直接介绍CNN的,但是想了一下,觉得还是使用keras构建一个DNN网络,然后进行一定的分类操作,这样能够更加的直观一点。 在这篇博客中将介绍: keras
阅读全文
摘要:深度神经网络(DNN,Deep Neural Networks)简介 首先让我们先回想起在之前博客( "数据挖掘入门系列教程(七点五)之神经网络介绍" )中介绍的神经网络:为了解决M P模型中无法处理XOR等简单的非线性可分的问题时,我们提出了多层感知机,在输入层和输出层中间添加一层隐含层,这样该网
阅读全文
摘要:简介 这一次我们来讲一下比较轻松简单的数据挖掘的算法——K Means算法。K Means算法是一种 无监督 的聚类算法。什么叫无监督呢?就是对于训练集的数据,在训练的过程中,并没有告诉训练算法某一个数据属于哪一个类别。对于K Means算法来说,他就是通过某一些骚操作,将一堆“相似”的数据聚集在一
阅读全文
摘要:[TOC] 介绍 在上一篇博客: "数据挖掘入门系列教程(八点五)之SVM介绍以及从零开始公式推导" 中,详细的讲述了SVM的原理,并进行了详细的数学推导。在这篇博客中,主要是应用SVM,使用SVM进行数据分类,不会涉及到SVM的解释,so,如果对svm并不是特别了解的话,非常建议先去看我的上一篇
阅读全文
摘要:[TOC] 还是老规矩,这一篇博客是对SVM进行介绍,下一篇博客就是使用SVM进行具体的使用。 SVM介绍 首先介绍SVM是什么,SVM(support vector machine)名为支持向量机,又名支持向量网络,是一个非常经典且高效的分类模型,是一种监督式的学习方法。 从名字上面来理解,SVM
阅读全文
摘要:[TOC] 在本章节中,并不会对神经网络进行介绍,因此如果不了解神经网络的话,强烈推荐先去看《西瓜书》,或者看一下我的上一篇博客: "数据挖掘入门系列教程(七点五)之神经网络介绍" 本来是打算按照《Python数据挖掘入门与实践》里面的步骤使用神经网络来识别验证码,但是呢,验证码要自己生成,然后我又
阅读全文
摘要:[TOC] 数据挖掘入门系列教程(七点五)之神经网络介绍 这篇博客是是为了下一篇博客“使用神经网络破解验证码”做准备。主要是对神经网络的原理做介绍。同时这篇博客主要是参考了西瓜书,如果身边有西瓜书的同学,强烈建议直接去看西瓜书,至于我这篇博客,你就当个乐子好了(因为你会发现内容与西瓜书很相似)。 简
阅读全文
摘要:数据挖掘入门系列教程(七)之朴素贝叶斯进行文本分类 贝叶斯分类算法是一类分类算法的总和,均以贝叶斯定理为基础,故称之为贝叶斯分类。而朴素贝叶斯分类算法就是其中最简单的分类算法。 朴素贝叶斯分类算法 朴素贝叶斯分类算法很简单很简单,就一个公式如下所示: $$ P(B|A) = \frac{P(A|B)
阅读全文
摘要:[TOC] 数据挖掘入门系列教程(六)之数据集特征选择 这一篇博客主要来如何介绍从数据集中抽取合适的特征。 我们知道,在数据挖掘中,数据的训练算法很重要,但是同样我们对于数据的前置处理也不可忽视。因为我们对某个数据集的描述是使用特征来表示的。在前面的博客中无论我们是获得商品交易的相关性关系,还是使用
阅读全文
摘要:数据挖掘入门系列教程(五)之Apriori算法Python实现 加载数据集 获得训练集 频繁项的生成 生成规则 获得support 获得confidence 获得Lift 进行验证 总结 数据挖掘入门系列教程(五)之Apriori算法Python实现 在上一篇博客中,我们介绍了Apriori算法的算
阅读全文
摘要:[TOC] 数据挖掘入门系列教程(四点五)之Apriori算法 Apriori(先验)算法 关联规则 学习的经典算法之一,用来寻找出数据集中频繁出现的数据集合。如果看过以前的博客,是不是想到了这个跟 "数据挖掘入门系列教程(一)之亲和性分析" 这篇博客很相似?Yes,的确很相似,只不过在这篇博客中,
阅读全文
摘要:数据挖掘入门系列教程(四)之基于scikit-lean决策树处理Iris加载数据集数据特征训练随机森林调参工程师结尾 数据挖掘入门系列教程(四)之基于scikit-lean决策树处理Iris 在上一篇博客,我们介绍了决策树的一些知识。如果对决策树还不是很了解的话,建议先阅读上一篇博客,在来学习这一篇
阅读全文
摘要:数据挖掘入门系列教程(三点五)之决策树 本来还是想像以前一样,继续学习《 Python数据挖掘入门与实践 》的第三章“决策树”,但是这本书上来就直接给我怼了一大串代码,对于 基本上没有什么介绍,可直接把我给弄懵逼了,主要我只听过决策树还没有认真的了解过它。 这一章节主要是对决策树做一个介绍,在下一个
阅读全文
摘要:数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例)简介scikit-learn 估计器加载数据集进行fit训练设置参数预处理流水线结尾 数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例) 数据挖掘入门系列博客:https://www
阅读全文
摘要:数据挖掘入门系列教程(二点五)之K-近邻算法和距离度量介绍简介距离度量欧式距离曼哈顿距离余弦距离 数据挖掘入门系列教程(二点五)之K-近邻算法和距离度量介绍 简介 K-近邻算法,又名最近邻居算法,其英文缩写是KNN(k-nearest neighbors)。是一种用于分类和回归的非参数统计方法。其可
阅读全文
摘要:数据挖掘入门系列教程(二)之分类问题OneR算法 数据挖掘入门系列博客:https://www.cnblogs.com/xiaohuiduan/category/1661541.html 项目地址:GitHub 在上一篇博客中,我们通过分析亲和性来寻找数据集中数据与数据之间的相关关系。这篇博客我们会
阅读全文
摘要:数据挖掘入门系列教程(一)之亲和性分析 教程系列简介 系列地址:https://www.cnblogs.com/xiaohuiduan/category/1661541.html 该教程为入门教程,为博主学习数据挖掘的学习路径步骤。教程为入门教程,从最简单的开始。使用的编程语言为Python3.8.
阅读全文
1