数据挖掘算法与模型 - 随笔分类 - hgz_dm

XGBoost算法

摘要：文章转载自microstrong的深入理解XGBoost 1. XGBoost简介 XGBoost的全称是eXtreme Gradient Boosting，它是经过优化的分布式梯度提升库，旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具，它是目前最快最好的开源 b 阅读全文

posted @ 2022-02-14 16:37 hgz_dm 阅读(2498) 评论(0) 推荐(0) 编辑

GBDT回归算法

摘要：文章转载自https://zhuanlan.zhihu.com/p/81016622 1. GBDT简介 Boosting、Bagging和Stacking是集成学习(Ensemble Learning)的三种主要方法。Boosting是一族可将弱学习器提升为强学习器的算法，不同于Bagging、S 阅读全文

posted @ 2022-02-10 19:28 hgz_dm 阅读(894) 评论(0) 推荐(0) 编辑

利用pyspark pandas_udf 加速机器学习任务

摘要：实验是最能定义数据科学家日常生活的词。为了为给定的问题构建一个合适的机器学习模型，数据科学家需要训练多个模型。此过程包括诸如寻找模型的最佳超参数、使用 K 折交叉验证模型，有时甚至训练具有多个输出的模型等任务。前面提到的所有这些任务都很耗时，但对于模型开发的成功来说却极为重要。在这篇博文中，我们将展阅读全文

posted @ 2021-12-20 20:50 hgz_dm 阅读(1417) 评论(0) 推荐(1) 编辑

集成学习算法——adaboost

摘要：adaboost是boosting类集成学习方法中的一种算法，全称是adaptive boost，表示其是一种具有自适应性的算法，这个自适应性体现在何处，下面来详细说明。 1.adaboost算法原理在boosting算法框架中，新的弱学习器是基于已有的弱学习器的输出结果生成的，已有的弱学习器产生阅读全文

posted @ 2019-10-30 17:53 hgz_dm 阅读(1208) 评论(0) 推荐(0) 编辑

在spark上构造随机森林模型过程的一点理解

摘要：这篇文章仅仅是为了帮助自己理解在分布式环境下是如何进行随机森林模型构建的，文章中记录的内容可能不太准确，仅仅是大致上的一个理解。 1.特征切分点统计不管是连续取值型特征还是离散取值型特征，分裂树结点时都需要寻找最优特征的最优切分点。离散型特征还好一点，对连续型特征，其取值情况多，若是遍历所有数据样阅读全文

posted @ 2019-09-04 20:29 hgz_dm 阅读(781) 评论(0) 推荐(0) 编辑

对accuracy、precision、recall、F1-score、ROC-AUC、PRC-AUC的一些理解

摘要：最近做了一些分类模型，所以打算对分类模型常用的评价指标做一些记录，说一下自己的理解。使用何种评价指标，完全取决于应用场景及数据分析人员关注点，不同评价指标之间并没有优劣之分，只是各指标侧重反映的信息不同。为了便于后续的说明，先建立一个二分类的混淆矩阵，以下各参数的说明都是针对二元分类 1.准确率阅读全文

posted @ 2019-09-02 16:22 hgz_dm 阅读(4259) 评论(0) 推荐(0) 编辑

关联分析（二）：关联模式的评估

摘要：关联分析方法具有产生大量模式的潜在能力，在真正的商业数据上，数据量与数据维数都非常大，很容易产生数以千计、万计甚至百万计的模式，而其中很大一部分可能并不让人感兴趣，筛选这些模式，以识别最有趣的模式并非一项平凡的任务，因为“一个人的垃圾在另一个人那里可能就是财富”，因此建立一组广泛接受的评价关联模式质阅读全文

posted @ 2019-05-18 16:43 hgz_dm 阅读(2489) 评论(0) 推荐(0) 编辑

关联分析（一）：频繁项集及规则产生

摘要：关联分析用于发现隐藏在大型数据集中有意义的联系，属于模式挖掘分析方法，其为人熟知的经典应用当属沃尔玛超市里“啤酒与尿布”的关系挖掘了。关联分析的应用领域非常多，当数据集类型比较复杂时，进行关联分析采用的手段也相对复杂，本篇从最简单的事务数据集着手，对关联分析进行解读。对大型事务数据集进行关联分析时阅读全文

posted @ 2019-05-18 16:41 hgz_dm 阅读(2411) 评论(0) 推荐(0) 编辑

支持向量机(四)——非线性支持向量机

摘要：前面介绍的支持向量机都是在数据线性可分条件下的，但我们拿到训练数据时，并不一定能知道数据是否线性可分，低维数据可以通过可视化的方式观察是否线性可分，而高维数据则很难判断其是否线性可分了。对线性不可分数据强行构建线性支持向量机分类可能会导致很差的分类效果，本篇博文就介绍一下如何在数据线性不可分条件下构阅读全文

posted @ 2019-05-18 16:37 hgz_dm 阅读(439) 评论(0) 推荐(0) 编辑

支持向量机(三)——软间隔最大化

摘要：在支持向量机系列的前两篇中，介绍了一下完全线性可分向量机的构建过程，本篇将在此基础上介绍一下不完全线性可分的情况下实现支持向量机软间隔最大化过程。 1.线性分类时的两种情况情况一：考虑下面这张图中的情况，这些数据点是完全线性可分的，蓝色点与绿色点两类，分割线为紫色实直线如果按完全线性可分的阅读全文

posted @ 2019-05-18 16:36 hgz_dm 阅读(238) 评论(0) 推荐(0) 编辑

支持向量机(一)——完全线性可分

摘要：最初学习、理解支持向量机时，有点费劲，参考了一些不错的书籍和博客，这里推荐一下： 1.支持向量机简介支持向量机(Support Vector Machine，SVM)是一种二类分器，只支持两种类别的分类，不过在一些场合下可以将多个SVM串联起来，达到多分类的目的，下面先从二维情况入手，说明一下SV 阅读全文

posted @ 2019-05-18 16:34 hgz_dm 阅读(352) 评论(0) 推荐(0) 编辑

朴素贝叶斯分类

摘要：在很多的应用中，属性集与类别之间的关系是不确定的，换句话说，尽管测试样本的属性值与训练样本相同，但是也不一定能正确的预测其类别，其中一个原因是噪声的存在，另一个原因是某些影响分类的属性并没有出现在属性集中。贝叶斯方法都有所耳闻，之所以称为“朴素”贝叶斯方法，是因为在分类时，假定了“各变量间相互独立” 阅读全文

posted @ 2019-05-18 16:33 hgz_dm 阅读(593) 评论(0) 推荐(0) 编辑

K最邻近分类

摘要：最邻近分类是分类方法中比较简单的一种，下面对其进行介绍 1.模型结构说明最邻近分类模型属于“基于记忆”的非参数局部模型，这种模型并不是立即利用训练数据建立模型，数据也不再被函数和参数所替代。在对测试样例进行类别预测的时候，找出和其距离最接近的个样例，以其中数量最多的类别作为该样例的类预测结果。最阅读全文

posted @ 2019-05-18 16:31 hgz_dm 阅读(299) 评论(0) 推荐(0) 编辑

基于规则的分类——RIPPER算法

摘要：在《分类：基于规则的分类技术》中已经比较详细的介绍了基于规则的分类方法，RIPPER算法则是其中一种具体构造基于规则的分类器的方法。在RIPPER算法中，有几个点是算法的重要构成部分，需要强调一下规则排序方式 RIPPER算法中采用的仍然是基于类的规则排序方式，不过独特的地方是，它先将各个类按频率阅读全文

posted @ 2019-05-18 16:29 hgz_dm 阅读(3953) 评论(0) 推荐(0) 编辑

基于规则的分类技术

摘要：基于规则的分类是一种比较简单的分类技术，下面从以下几个方面对其进行介绍 1.任务所有的分类技术的任务都是利用数据集训练出分类器，然后为每条记录贴上标签，对其进行分类，基于规则的分类任务也是如此。 2.结构基于规则的分类使用了一组的规则来对记录进行分类，其将这些规则组合起来，形成了如下所示结构阅读全文

posted @ 2019-05-18 15:41 hgz_dm 阅读(1146) 评论(0) 推荐(0) 编辑

分类模型的评价及比较

摘要：当我们得到数据模型后，该如何评价模型的优劣呢？之前看到过这样一句话：“尽管这些模型都是错误的，但是有的模型是有用的”，想想这句话也是挺有道理的！评价和比较分类模型时，关注的是其泛化能力，因此不能仅关注模型在某个验证集上的表现。事实上，如果有足够多的样本作为验证集来测试模型的表现是再好不过的，但即使阅读全文

posted @ 2019-05-18 15:32 hgz_dm 阅读(1685) 评论(0) 推荐(1) 编辑

决策树——常用算法说明

摘要：决策树模型很早就出现了，当我们使用一连串的 “if...else...” 语句时，就已经具备了决策树的思想了，不过当真正去构建决策树时，就要考虑哪个先 if、哪个后 if，采用什么样的标准来支持我们选定先 if的属性等，这部分内容在《分类：决策树——树的生长》中已经说明了。早期的决策树算法（如ID3 阅读全文

posted @ 2019-05-18 15:19 hgz_dm 阅读(594) 评论(0) 推荐(0) 编辑

决策树——剪枝

摘要：本篇是决策树系列的第二篇，介绍一下决策树的剪枝过程。过拟合是决策树构建过程中常见的问题，信息失衡、噪声等问题都会导致过拟合，剪枝则是提高决策树模型泛化能力的重要手段，下面对常用的剪枝方法作一些介绍。 1. 预剪枝决策树系列第一篇《分类：决策树——树的生长》中提到过，树的生长是一种“完全”式的生长，阅读全文

posted @ 2019-01-19 19:07 hgz_dm 阅读(1293) 评论(0) 推荐(0) 编辑

决策树——树的生长

摘要：分类算法非常适合预测或描述标签为二元或标称类型的数据集，对于标签为序数类型的数据集，分类技术则不太有效，因为分类技术不考虑隐藏在序数中的“序”关系，对于标签其他形式的联系如子类与超类（包含的关系），分类技术也不太适合。本文是分类模型系列的初篇，先介绍最基本的分类/回归模型——决策树模型。决策树分类阅读全文

posted @ 2019-01-19 19:06 hgz_dm 阅读(724) 评论(0) 推荐(0) 编辑

hgz_dm

随笔分类 - 数据挖掘算法与模型

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论