经典算法 - 随笔分类(第2页) - lvdongjie-avatarx

密度聚类-DBSCANE

摘要：一、前言 DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇，并在具有噪声的空间数据库中发现任意形状的簇，它将簇定义为密阅读全文

posted @ 2021-01-19 20:45 lvdongjie-avatarx 阅读(293) 评论(0) 推荐(0) 编辑

层次聚类算法之BIRCH（聚类特征树的多阶段聚类）

摘要：BIRCH（Balanced Iterative Reducing and Clustering using Hierarchies）天生就是为处理超大规模（至少要让你的内存容不下）的数据集而设计的，它可以在任何给定的内存下运行。关于BIRCH的更多特点先不介绍，我先讲一下算法的完整实现细节，对算法阅读全文

posted @ 2021-01-19 20:02 lvdongjie-avatarx 阅读(871) 评论(0) 推荐(0) 编辑

凝聚聚类API

摘要：https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html?highlight=agg#sklearn.cluster.AgglomerativeClustering h 阅读全文

posted @ 2021-01-19 19:47 lvdongjie-avatarx 阅读(43) 评论(0) 推荐(0) 编辑

层次聚类 Hierarchical Clustering

摘要：不管是GMM，还是k-means，都面临一个问题，就是k的个数如何选取？比如在bag-of-words模型中，用k-means训练码书，那么应该选取多少个码字呢？为了不在这个参数的选取上花费太多时间，可以考虑层次聚类。假设有N个待聚类的样本，对于层次聚类来说，基本步骤就是： 1、（初始化）把每个样阅读全文

posted @ 2021-01-19 19:30 lvdongjie-avatarx 阅读(111) 评论(0) 推荐(0) 编辑

聚类常用衡量指标

摘要：阅读全文

posted @ 2021-01-19 19:03 lvdongjie-avatarx 阅读(127) 评论(0) 推荐(0) 编辑

sklearn- kmeans API

摘要：https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html?highlight=kmeans#sklearn.cluster.KMeans https://scikit-learn.org/stable/ 阅读全文

posted @ 2021-01-19 08:19 lvdongjie-avatarx 阅读(154) 评论(0) 推荐(0) 编辑

KMeans 算法

摘要：K-means算法简述 K-means算法，也称为K-平均或者K-均值，一般作为掌握聚类算法的第一个算法。这里的K为常数，需事先设定，通俗地说该算法是将没有标注的 M 个样本通过迭代的方式聚集成K个簇。在对样本进行聚集的过程往往是以样本之间的距离作为指标来划分。简单Demo说明如上图以 K 为阅读全文

posted @ 2021-01-19 08:14 lvdongjie-avatarx 阅读(970) 评论(0) 推荐(0) 编辑

K-means算法的改进：K-means++

摘要：由于 K-means 算法的分类结果会受到初始点的选取而有所区别，因此有提出这种算法的改进: K-means++ 。算法步骤其实这个算法也只是对初始点的选择有改进而已，其他步骤都一样。初始质心选取的基本思路就是，初始的聚类中心之间的相互距离要尽可能的远。算法描述如下：步骤一：随机选取一个样本阅读全文

posted @ 2021-01-19 08:10 lvdongjie-avatarx 阅读(722) 评论(0) 推荐(0) 编辑

六大聚类算法

摘要：1.K-Means(K均值)聚类算法步骤：(1) 首先我们选择一些类/组，并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。(2) 计算每个数据点到中心点的距离，数据点距离哪个中心点最近就划分到哪一类中。(3) 计算每一类中中心点作阅读全文

posted @ 2021-01-19 07:33 lvdongjie-avatarx 阅读(564) 评论(0) 推荐(0) 编辑

机器学习-集成学习-boosting-catboost原理

摘要：概述 CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库，是Boosting族算法的一种。CatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器，都是在GBDT算法框架下的一种改进实现。XGBoost被广泛的应用于工业界，LightGBM有效的提升了G 阅读全文

posted @ 2021-01-18 07:56 lvdongjie-avatarx 阅读(354) 评论(0) 推荐(0) 编辑

机器学习-集成学习-Boosting-XgBoost提升算法之LightGBM

摘要：LigthGBM是boosting集合模型中的新进成员，由微软提供，它和XGBoost一样是对GBDT的高效实现，原理上它和GBDT及XGBoost类似，都采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。 LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势：阅读全文

posted @ 2021-01-17 22:31 lvdongjie-avatarx 阅读(583) 评论(0) 推荐(0) 编辑

集成学习-Stacking 模型融合详解

摘要：Ensemble learning 中文名叫做集成学习，它并不是一个单独的机器学习算法，而是将很多的机器学习算法结合在一起，我们把组成集成学习的算法叫做“个体学习器”。在集成学习器当中，个体学习器都相同，那么这些个体学习器可以叫做“基学习器”。个体学习器组合在一起形成的集成学习，常常能够使得泛化性阅读全文

posted @ 2021-01-16 17:17 lvdongjie-avatarx 阅读(5349) 评论(0) 推荐(0) 编辑

集成学习-Boosting之GBDT：梯度提升决策树

摘要：综述 GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算阅读全文

posted @ 2021-01-15 08:06 lvdongjie-avatarx 阅读(212) 评论(0) 推荐(0) 编辑

集成学习-BaggingClassifier，BaggingRegressor

摘要：https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html?highlight=bagging#sklearn.ensemble.BaggingClassifier https:/ 阅读全文

posted @ 2021-01-14 08:18 lvdongjie-avatarx 阅读(362) 评论(0) 推荐(0) 编辑

集成学习-AdaBoostClassifier，AdaBoostRegressor

摘要：https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html?highlight=adaboost#sklearn.ensemble.AdaBoostClassifier http 阅读全文

posted @ 2021-01-14 08:17 lvdongjie-avatarx 阅读(438) 评论(0) 推荐(0) 编辑

机器学习-集成学习-boosting之AdaBoost算法详解

摘要：1. 概述 1.1 集成学习目前存在各种各样的机器学习算法，例如SVM、决策树、感知机等等。但是实际应用中，或者说在打比赛时，成绩较好的队伍几乎都用了集成学习(ensemble learning)的方法。集成学习的思想，简单来讲，就是“三个臭皮匠顶个诸葛亮”。集成学习通过结合多个学习器(例如同种算阅读全文

posted @ 2021-01-14 08:14 lvdongjie-avatarx 阅读(338) 评论(0) 推荐(0) 编辑

机器学习-集成算法-Boosting

摘要：概述 Boosting基本思想: 通过改变训练数据的概率分布（训练数据的权值分布），学习多个弱分类器，并将它们线性组合，构成强分类器。 Boosting算法要求基学习器能对特定的数据分布进行学习，这可通过“重赋权法”（re-weighting）实施。对无法接受带权样本的基学习算法，则可通过“重采样法阅读全文

posted @ 2021-01-13 21:25 lvdongjie-avatarx 阅读(309) 评论(0) 推荐(0) 编辑

sklearn 缺失值处理器： Imputer

摘要：class sklearn.preprocessing.Imputer(missing_values=’NaN’, strategy=’mean’, axis=0, verbose=0, copy=True) 参数： missing_values: integer or “NaN”, optiona 阅读全文

posted @ 2021-01-13 19:34 lvdongjie-avatarx 阅读(1238) 评论(0) 推荐(1) 编辑

随机森林扩展- Extra Tree、TRTE、IForest

摘要：特征重要度作为单个的决策树模型，在模型建立时实际上是寻找到某个特征合适的分割点。这个信息可以作为衡量所有特征重要性的一个指标。基本思路如下：如果一个特征被选为分割点的次数越多，那么这个特征的重要性就越强。这个理念可以被推广到集成算法中，只要将每棵树的特征重要性进行简单的平均即可。分别根据特征1 阅读全文

posted @ 2021-01-13 19:11 lvdongjie-avatarx 阅读(1306) 评论(0) 推荐(0) 编辑

机器学习-随机森林算法及其实现（Random Forest）

摘要：https://blog.csdn.net/yangyin007/article/details/82385967 1 什么是随机森林？作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的阅读全文

posted @ 2021-01-13 08:43 lvdongjie-avatarx 阅读(2587) 评论(0) 推荐(0) 编辑

lvdongjie-avatarx

此博客专攻人工智能。

随笔分类 - 经典算法

公告