2017 年 4月 5 日随笔档案 - 郑兴鹏

2017年4月5日

摘要： K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means算法有大量的变体，本文就从最传统的K-Means算法讲起，在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的阅读全文

posted @ 2017-04-05 20:33 郑兴鹏阅读(8719) 评论(0) 推荐(0) 编辑

Bagging与随机森林算法原理小结

摘要：在集成学习原理小结中，我们讲到了集成学习有两个流派，一个是boosting派系，它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派，它的特点是各个弱学习器之间没有依赖关系，可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。随机森林是集成学习中可以和梯度提升树GB 阅读全文

posted @ 2017-04-05 20:33 郑兴鹏阅读(1259) 评论(0) 推荐(0) 编辑

DBSCAN密度聚类算法

摘要： DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用阅读全文

posted @ 2017-04-05 20:32 郑兴鹏阅读(9119) 评论(0) 推荐(0) 编辑

BIRCH聚类算法原理

摘要：在K-Means聚类算法原理中，我们讲到了K-Means和Mini Batch K-Means的聚类原理。这里我们再来看看另外一种常见的聚类算法BIRCH。BIRCH算法比较适合于数据量大，类别数K也比较多的情况。它运行速度很快，只需要单遍扫描数据集就能进行聚类，当然需要用到一些技巧，下面我们就对B 阅读全文

posted @ 2017-04-05 20:32 郑兴鹏阅读(884) 评论(1) 推荐(0) 编辑

谱聚类（spectral clustering）原理总结

摘要：谱聚类（spectral clustering）是广泛使用的聚类算法，比起传统的K-Means算法，谱聚类对数据分布的适应性更强，聚类效果也很优秀，同时聚类的计算量也小很多，更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时，个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法阅读全文

posted @ 2017-04-05 20:31 郑兴鹏阅读(544) 评论(0) 推荐(0) 编辑

scikit-learn 线性回归算法库小结

摘要： scikit-learn对于线性回归提供了比较多的类库，这些类库都可以用来做线性回归分析，本文就对这些类库的使用做一个总结，重点讲述这些线性回归算法库的不同和各自的使用场景。线性回归的目的是要得到输出向量YY和输入特征XX之间的线性关系，求出线性回归系数θθ,也就是 Y=XθY=Xθ。其中YY的维阅读全文

posted @ 2017-04-05 20:30 郑兴鹏阅读(216) 评论(0) 推荐(0) 编辑

主成分分析（PCA）原理总结

摘要：主成分分析（Principal components analysis，以下简称PCA）是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA，下面我们就对PCA的原理做一个总结。 1. PCA的思想 PCA顾名思义，就是找出数据里最阅读全文

posted @ 2017-04-05 20:30 郑兴鹏阅读(277) 评论(0) 推荐(0) 编辑

逻辑回归原理小结

摘要：逻辑回归是一个分类算法，它可以处理二元分类以及多元分类。虽然它名字里面有“回归”两个字，却不是一个回归算法。那为什么有“回归”这个误导性的词呢？个人认为，虽然逻辑回归是分类模型，但是它的原理里面却残留着回归模型的影子，本文对逻辑回归原理做一个总结。 1. 从线性回归到逻辑回归我们知道，线性回归的模阅读全文

posted @ 2017-04-05 20:29 郑兴鹏阅读(274) 评论(0) 推荐(0) 编辑

机器学习算法的随机数据生成

摘要：在学习机器学习算法的过程中，我们经常需要数据来验证算法，调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能，我们可以自己生成适合某一种模型的数据，用随机数据来做清洗，归一化，转换，然后选择模型与算法做拟合和预测。阅读全文

posted @ 2017-04-05 20:28 郑兴鹏阅读(1141) 评论(0) 推荐(0) 编辑

感知机原理小结

摘要：感知机可以说是最古老的分类方法之一了，在1957年就已经提出。今天看来它的分类模型在大多数时候泛化能力不强，但是它的原理却值得好好研究。因为研究透了感知机模型，学习支持向量机的话会降低不少难度。同时如果研究透了感知机模型，再学习神经网络，深度学习，也是一个很好的起点。这里对感知机的原理做一个小结。阅读全文

posted @ 2017-04-05 20:28 郑兴鹏阅读(248) 评论(0) 推荐(0) 编辑

日志和告警数据挖掘经验谈

摘要：最近参与了了一个日志和告警的数据挖掘项目，里面用到的一些思路在这里和大家做一个分享。项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理，主要是归类(Grouping)和关联(Correlation)，从而得到告警和日志的一些统计关系，这些统计结果可以给一线支持人员参考。得到阅读全文

posted @ 2017-04-05 20:28 郑兴鹏阅读(544) 评论(0) 推荐(0) 编辑

K近邻法(KNN)原理小结

摘要： K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了，在我们平常的生活中也会不自主的应用。比如，我们判断一个人的人品，只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类，也可以做回归，这点和决策树算法相同。 KNN做阅读全文

posted @ 2017-04-05 20:27 郑兴鹏阅读(8929) 评论(1) 推荐(0) 编辑

scikit-learn决策树算法类库使用小结

摘要：之前对决策树的算法原理做了总结，包括决策树算法原理(上)和决策树算法原理(下)。今天就从实践的角度来介绍决策树算法，主要是讲解使用scikit-learn来跑决策树算法，结果的可视化以及一些参数调参的关键点。 1. scikit-learn决策树算法类库介绍 scikit-learn决策树算法类库内阅读全文

posted @ 2017-04-05 20:27 郑兴鹏阅读(179) 评论(0) 推荐(0) 编辑

朴素贝叶斯算法原理小结

摘要：在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数Y=f(X)Y=f(X),要么是条件分布P(Y|X)P(Y|X)。但是朴素贝叶斯却是生阅读全文

posted @ 2017-04-05 20:26 郑兴鹏阅读(605) 评论(0) 推荐(0) 编辑

scikit-learn 支持向量机算法库使用小结

摘要：之前通过一个系列对支持向量机(以下简称SVM)算法的原理做了一个总结，本文从实践的角度对scikit-learn SVM算法库的使用做一个小结。scikit-learn SVM算法库封装了libsvm 和 liblinear 的实现，仅仅重写了算法了接口部分。 1. scikit-learn SVM 阅读全文

posted @ 2017-04-05 20:25 郑兴鹏阅读(1327) 评论(0) 推荐(1) 编辑

最大熵模型原理小结

摘要：最大熵模型(maximum entropy model， MaxEnt)也是很典型的分类算法了，它和逻辑回归类似，都是属于对数线性分类模型。在损失函数优化的过程中，使用了和支持向量机类似的凸优化技术。而对熵的使用，让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型，对逻辑回归，支持向量阅读全文

posted @ 2017-04-05 20:25 郑兴鹏阅读(1213) 评论(0) 推荐(0) 编辑

最小二乘法小结

摘要：最小二乘法是用来做函数拟合或者求函数极值的方法。在机器学习，尤其是回归模型中，经常可以看到最小二乘法的身影，这里就对我对最小二乘法的认知做一个小结。 1.最小二乘法的原理与要解决的问题最小二乘法是由勒让德在19世纪发现的，原理的一般形式很简单，当然发现的过程是非常艰难的。形式如下式：目标函数 = 阅读全文

posted @ 2017-04-05 20:24 郑兴鹏阅读(881) 评论(0) 推荐(0) 编辑

精确率与召回率，RoC曲线与PR曲线

摘要：在机器学习的算法评估中，尤其是分类算法评估中，我们经常听到精确率(precision)与召回率(recall)，RoC曲线与PR曲线这些概念，那这些概念到底有什么用处呢？首先，我们需要搞清楚几个拗口的概念： 1. TP, FP, TN, FN 听起来还是很费劲，不过我们用一张图就很容易理解了。图如阅读全文

posted @ 2017-04-05 20:23 郑兴鹏阅读(2670) 评论(0) 推荐(0) 编辑

交叉验证(Cross Validation)原理小结

摘要：交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓阅读全文

posted @ 2017-04-05 20:23 郑兴鹏阅读(316) 评论(0) 推荐(0) 编辑

机器学习研究与开发平台的选择

摘要：目前机器学习可以说是百花齐放阶段，不过如果要学习或者研究机器学习，进而用到生产环境，对平台，开发语言，机器学习库的选择就要费一番脑筋了。这里就我自己的机器学习经验做一个建议，仅供参考。首先，对于平台选择的第一个问题是，你是要用于生产环境，也就是具体的产品中,还是仅仅是做研究学习用？ 1. 生产环境阅读全文

posted @ 2017-04-05 20:20 郑兴鹏阅读(178) 评论(0) 推荐(0) 编辑