2017年4月5日
摘要: K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的 阅读全文
posted @ 2017-04-05 20:33 郑兴鹏 阅读(8719) 评论(0) 推荐(0) 编辑
摘要: 在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。 随机森林是集成学习中可以和梯度提升树GB 阅读全文
posted @ 2017-04-05 20:33 郑兴鹏 阅读(1259) 评论(0) 推荐(0) 编辑
摘要: DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用 阅读全文
posted @ 2017-04-05 20:32 郑兴鹏 阅读(9119) 评论(0) 推荐(0) 编辑
摘要: 在K-Means聚类算法原理中,我们讲到了K-Means和Mini Batch K-Means的聚类原理。这里我们再来看看另外一种常见的聚类算法BIRCH。BIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行聚类,当然需要用到一些技巧,下面我们就对B 阅读全文
posted @ 2017-04-05 20:32 郑兴鹏 阅读(884) 评论(1) 推荐(0) 编辑
摘要: 谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时,个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法 阅读全文
posted @ 2017-04-05 20:31 郑兴鹏 阅读(544) 评论(0) 推荐(0) 编辑
摘要: scikit-learn对于线性回归提供了比较多的类库,这些类库都可以用来做线性回归分析,本文就对这些类库的使用做一个总结,重点讲述这些线性回归算法库的不同和各自的使用场景。 线性回归的目的是要得到输出向量YY和输入特征XX之间的线性关系,求出线性回归系数θθ,也就是 Y=XθY=Xθ。其中YY的维 阅读全文
posted @ 2017-04-05 20:30 郑兴鹏 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。 1. PCA的思想 PCA顾名思义,就是找出数据里最 阅读全文
posted @ 2017-04-05 20:30 郑兴鹏 阅读(277) 评论(0) 推荐(0) 编辑
摘要: 逻辑回归是一个分类算法,它可以处理二元分类以及多元分类。虽然它名字里面有“回归”两个字,却不是一个回归算法。那为什么有“回归”这个误导性的词呢?个人认为,虽然逻辑回归是分类模型,但是它的原理里面却残留着回归模型的影子,本文对逻辑回归原理做一个总结。 1. 从线性回归到逻辑回归 我们知道,线性回归的模 阅读全文
posted @ 2017-04-05 20:29 郑兴鹏 阅读(274) 评论(0) 推荐(0) 编辑
摘要: 在学习机器学习算法的过程中,我们经常需要数据来验证算法,调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能,我们可以自己生成适合某一种模型的数据,用随机数据来做清洗,归一化,转换,然后选择模型与算法做拟合和预测。 阅读全文
posted @ 2017-04-05 20:28 郑兴鹏 阅读(1141) 评论(0) 推荐(0) 编辑
摘要: 感知机可以说是最古老的分类方法之一了,在1957年就已经提出。今天看来它的分类模型在大多数时候泛化能力不强,但是它的原理却值得好好研究。因为研究透了感知机模型,学习支持向量机的话会降低不少难度。同时如果研究透了感知机模型,再学习神经网络,深度学习,也是一个很好的起点。这里对感知机的原理做一个小结。 阅读全文
posted @ 2017-04-05 20:28 郑兴鹏 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 最近参与了了一个日志和告警的数据挖掘项目,里面用到的一些思路在这里和大家做一个分享。 项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理,主要是归类(Grouping)和关联(Correlation),从而得到告警和日志的一些统计关系,这些统计结果可以给一线支持人员参考。 得到 阅读全文
posted @ 2017-04-05 20:28 郑兴鹏 阅读(544) 评论(0) 推荐(0) 编辑
摘要: K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用。比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类,也可以做回归,这点和决策树算法相同。 KNN做 阅读全文
posted @ 2017-04-05 20:27 郑兴鹏 阅读(8929) 评论(1) 推荐(0) 编辑
摘要: 之前对决策树的算法原理做了总结,包括决策树算法原理(上)和决策树算法原理(下)。今天就从实践的角度来介绍决策树算法,主要是讲解使用scikit-learn来跑决策树算法,结果的可视化以及一些参数调参的关键点。 1. scikit-learn决策树算法类库介绍 scikit-learn决策树算法类库内 阅读全文
posted @ 2017-04-05 20:27 郑兴鹏 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X)Y=f(X),要么是条件分布P(Y|X)P(Y|X)。但是朴素贝叶斯却是生 阅读全文
posted @ 2017-04-05 20:26 郑兴鹏 阅读(605) 评论(0) 推荐(0) 编辑
摘要: 之前通过一个系列对支持向量机(以下简称SVM)算法的原理做了一个总结,本文从实践的角度对scikit-learn SVM算法库的使用做一个小结。scikit-learn SVM算法库封装了libsvm 和 liblinear 的实现,仅仅重写了算法了接口部分。 1. scikit-learn SVM 阅读全文
posted @ 2017-04-05 20:25 郑兴鹏 阅读(1327) 评论(0) 推荐(1) 编辑
摘要: 最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量 阅读全文
posted @ 2017-04-05 20:25 郑兴鹏 阅读(1213) 评论(0) 推荐(0) 编辑
摘要: 最小二乘法是用来做函数拟合或者求函数极值的方法。在机器学习,尤其是回归模型中,经常可以看到最小二乘法的身影,这里就对我对最小二乘法的认知做一个小结。 1.最小二乘法的原理与要解决的问题 最小二乘法是由勒让德在19世纪发现的,原理的一般形式很简单,当然发现的过程是非常艰难的。形式如下式: 目标函数 = 阅读全文
posted @ 2017-04-05 20:24 郑兴鹏 阅读(881) 评论(0) 推荐(0) 编辑
摘要: 在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)与召回率(recall),RoC曲线与PR曲线这些概念,那这些概念到底有什么用处呢? 首先,我们需要搞清楚几个拗口的概念: 1. TP, FP, TN, FN 听起来还是很费劲,不过我们用一张图就很容易理解了。图如 阅读全文
posted @ 2017-04-05 20:23 郑兴鹏 阅读(2670) 评论(0) 推荐(0) 编辑
摘要: 交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓 阅读全文
posted @ 2017-04-05 20:23 郑兴鹏 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 目前机器学习可以说是百花齐放阶段,不过如果要学习或者研究机器学习,进而用到生产环境,对平台,开发语言,机器学习库的选择就要费一番脑筋了。这里就我自己的机器学习经验做一个建议,仅供参考。 首先,对于平台选择的第一个问题是,你是要用于生产环境,也就是具体的产品中,还是仅仅是做研究学习用? 1. 生产环境 阅读全文
posted @ 2017-04-05 20:20 郑兴鹏 阅读(178) 评论(0) 推荐(0) 编辑

友情链接:上海回力鞋专卖店 | 中老年高档女装 | 新航道 | 雅思培训一般多少钱 | 托福网课