郑兴鹏 - 博客园

2017年4月5日

摘要： scikit-learn对于线性回归提供了比较多的类库，这些类库都可以用来做线性回归分析，本文就对这些类库的使用做一个总结，重点讲述这些线性回归算法库的不同和各自的使用场景。线性回归的目的是要得到输出向量YY和输入特征XX之间的线性关系，求出线性回归系数θθ,也就是 Y=XθY=Xθ。其中YY的维阅读全文

posted @ 2017-04-05 20:30 郑兴鹏阅读(214) 评论(0) 推荐(0) 编辑

主成分分析（PCA）原理总结

摘要：主成分分析（Principal components analysis，以下简称PCA）是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA，下面我们就对PCA的原理做一个总结。 1. PCA的思想 PCA顾名思义，就是找出数据里最阅读全文

posted @ 2017-04-05 20:30 郑兴鹏阅读(277) 评论(0) 推荐(0) 编辑

逻辑回归原理小结

摘要：逻辑回归是一个分类算法，它可以处理二元分类以及多元分类。虽然它名字里面有“回归”两个字，却不是一个回归算法。那为什么有“回归”这个误导性的词呢？个人认为，虽然逻辑回归是分类模型，但是它的原理里面却残留着回归模型的影子，本文对逻辑回归原理做一个总结。 1. 从线性回归到逻辑回归我们知道，线性回归的模阅读全文

posted @ 2017-04-05 20:29 郑兴鹏阅读(274) 评论(0) 推荐(0) 编辑

机器学习算法的随机数据生成

摘要：在学习机器学习算法的过程中，我们经常需要数据来验证算法，调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能，我们可以自己生成适合某一种模型的数据，用随机数据来做清洗，归一化，转换，然后选择模型与算法做拟合和预测。阅读全文

posted @ 2017-04-05 20:28 郑兴鹏阅读(1141) 评论(0) 推荐(0) 编辑

感知机原理小结

摘要：感知机可以说是最古老的分类方法之一了，在1957年就已经提出。今天看来它的分类模型在大多数时候泛化能力不强，但是它的原理却值得好好研究。因为研究透了感知机模型，学习支持向量机的话会降低不少难度。同时如果研究透了感知机模型，再学习神经网络，深度学习，也是一个很好的起点。这里对感知机的原理做一个小结。阅读全文

posted @ 2017-04-05 20:28 郑兴鹏阅读(248) 评论(0) 推荐(0) 编辑

日志和告警数据挖掘经验谈

摘要：最近参与了了一个日志和告警的数据挖掘项目，里面用到的一些思路在这里和大家做一个分享。项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理，主要是归类(Grouping)和关联(Correlation)，从而得到告警和日志的一些统计关系，这些统计结果可以给一线支持人员参考。得到阅读全文

posted @ 2017-04-05 20:28 郑兴鹏阅读(541) 评论(0) 推荐(0) 编辑

K近邻法(KNN)原理小结

摘要： K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了，在我们平常的生活中也会不自主的应用。比如，我们判断一个人的人品，只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类，也可以做回归，这点和决策树算法相同。 KNN做阅读全文

posted @ 2017-04-05 20:27 郑兴鹏阅读(8928) 评论(1) 推荐(0) 编辑

scikit-learn决策树算法类库使用小结

摘要：之前对决策树的算法原理做了总结，包括决策树算法原理(上)和决策树算法原理(下)。今天就从实践的角度来介绍决策树算法，主要是讲解使用scikit-learn来跑决策树算法，结果的可视化以及一些参数调参的关键点。 1. scikit-learn决策树算法类库介绍 scikit-learn决策树算法类库内阅读全文

posted @ 2017-04-05 20:27 郑兴鹏阅读(178) 评论(0) 推荐(0) 编辑

朴素贝叶斯算法原理小结

摘要：在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数Y=f(X)Y=f(X),要么是条件分布P(Y|X)P(Y|X)。但是朴素贝叶斯却是生阅读全文

posted @ 2017-04-05 20:26 郑兴鹏阅读(605) 评论(0) 推荐(0) 编辑

最大熵模型原理小结

摘要：最大熵模型(maximum entropy model， MaxEnt)也是很典型的分类算法了，它和逻辑回归类似，都是属于对数线性分类模型。在损失函数优化的过程中，使用了和支持向量机类似的凸优化技术。而对熵的使用，让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型，对逻辑回归，支持向量阅读全文

posted @ 2017-04-05 20:25 郑兴鹏阅读(1213) 评论(0) 推荐(0) 编辑