杰哥哥是谁

2018年3月26日

摘要：参数值： [ 3.92908866 2.7990655 -0.02259148 14.02249997]均方误差： 2.78412631453 阅读全文

posted @ 2018-03-26 17:47 杰哥哥是谁阅读(347) 评论(0) 推荐(0) 编辑

2018年3月22日

摘要：针对用户群体的特征做分群分析，也有点类似RFM模型一样，不过可选的指标比只选择RFM三个指标更多，这里用的数据是航空公司用户的数据，数据指标包括下面上代码：空值最多的几个列如下：最后几类用户几个指标的分布如下，可以有针对性的做营销阅读全文

posted @ 2018-03-22 15:21 杰哥哥是谁阅读(1100) 评论(0) 推荐(0) 编辑

2018年3月20日

聚类

摘要：一、距离的度量几种常见的距离度量方式要了解，其中闵可夫斯基距离当p=2时候就是欧式距离，等于1时就是街区距离二、K-means 步骤： 1、随机选择K个类别中心 2、计算每个样本与中心的距离，标记为距离最小的那个类 3、计算每个簇的平均值作为新的中心，然后重新重复第二步，直到两次样本中心的变化小阅读全文

posted @ 2018-03-20 18:02 杰哥哥是谁阅读(217) 评论(0) 推荐(0) 编辑

SVM理论

摘要：这个博主写的很好：http://blog.csdn.net/on2way/article/details/47729419 一、学习步骤： 1、线性可分支持向量机：就是最基本的原始模式 2、线性支持向量机：在可分基础上加入了一个惩罚因子ξ 3、非线性支持向量机：在线性基础上再引入核函数所以最重要的阅读全文

posted @ 2018-03-20 15:45 杰哥哥是谁阅读(161) 评论(0) 推荐(0) 编辑

2018年3月17日

集成学习实战——Boosting（GBDT，Adaboost，XGBoost）

摘要：集成学习实践部分也分成三块来讲解： sklearn官方文档：http://scikit-learn.org/stable/modules/ensemble.html#ensemble 1、GBDT GradientBoostingClassifier：http://scikit-learn.org/ 阅读全文

posted @ 2018-03-17 09:39 杰哥哥是谁阅读(1993) 评论(0) 推荐(0) 编辑

2018年3月16日

集成学习——Boosting（GBDT，Adaboost，XGBoost）

摘要：集成学习中还有一个重要的类别是Boosting，这个是基学习器具有较强依赖串行而成的算法，目前主流的主要有三个算法：GBDT，Adaboost，XGBoost 这个链接可以看看：https://www.cnblogs.com/willnote/p/6801496.html 不同点： 1、adaboo 阅读全文

posted @ 2018-03-16 17:39 杰哥哥是谁阅读(775) 评论(0) 推荐(0) 编辑

集成学习（Random Forest）——实践

摘要：对于集成学习，由于是多个基学习期共同作用结果，因此在做参数调节时候就有基学习器的参数和集成学习的参数两类在scikit-learn中，RF的分类类是RandomForestClassifier，回归类是RandomForestRegressor 官方文档：http://scikit-learn.o 阅读全文

posted @ 2018-03-16 15:56 杰哥哥是谁阅读(276) 评论(0) 推荐(0) 编辑

集成学习——Bagging

摘要：集成学习分成Bagging和Boosting两大类，这里也分成两篇来总结，两个类别的区别如下：主要根据集成的基学习期生成方式来分的，一个是强依赖关系，串行而成，代表是Boosting。另一种是不存在强依赖关系同时生成，代表是Bagging和随机森林（Random Forest）一、Bagging 阅读全文

posted @ 2018-03-16 15:16 杰哥哥是谁阅读(331) 评论(0) 推荐(0) 编辑

2018年3月14日

决策树实践

摘要：官方文档：http://scikit-learn.org/stable/modules/tree.html scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法，既可以做分类，又可以做回归。分类决策树的类对应的是DecisionTreeClassifier，而回归决策树的类对阅读全文

posted @ 2018-03-14 16:07 杰哥哥是谁阅读(176) 评论(0) 推荐(0) 编辑

2018年3月13日

决策树

摘要：一、决策树 1、基本流程有三种情况会让递归停止：1、当前节点包含的样本属于同一类别，无需划分。2、属性集为空，所有样本在所有属性上取值都一致，返回的是这个节点样本最多的类别。3、当前节点样本为空，这时候返回父节点的样本最多的类别 2、划分选择 1）熵： 2）信息增益：，信息增益最大的就是最优的选择阅读全文

posted @ 2018-03-13 17:06 杰哥哥是谁阅读(272) 评论(0) 推荐(0) 编辑

公告