摘要: 参数值: [ 3.92908866 2.7990655 -0.02259148 14.02249997]均方误差: 2.78412631453 阅读全文
posted @ 2018-03-26 17:47 杰哥哥是谁 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 针对用户群体的特征做分群分析,也有点类似RFM模型一样,不过可选的指标比只选择RFM三个指标更多,这里用的数据是航空公司用户的数据,数据指标包括 下面上代码: 空值最多的几个列如下: 最后几类用户几个指标的分布如下,可以有针对性的做营销 阅读全文
posted @ 2018-03-22 15:21 杰哥哥是谁 阅读(1089) 评论(0) 推荐(0) 编辑
摘要: 一、距离的度量 几种常见的距离度量方式要了解,其中闵可夫斯基距离当p=2时候就是欧式距离,等于1时就是街区距离 二、K-means 步骤: 1、随机选择K个类别中心 2、计算每个样本与中心的距离,标记为距离最小的那个类 3、计算每个簇的平均值作为新的中心,然后重新重复第二步,直到两次样本中心的变化小 阅读全文
posted @ 2018-03-20 18:02 杰哥哥是谁 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 这个博主写的很好:http://blog.csdn.net/on2way/article/details/47729419 一、学习步骤: 1、线性可分支持向量机:就是最基本的原始模式 2、线性支持向量机:在可分基础上加入了一个惩罚因子ξ 3、非线性支持向量机:在线性基础上再引入核函数 所以最重要的 阅读全文
posted @ 2018-03-20 15:45 杰哥哥是谁 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 集成学习实践部分也分成三块来讲解: sklearn官方文档:http://scikit-learn.org/stable/modules/ensemble.html#ensemble 1、GBDT GradientBoostingClassifier:http://scikit-learn.org/ 阅读全文
posted @ 2018-03-17 09:39 杰哥哥是谁 阅读(1976) 评论(0) 推荐(0) 编辑
摘要: 集成学习中还有一个重要的类别是Boosting,这个是基学习器具有较强依赖串行而成的算法,目前主流的主要有三个算法:GBDT,Adaboost,XGBoost 这个链接可以看看:https://www.cnblogs.com/willnote/p/6801496.html 不同点: 1、adaboo 阅读全文
posted @ 2018-03-16 17:39 杰哥哥是谁 阅读(737) 评论(0) 推荐(0) 编辑
摘要: 对于集成学习,由于是多个基学习期共同作用结果,因此在做参数调节时候就有基学习器的参数和集成学习的参数两类 在scikit-learn中,RF的分类类是RandomForestClassifier,回归类是RandomForestRegressor 官方文档:http://scikit-learn.o 阅读全文
posted @ 2018-03-16 15:56 杰哥哥是谁 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 集成学习分成Bagging和Boosting两大类,这里也分成两篇来总结,两个类别的区别如下: 主要根据集成的基学习期生成方式来分的,一个是强依赖关系,串行而成,代表是Boosting。另一种是不存在强依赖关系同时生成,代表是Bagging和随机森林(Random Forest) 一、Bagging 阅读全文
posted @ 2018-03-16 15:16 杰哥哥是谁 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 官方文档:http://scikit-learn.org/stable/modules/tree.html scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归。分类决策树的类对应的是DecisionTreeClassifier,而回归决策树的类对 阅读全文
posted @ 2018-03-14 16:07 杰哥哥是谁 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 一、决策树 1、基本流程 有三种情况会让递归停止:1、当前节点包含的样本属于同一类别,无需划分。2、属性集为空,所有样本在所有属性上取值都一致,返回的是这个节点样本最多的类别。3、当前节点样本为空,这时候返回父节点的样本最多的类别 2、划分选择 1)熵: 2)信息增益:,信息增益最大的就是最优的选择 阅读全文
posted @ 2018-03-13 17:06 杰哥哥是谁 阅读(264) 评论(0) 推荐(0) 编辑