摘要: 1 DataFrame 统一修改列名大小写 列名统一修改成小写 df.columns=df.columns.str.lower() 列名统一修改成大写 df.columns =df.columns.str.upper() 阅读全文
posted @ 2020-03-08 10:36 机器快点学习 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 目录 1 Filter 1.1 移除低方差特征(Removing features with low variance) 1.2 单变量特征选择 (Univariate feature selection) 1.2.1 卡方检验 (Chi2) 1.2.2 Pearson 相关系数 (Pearson 阅读全文
posted @ 2020-03-08 09:50 机器快点学习 阅读(1886) 评论(0) 推荐(0) 编辑
摘要: from sklearn.preprocessing import OrdinalEncoder model_oe = OrdinalEncoder() string_data_array = model_oe.fit_transform(string_data) string_data_pd = 阅读全文
posted @ 2020-03-08 08:41 机器快点学习 阅读(4273) 评论(1) 推荐(0) 编辑
摘要: 孤立森林 Isolation Forest(sklearn.ensemble.IsolationForest):一种适用于 连续数据 的 无监督 异常检测方法。与随机森林类似,都是高效的集成算法,相较于LOF,K-means等传统算法,该算法鲁棒性高且对数据集的分布无假设。 Isolation Fo 阅读全文
posted @ 2020-03-03 22:04 机器快点学习 阅读(9121) 评论(0) 推荐(1) 编辑
摘要: 逻辑回归: 是一种广义的线性回归分析模型 逻辑回归针对的目标变量是类别型的,参数估值上,采用最大似然法。 分类问题可以转换成概率的都是逻辑回归的常见场景,如: 会不会逾期(风控) 会不会是流失客户(会员运营) 会不会点击(CTR预估、推荐系统、搜索) 优点:模型简单、可解释性强 缺点:不能做特征交叉 阅读全文
posted @ 2020-03-03 20:25 机器快点学习 阅读(1128) 评论(0) 推荐(0) 编辑
摘要: merge 的使用 pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_ 阅读全文
posted @ 2020-03-02 20:51 机器快点学习 阅读(30377) 评论(0) 推荐(1) 编辑
摘要: 一 概述 回归分析模型:销售额 =93765+0.3* 百度+0.15 * 社交媒体+0.05 *电话直销+0.02 * 短信 线性回归 研究自变量 x 对因变量 y 影响的一种数据分析方法 可以表示为Y=ax+b+ε,其中Y为因变量,x为自变量,a为影响系数,b为截距,ε为随机误差。 常见应用场景 阅读全文
posted @ 2020-02-29 16:32 机器快点学习 阅读(12038) 评论(0) 推荐(0) 编辑
摘要: 一 概述 聚类分析目的 将大量数据集中具有“相似”特征的数据点或样本划分为一个类别 常见应用场景 在没有做先验经验的背景下做的探索性分析 样本量较大情况下的数据预处理工作 将数值类的特征分成几个类别 聚类分析能解决的问题包括 数据集可以分为几类 每个类别有多少样本量 不同类别中各个变量的强弱关系如何 阅读全文
posted @ 2020-02-29 15:39 机器快点学习 阅读(6245) 评论(2) 推荐(1) 编辑
摘要: 参照 http://www.pianshen.com/article/975848769/ 多谢作者哈哈 阅读全文
posted @ 2020-02-28 21:28 机器快点学习 阅读(2991) 评论(0) 推荐(0) 编辑
摘要: groupby[根据哪一列][ 对于那一列].进行计算 代码演示: direction:房子朝向 view_num:看房人数 floor:楼层 计算: A 看房人数最多的朝向 df.groupby(['direction'])['view_num'].sum() B 每个朝向的房子的数量 df.gr 阅读全文
posted @ 2020-02-28 16:12 机器快点学习 阅读(27121) 评论(0) 推荐(2) 编辑