摘要:
参照 http://www.pianshen.com/article/975848769/ 多谢作者哈哈 阅读全文
摘要:
groupby[根据哪一列][ 对于那一列].进行计算 代码演示: direction:房子朝向 view_num:看房人数 floor:楼层 计算: A 看房人数最多的朝向 df.groupby(['direction'])['view_num'].sum() B 每个朝向的房子的数量 df.gr 阅读全文
摘要:
说明:目前 只记录了 过采样 和 欠采样 的代码部分 1 样本分布不均衡描述: 主要出现在与分类相关的建模问题上,不均衡指的是不同类别的样本量差异非常大。 样本量差距过大会影响到建模结果 2 出现的场景: 异常检测:如恶意刷单、黄牛,这些数据样本所占的比例通常是整体样本中很少的一部分 客户流失:大型 阅读全文
摘要:
数据中包含日期、时间类型的数据可以通过 pandas 的 to_datetime 转换成 datetime 类型,方便提取各种时间信息 1 将 object 类型数据转成 datetime64 1> 导入数据 import pandas as pd car_sales = pd.read_csv(' 阅读全文
摘要:
【分类数据的处理】 问题: 在数据建模过程中,很多算法或算法实现包无法直接处理非数值型的变量,如 KMeans 算法基于距离的相似度计算,而字符串则无法直接计算距离 如: 性别中的男和女 [0,1] [1,0] 用户的价值度分为高、中、低 处理方法: 将字符串表示的 分类特征 转换成 数值 类型(哑 阅读全文