随笔分类 - 特征工程与可视化
摘要:一、利用python衍生近几天的时间切片特征 源数据 stat_date id look gender 2020-9-1 1 1 1 2020-9-1 2 3 0 2020-9-2 1 1 1 2020-9-2 2 4 0 2020-9-3 3 5 0 2020-9-3 1 1 1 2020-9-3
阅读全文
摘要:1、利用groupby和聚合函数生成矩阵 #unstack表示不折叠,展开。只有这样才会是矩阵形式,T就是表示转置一下,不需要转置,可以不加Tdf.groupby(['label','max_stage'])['party_id'].count().unstack().T df.groupby(['
阅读全文
摘要:利用kdeplot可以查看两个变量之间的关系,比如查看x变量与目标变量y之间的关系,举例如下: 利用kdeplot探索某大学学生消费习惯于助学金获得关系,数据集如下所示: 通过分布可以发现,蓝色图像分布靠右,红色分布靠左,x轴表示消费金额,得出得到助学金的同学日常消费较未得到的同学更低,印证了助学金
阅读全文
摘要:单元分布 sns.distplot() 直方图(hist)+内核密度函数(kde) 在seaborn中最简便查看单元分布的函数是distplot().该函数默认绘制直方图并拟合内核密度估计。通过调整参数可以分别绘制直方图,拟合内核密度图,地毯图等。 x = np.random.normal(size
阅读全文
摘要:apply:作用在dataframe的一行或一列上 applymap: 作用在dataframe的每一个元素上 关于apply传入多个参数:
阅读全文
摘要:https://blog.csdn.net/u012535605/article/details/80677791http://pyecharts.org/#/zh-cn/prepare (中文官网)https://baijiahao.baidu.com/s?id=16060258245180700
阅读全文
摘要:1.DataFrame中某一列的值衍生为新的特征 2.分组统计,选出同一USRID下该变量中出现次数最多的值项 3.衍生出某天是否发生的ont-hot新特征 4.查看用户一共停留在APP上多少秒,共有几天看了APP
阅读全文
摘要:异常点往往是由于某一个特征或者多个特征数值异常。但是对于多维度特征无法直接进行可视化观测异常点,利用PCA技术进行维度缩减,可以在二维或者三维空间上进行可视化展示。 原数据如下: 找出异常点的索引号 总结: 从原数据我们直观看数据,就发现第4和第5行数据属于异常,通过画图找出来的异常点与初步判断一致
阅读全文
摘要:1.查看数据的类型概况 cols = [c for c in train.columns] #返回数据的列名到列表里 print('Number of features: {}'.format(len(cols))) print('Feature types:')train[cols].dtypes
阅读全文
摘要:一、什么是特征工程? "Feature engineering is the process of transforming raw data into features that better represent the underlying problem to the predictive m
阅读全文
摘要:一、快速绘图 label : 给所绘制的曲线一个名字,此名字在图示(legend)中显示。只要在字符串前后添加"$"符号,matplotlib就会使用其内嵌的latex引擎绘制的数学公式。 color : 指定曲线的颜色 linewidth : 指定曲线的宽度 label : 给所绘制的曲线一个名字
阅读全文
摘要:详细介绍可以看seaborn官方API和example galler。 常用颜色: 常用样式: 1 set_style( ) set( ) set_style( )是用来设置主题的,Seaborn有五个预设好的主题: darkgrid , whitegrid , dark , white ,和 ti
阅读全文
摘要:切片选择 #显示第一行数据print(df.head(1)) #显示倒数三行数据 print(df.tail(3)) loc df.loc[row_index,col_index] 注意loc是根据行和列的索引进行选择的,行索引就是index,列索引就是列名。 loc举例: df.loc[0,'ag
阅读全文