快速数据分析工具:pandas-profiling,超好用!

小编最近发现一个好用的工具, pandas-profiling,对于做数据分析的朋友们来说,这可是个好工具,它可以以网页的形式展现给你数据总体概况

 在pandas中 df.describe() 是比较基础的探索性数据分析函数,而pandas_profiling则是在DataFrame的基础上扩展,用于快速数据分析。

对于DataFrame中的每一列,和类别有关的指标都会以交互式的网页展现出来

  • Essentials: type, unique values, missing values
  • (概要:类型,唯一值,缺失值)
  • Quantile statistics like minimum value, Q1, median, Q3, maximum, range, interquartile range
  • (分位数统计:像最小值,Q1,中位数,Q3, ,最大值,值域,四分位距)
  • Descriptive statistics like mean, mode, standard deviation, sum, median absolute deviation, coefficient of variation, kurtosis, skewness
  • (描述性统计:像均值,众数,标准差,和,绝对中位差,变异系数,峰值,偏度系数)
  • Most frequent values
  • (最频繁出现的值)
  • Histogram
  • (直方图/柱状图)
  • Correlations highlighting of highly correlated variables, Spearman, Pearson and Kendall matrices
  • (相关性,突出强相关的变量,Spearman, Pearson 和Kendall模型)
  • Missing values matrix, count, heatmap and dendrogram of missing values
  • (缺失值矩阵,计数,热图和缺失值的树状图)

 

首先,下载 pandas-profiling

pip install pandas-profiling
conda install -c anaconda pandas-profiling

也可以从github中下载

pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

接着,导入及应用

分析器(profiling)接收的数据类型为DataFrame

import pandas as pd
import pandas_profiling
data = pd.read_excel("")
profile = pandas_profiling.ProfileReport(data,title = "",pool_size = 3,minify_html = True)
profile.to_file(output_file="") 输出为html文件
profile.to_html() 输出为html源码

分析器的设置有:titile,线程池的个数(cpu),html是否要最小化,还有其他设置,可以参考:官方文档

生成报告文件之后,打开报告文件,你就可以看到关于这四个部分的内容

  综述:包括数据量,数据类型,很贴心的还有warning,提醒你变量中零值占比和变量相关性

  变量:将每个变量的去重后计数,缺失个数,缺失占比,均值,最大最小值,零值占比,右边还有个柱状图显示数据分布,点击右下角的展示细节,会有更加详细的分位数统计和描述性统计,极值前5展示,柱状图,

     有意思的是,强相关的变量,会只展示其中一个变量。你会看到那一栏会灰色,它告诉你,这个变量和XX变量强相关

  

  相关性:是以一个热图来展示,发现这里不太兼容中文

       

       缺失值:是以两个柱状图来展现

       

  样本:展现出前后10行的的样本

  

 

  小编觉得pandas-profiling还挺好用的,源码还是python写的,简单易懂,想修改点功能还能自己改源码。快去试试吧,看过点个赞或推荐哦。

  

 

posted @ 2019-07-08 15:14  彩色条纹小斑马  阅读(6498)  评论(0编辑  收藏  举报