【大数据分析】python数据分析seaborn

2023-01-17 17:12 码上起舞阅读(693) 评论(0) 编辑收藏举报

一、环境准备

1.seaborn数据集下载地址：https://github.com/mwaskom/seaborn-data

2.下载后解压放到C:\Users\014xxx\seaborn-data内，可以通过命令行sns.getdir来获取sns.utils.get_data_home()

二、数据导入

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_14-43-58.png

三、Relational plots(关系图)

数据分析中就是理解变量如何相互关联，当这些关系被正确可视化时，我们往往可以从中获取某种关系或模式。

Relational plots 主要讨论三个函数：

scatterplot(散点图)
lineplot(线图)
relplot(关系图)

3.1 scatterplot(散点图)

散点图是利用散点来描述两个变量的联合分布，scatterplot 适用于变量都是数字的情况。在后面的Categorical plots(分类图)中，我们将会看到使用散点图可视化分类数据的专门工具。

seaborn.scatterplot(x=None, y=None, hue=None, style=None, size=None, data=None, palette=None, hue_order=None, hue_norm=None, sizes=None, size_order=None, size_norm=None,
 markers=True, style_order=None, x_bins=None, y_bins=None, units=None, estimator=None, ci=95, n_boot=1000, alpha='auto', x_jitter=None, y_jitter=None, legend='brief', ax=None, **kwargs)

Seaborn函数中的参数特别多，但是其实大部分都是相同的，因此，我们可以很容易类推到其他函数的使用。下面简单介绍这些参数的含义。

x,y: 传入的特征名字或Python/Numpy数据，x表示横轴，y表示纵轴，一般为dataframe中的列。如果传入的是特征名字，那么需要传入data，如果传入的是Python/Numpy数据，那么data不需要传入。因为Seaborn一般是用来可视化Pandas数据的，如果我们想传入数据，那使用Matplotlib也可以。
hue: 分组变量，将产生不同颜色的点。可以是分类的，也可以是数字的。被视为类别。
data: 传入的数据集，可选。一般是dataframe
style: 分组变量，将产生不同标记点的变量分组。被视为类别。
size: 分组变量，将产生不同大小的点。可以是分类的，也可以是数字的。
palette: 调色板，后面单独介绍。
markers: 绘图的形状，后面单独介绍。
ci: 允许的误差范围（空值误差的百分比，0-100之间），可为‘sd’，则采用标准差（默认95）
n_boot(int): 计算置信区间要使用的迭代次数
alpha: 透明度
x_jitter, y_jitter: 设置点的抖动程度。

例1：

import matplotlib.pyplot as plt
tips=sns.load_dataset("tips")
sns.scatterplot(x="total_bill",y="tip",data=tips)
plt.show()

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_14-52-31.png

例2：

sns.scatterplot(x="total_bill",y="tip",hue="day",style="time",size="size",data=tips)
plt.show()

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_14-54-46.png

3.2 lineplot(线图)

seaborn.lineplot(x=None, y=None, hue=None, size=None, style=None, data=None, palette=None, hue_order=None, hue_norm=None, sizes=None, size_order=None, size_norm=None, dashes=True, markers=None, style_order=None, units=None, estimator='mean', ci=95, n_boot=1000, sort=True, err_style='band', err_kws=None, legend='brief', ax=None, **kwargs)

参数和散点图差不多

例1：

fmri = sns.load_dataset("fmri")
sns.lineplot(x="timepoint", y="signal", data=fmri)

#阴影是默认的置信区间，可设置ci将其去掉

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_14-59-34.png

例2：

ax = sns.lineplot(x="timepoint", y="signal", hue="event",style="event",markers=True,dashes=False,data=fmri)

#markers=True,表示使用不同的标记
#dashes=True，表示一条实线一条虚线

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_15-3-37.png

3.3 relplot(关系图)

seaborn.relplot(x=None, y=None, hue=None, size=None, style=None, data=None, row=None, col=None, col_wrap=None, row_order=None, col_order=None, palette=None, hue_order=None, hue_norm=None, sizes=None, size_order=None, size_norm=None, markers=None, dashes=None, style_order=None, legend='brief', kind='scatter', height=5, aspect=1, facet_kws=None, **kwargs)

相当于lineplot和scatterplot的归约，可以通过kind参数指定画什么图形，参数解释如下：

kind: 默认是’scatter’，也可以选择kind=‘line’
sizes: List、dict或tuple，可选，说白了就是图片大小，注意和size区分；
col、row: col指定列的分组变量，row指定行的分组变量，具体看下面例子

tips=sns.load_dataset("tips")
g=sns.relplot(x="total_bill",y="tip",data=tips)
#两者效果一模一眼
ax=sns.scatterplot(x="total_bill",y="tip",data=tips)

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_15-8-13.png

4. Categorical plots(分类图)

Categorical plots(分类图) 具体可以分为下main三种类型，11种图形：

Categorical scatterplots(分类散点图)
- stripplot(分布散点图)
- swarmplot(分布密度散点图)
Categorical distribution plots(分类分布图)
- boxplot(箱型图)
- violinplot(小提琴图)
- violinplot+stripplot(小提琴图+分布散点图)
- violinplot+swarmplot(小提琴图+分布密度散点图)
- boxplot+stripplot(箱线图+分布散点图)
Categorical estimate plots(分类估计图)
- barplot(条形图)
- countplot(计数图)
- piontplot(点图)
- catplot()

4.1.1 stripplot(分布散点图)

stripplot(分布散点图) 就是其中一个变量是分类变量的scatterplot(散点图)。stripplot（分布散点图）一般并不单独绘制，它常常与boxplot和violinplot联合起来绘制，作为这两种图的补充。

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_15-38-27.png

参数：

order：用order参数进行筛选分类类别，例如：order=[‘sun’,‘sat’]；
jitter：抖动项，表示抖动程度，可以是float，或者True。如果不抖动的话，那么散点就会呈现一条直线了，并不利于可视化
dodge：重叠区域是否分开，当使用hue时，将其设置为True，将沿着分类轴将不同色调级别的条带分开。
orient：“v” | “h”，vertical（垂直）和 horizontal（水平）的意思；

4.1.2 swarmplot(分布密度散点图)

这个函数类似于stripplot()，但是对点进行了调整(只沿着分类轴)，使每个点都不会重叠。这更好地表示了值的密度分布，但显然，不适用大量观测的可视化。

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_15-39-29.png

4.2.1 boxplot(箱型图)

boxplot(箱型图) 就是描述变量关于不同类别的分布情况。框显示数据集的四分位数，线显示分布的其余部分，它能显示出一组数据的最大值、最小值、中位数及上下四分位数，使用四分位数范围函数的方法可以确定“离群值”的点

参数：

saturation：饱和度，可设置为1；
width：float，控制箱型图的宽度大小；
fliersize：float，用于指示离群值观察的标记大小；
whis：可理解为异常值的上限IQR比例；

4.2.2 violinplot(小提琴图)

violinplot(小提琴图) 就是绘制箱线图和核密度估计的组合。通过箱线图，我们可以得到数据对于分类变量的分位数，通过核密度估计，我们可以知道哪些位置的密度大。

seaborn.violinplot(x=None, y=None, hue=None, data=None, order=None, 
hue_order=None, bw='scott', cut=2, scale='area', scale_hue=True, gridsize=100, 
width=0.8, inner='box', split=False, dodge=True, orient=None, linewidth=None, 
color=None, palette=None, saturation=0.75, ax=None, **kwargs)

参数：

bw：‘scott’, ‘silverman’, float，控制拟合程度。在计算内核带宽时，可以引用规则的名称（‘scott’, ‘silverman’）或者使用比例（float）。实际内核大小将通过将比例乘以每个bin内数据的标准差来确定；
cut：空值外壳的延伸超过极值点的密度，float；
scale：“area”, “count”, “width”，用来缩放每把小提琴的宽度的方法；
scale_hue：当使用hue分类后，设置为True时，此参数确定是否在主分组变量进行缩放；
gridsize：设置小提琴图的平滑度，越高越平滑；
inner：“box”, “quartile”, “point”, “stick”, None,小提琴内部数据点的表示。分别表示：箱子，四分位，点，数据线和不表示；
split：是否拆分，当设置为True时，绘制经hue分类的每个级别画出一半的小提琴；

4.3.1 barplot(条形图)

barplot(条形图) 用矩形条表示估计点和置信区间，使用误差线提供关于该估计值附近的不确定性的一些指示。

seaborn.barplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, 
estimator=<function mean>, ci=95, n_boot=1000, units=None, orient=None, 
color=None, palette=None, saturation=0.75, errcolor='.26', errwidth=None,
capsize=None, dodge=True, ax=None, **kwargs)

参数：

estimator：用于估计每个分类箱内的统计函数，默认为mean。当然你也可以设置estimator=np.median/np.std/np.var……
order：设置特征值的顺序，例如：order=[‘Sat’,‘Sun’]；
ci：允许的误差的范围（控制误差棒的百分比，在0-100之间）,若填写"sd",则用标准误差(默认为95)，也可设置ci=None；
capsize：设置误差棒帽条（上下两根横线）的宽度，float；
errcolor：表示置信区间的线条的颜色；
errwidth：float，设置误差条线(和帽)的厚度

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_15-54-12.png

4.3.2 countplot(计数图)

countplot(计数图) 用条形图显示每个分类的观察次数，实际就是一个分类直方图。因为是用来计数的，count是一个轴，然后特征是一个轴，因此不能同时输入x和y。

seaborn.countplot(x=None, y=None, hue=None, data=None, order=None, 
hue_order=None, orient=None, color=None, palette=None, saturation=0.75, 
dodge=True, ax=None, **kwargs)

4.3.4 catplot()

catplot() 说白了就是对前面几个分类估计图的归约，通过kind参数来选择具体的图形。

kind：默认strip（分布散点图），也可以选择“point”, “bar”, “count”,

5. Distribution plots(分布图)

5.1 histplot(直方图)

histplot(直方图) 绘制单变量或双变量直方图，以显示数据集的分布。该函数可以对每个bin内计算的统计量进行归一化估计频率、密度或概率质量，它可以添加一个平滑的曲线得到使用内核密度估计。

histplot(
    data=None, *, x=None, y=None, hue=None, weights=None, 
    stat="count", bins="auto", binwidth=None, binrange=None, 
    discrete=None, cumulative=False, common_bins=True, 
    common_norm=True, multiple="layer", element="bars", 
    fill=True, shrink=1, kde=False, kde_kws=None, line_kws=None, 
    thresh=0, pthresh=None, pmax=None, cbar=False, cbar_ax=None, cbar_kws=None, palette=None, hue_order=None, hue_norm=None, 
    color=None, log_scale=None, legend=True, ax=None, **kwargs,)

参数：

bins：int或list，控制直方图的划分，设置矩形图（就是块儿的多少）数量，除特殊要求一般默认；
kde：是否显示核密度估计曲线；
common_norm：若为True，则直方图高度显示频率而非计数

5.2 pairplot(变量关系组图)

pairplot(变量关系组图) 描述数据集中的成对关系。默认情况下，该函数将创建一个轴网格，对角线图 描述该变量的直方图分布，非对角线图描述两个变量之间的联合分布。

seaborn.pairplot(data, hue=None, hue_order=None, palette=None, vars=None, 
x_vars=None, y_vars=None, kind='scatter', diag_kind='auto', markers=None,
 height=2.5, aspect=1, dropna=True, plot_kws=None, diag_kws=None, 
 grid_kws=None, size=None)

vars：data中的子集，否则使用data中的每一列
x_vars / y_vars：可以具体细分，谁与谁比较；
kind：{‘scatter’, ‘reg’}；
diag_kind：{‘auto’, ‘hist’, ‘kde’}。对角线的图样。默认情况取决于是否使用“hue”。

6. Regression plots(回归图)

6.1 regplot(回归图)

regplot(回归图) 在绘制图时自动进行线性回归模型拟合。

seaborn.regplot(x, y, data=None, x_estimator=None, x_bins=None, x_ci='ci', 
scatter=True, fit_reg=True, ci=95, n_boot=1000, units=None, order=1, logistic=False, 
lowess=False, robust=False, logx=False, x_partial=None, y_partial=None, 
truncate=False, dropna=True, x_jitter=None, y_jitter=None, label=None, color=None, 
marker='o', scatter_kws=None, line_kws=None, ax=None)

order：多项式回归，控制进行回归的幂次，设定指数，可以用多项式拟合；
logistic：逻辑回归；
x_jitter，y_jitter：给x，y轴随机增加噪音点，设置这两个参数不影响最后的回归直线；

6.2 lmplot(网格+回归图)

lmplot(网格+回归图) 相当于regplot(回归图)和网格的组合。

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_17-2-51.png

7. 主题和颜色

7.1 主题(style)

seaborn设置风格的方法主要有三种：

set，通用设置接口
set_style，风格专用设置接口，设置后全局风格随之改变
axes_style，设置当前图（axes级）的风格，同时返回设置后的风格系列参数，支持with关键字用法

seaborn中主要有以下几个主题：

sns.set_style("whitegrid")  # 白色网格背景
sns.set_style("darkgrid")   # 灰色网格背景
sns.set_style("dark")       # 灰色背景
sns.set_style("white")      # 白色背景
sns.set_style("ticks")      # 四周加边框和刻度

7.2 环境(context)

设置环境的方法也有3种：

set，通用设置接口
set_context，环境设置专用接口，设置后全局绘图环境随之改变
plotting_context，设置当前图（axes级）的绘图环境，同时返回设置后的环境系列参数，支持with关键字用法

sns.plotting_context("notebook")  # 默认
sns.plotting_context("paper")
sns.plotting_context("talk")
sns.plotting_context("poster")

7.3 颜色(color_plette())

seaborn风格多变的另一大特色就是支持个性化的颜色配置。颜色配置的方法有多种，常用方法包括以下两个：

color_palette，基于RGB原理设置颜色的接口，可接收一个调色板对象作为参数，同时可以设置颜色数量
hls_palette，基于Hue(色相)、Luminance(亮度)、Saturation(饱和度)原理设置颜色的接口，除了颜色数量参数外，另外3个重要参数即是hls

同时，为了便于查看调色板样式，seaborn还提供了一个专门绘制颜色结果的方法palplot。

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_17-7-18.png

ITIM-DLXX-地理信息研发中心 > 06.python数据分析seaborn > image2023-1-17_17-7-43.png

会员力量，点亮园子希望

刷新页面返回顶部

岚珊轩

【大数据分析】python数据分析seaborn

一、环境准备

二、数据导入

三、Relational plots(关系图)

3.1 scatterplot(散点图)

3.2 lineplot(线图)

3.3 relplot(关系图)

4. Categorical plots(分类图)

4.1.1 stripplot(分布散点图)

4.1.2 swarmplot(分布密度散点图)

4.2.1 boxplot(箱型图)

4.2.2 violinplot(小提琴图)

4.3.1 barplot(条形图)

4.3.2 countplot(计数图)

4.3.4 catplot()

5. Distribution plots(分布图)

5.1 histplot(直方图)

5.2 pairplot(变量关系组图)

6. Regression plots(回归图)

6.1 regplot(回归图)

6.2 lmplot(网格+回归图)

7. 主题和颜色

7.1 主题(style)

7.2 环境(context)

7.3 颜色(color_plette())

About