python学习05之数据可视化

　　1、加载和检查数据

　　　　经过前几次的学习，现在简单的代码就不注释了

　　　　　　加载数据：

insurance_filepath = "E:\data_handle/insurance.csv"
insurance_data = pd.read_csv(insurance_filepath)

　　　　　　检查数据：

#打印数据的前五行
print(insurance_data.head())

　　　2、散点图

　　　　　散点图的创建只需要一行代码就可以解决：

sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'])

　　　　　　代码解析：

　　　　　　　　　　我们使用sns.scatterplot()创建一个简单的散点图，首先我们要确认X轴的列名和Y轴的列名，比如这里的

　　　　　　　　　　　x=insurance_data['bmi'], y=insurance_data['charges'　　]
　　　　　　　　　　　　　　
　　　　　　　　这时候我们发现散点图似乎呈现出一种正相关的关系，于是乎我们需要给它添加一条回归线，我们使用命令sns.regpolt()

sns.regplot(x=insurance_data['bmi'], y=insurance_data['charges'])

　　3、颜色编码的散点图
　　　　　　我们可以使用散点图来显示三个变量之间的关系!一种方法是用颜色编码这些点。

　　　　　　例如，为了了解吸烟是如何影响BMI和保险成本之间的关系，我们可以用“吸烟者”来对这些点进行颜色编码，并在坐标轴上标出另外两列(BMI, charge)

sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'], hue=insurance_data['smoker'])

　　　　　为了进一步强调这一事实，我们可以使用sns.lmplot添加两个回归线，分别对应于吸烟者和非吸烟者。

sns.lmplot(x="bmi", y="charges", hue="smoker", data=insurance_data)

　　　　　　　　代码分析：

　　　　　　　　　　大家有没有发现，这次我们所使用的确定列名与之前不同。

　　　　　　　　　　我们没有设置x=insurance_data['bmi']来选择insurance_data中的'bmi'列，而是设置x="bmi"来指定列的名称。

　　　　　　　　　　同样，y="charge "和hue=" smoking "也包含列的名称。

　　　　　　　　　　我们使用data=insurance_data指定数据集。

　　4、分类散点图

　　　　通常情况下，我们使用散点图来突出两个连续变量(如“bmi”和“charge”)之间的关系。

　　　　但是，我们可以调整散点图的设计，使其在一个主轴上显示一个分类变量(如“smoking”)。

　　　　我们将此图类型称为分类散点图，并使用sns.swarmplot来创建

sns.swarmplot(x=insurance_data['smoker'],y=insurance_data['charges'])

　　　　　　最后要告诉大家的是，图的输出语句为：

plt.show()

posted on 2019-07-12 21:18 喜欢世界的宇宙阅读(462) 评论(1) 编辑收藏举报

刷新页面返回顶部