python可视化
Published on 2021-10-10 22:58 in 分类: Python with dutrmp19
分类: Python

python可视化

python可视化

变量分布

hist是直方图的缩写,bins表示有多少个直方图。

df['col'].hist(bins=50, figsize=(12,5),grid=False)
sns.distplot(train['col'])

seaborn会自动拟合一条曲线。

双变量联系

画房屋面积和价格之间的x-y图

sns.jointplot(x='area_house', y='price', data=train, alpha=0.3, size=4)

或是直接查看Pearson系数:

columns = train.columns.values.tolist()
train.corr()['price'][columns].sort_values(ascending=False).plot(
kind='barh', figsize=(12,6)
)

解析一下,columns是列的名称,train.corr()返回一个DataFrame,里面全是corr,
选出其中的一个Series: train.corr()['price'][columns],排序以后,再画图。

离散变量和连续变量之间的关系

离散值对连续取值的影响程度。

比如构造二值,判断这个构造合不合理,就是看这个二值有没有区分度。

from scipy.stats import pointbiserialr
plt.figure(figsize=(15,6)) # 设置sns要画的大小
sns.boxplot(y='repaired', x = 'price', data=train, orient='h') #

会自动根据分的类计算不同类的箱线图。

至于箱线图是啥:
https://zhuanlan.zhihu.com/p/144339417

如果您有任何关于文章的建议,欢迎评论或在 GitHub 提 PR

作者:dutrmp19
本文为作者原创,转载请在 文章开头 注明出处:https://www.cnblogs.com/dutrmp19/p/15391338.html
遵循 CC 4.0 BY-SA 版权协议


posted @   dutrmp19  阅读(118)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
点击右上角即可分享
微信分享提示