python可视化
python可视化
变量分布
hist是直方图的缩写,bins表示有多少个直方图。
df['col'].hist(bins=50, figsize=(12,5),grid=False)
sns.distplot(train['col'])
seaborn会自动拟合一条曲线。
双变量联系
画房屋面积和价格之间的x-y图
sns.jointplot(x='area_house', y='price', data=train, alpha=0.3, size=4)
或是直接查看Pearson系数:
columns = train.columns.values.tolist() train.corr()['price'][columns].sort_values(ascending=False).plot( kind='barh', figsize=(12,6) )
解析一下,columns是列的名称,train.corr()返回一个DataFrame,里面全是corr,
选出其中的一个Series: train.corr()['price'][columns]
,排序以后,再画图。
离散变量和连续变量之间的关系
离散值对连续取值的影响程度。
比如构造二值,判断这个构造合不合理,就是看这个二值有没有区分度。
from scipy.stats import pointbiserialr plt.figure(figsize=(15,6)) # 设置sns要画的大小 sns.boxplot(y='repaired', x = 'price', data=train, orient='h') #
会自动根据分的类计算不同类的箱线图。
至于箱线图是啥:
https://zhuanlan.zhihu.com/p/144339417
如果您有任何关于文章的建议,欢迎评论或在 GitHub 提 PR
作者:dutrmp19
本文为作者原创,转载请在 文章开头 注明出处:https://www.cnblogs.com/dutrmp19/p/15391338.html
遵循 CC 4.0 BY-SA 版权协议
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本