随笔分类 - Matplotlib/Seaborn
1
摘要:分布 散点图:最大的作用是查看两个或多个变量的分布情况,可以查看数据之间的相关性(正相关,负相关),和拟合的回归线一起可以做残差分析 另一个常用的场景就是利用数据的分布,迅速找到规律和切分点(看是否有分簇) 变种:气泡图/四象限图 直方图:用来表示连续型数据分布情况 箱线图:用来显示数据的离散情况,
阅读全文
摘要:画词云首先需要安装wordcloud(生成词云)和jieba(中文分词)。 先来说说wordcloud的安装吧,真是一波三折。首先用pip install wordcloud出现错误,说需要安装Visual C++ 14.0。折腾半天安装好Visual C++后,还是不行,按网上指点,下载第三方包安
阅读全文
摘要:有时我们不仅需要查看单个变量的分布,同时也需要查看变量之间的联系,这时就需要用到联合分布图。 这里利用Jake Vanderplas所著的《Python数据科学手册》一书中的数据,学习画图。 数据地址:http://raw.githubusercontent.com/jakevdp/marathon
阅读全文
摘要:在机器学习中,经常要用scikit-learn里面的线性回归模型来对数据进行拟合,进而找到数据的规律,从而达到预测的目的。用图像展示数据及其拟合线可以非常直观地看出拟合线与数据的匹配程度,同时也可用于后续的解释和阐述工作。 这里利用Nathan Yau所著的《鲜活的数据:数据可视化指南》一书中的数据
阅读全文
摘要:mplot3d是matplotlib里用于绘制3D图形的一个模块。关于mplot3d 绘图模块的介绍请见:https://blog.csdn.net/dahunihao/article/details/77833877。 莫比乌斯环(mobius strip)是一种只有一个曲面的拓扑结构。把一个纸条
阅读全文
摘要:误差线用于显示数据的不确定程度,误差一般使用标准差(Standard Deviation)或标准误差(Standard Error)。 标准差(SD):是方差的算术平方根。如果是总体标准差,那么用σ表示,如果是样本标准差,那么用s表示。标准差反映数据集的离散程度,标准差越小,就说明数据越集中在其平均
阅读全文
摘要:颜色(Colors): 基础颜色: 此外,matplotlib也支持HTML颜色,可参考:http://www.runoob.com/html/html-colorvalues.html。 (注:可直接上网搜索 ”HTML color names“) 也可用命令将其调出: 下面是官网列出的一些命名的
阅读全文
摘要:这里利用Nathan Yau所著的《鲜活的数据:数据可视化指南》一书中的数据,学习画图。 数据地址:http://datasets.flowingdata.com/us-postage.csv 准备工作:先导入matplotlib和pandas,用pandas读取csv文件,然后创建一个图像和一个坐
阅读全文
摘要:箱线图通过数据的四分位数来展示数据的分布情况。例如:数据的中心位置,数据间的离散程度,是否有异常值等。 把数据从小到大进行排列并等分成四份,第一分位数(Q1),第二分位数(Q2)和第三分位数(Q3)分别为数据的第25%,50%和75%的数字。 I I o I I o I I o I I Q1 Q2
阅读全文
摘要:矩阵图非常有用,人们经常用它来查看多个变量之间的联系。 下面用著名的鸢尾花数据来画一个矩阵图。从sklearn导入鸢尾花数据,然后将其转换成pandas的DataFrame类型,最后用seaborn画图。(seaborn包里也有这个数据,也可以直接从seaborn包导入此数据) 矩阵图: sns.p
阅读全文
摘要:这里利用Nathan Yau所著的《鲜活的数据:数据可视化指南》一书中的数据,学习画图。 数据地址:http://book.flowingdata.com/ch05/data/us-population-by-age.xls 准备工作:先导入matplotlib和pandas,用pandas读取ex
阅读全文
摘要:雷达图常用于对多项指标的全面分析。例如:HR想要比较两个应聘者的综合素质,用雷达图分别画出来,就可以进行直观的比较。 用Matplotlib画雷达图需要使用极坐标体系,可点击此链接,查看对极坐标体系的介绍:https://www.cnblogs.com/kallan/p/6738577.html。
阅读全文
摘要:这里利用Nathan Yau所著的《鲜活的数据:数据可视化指南》一书中的数据,学习画图。 数据地址:http://datasets.flowingdata.com/ppg2008.csv 首先查看一下数据文件的前5行: 这是NBA球员的比赛统计数据,比如说AST:(assists) 助攻次数,STL
阅读全文
摘要:Matplotlib有两种接口,一种是matlab风格接口,一种是面向对象接口。在这里,统一使用面向对象接口。因为面向对象接口可以适应更复杂的场景,在多图之间进行切换将变得非常容易。 首先导入matplotlib:from matplotlib import pyplot as plt。plt是最常
阅读全文
摘要:我在网上随便找了一组数据,用它来学习画图。大家可以直接把下面的数据复制到excel里,然后用pandas的read_excel命令读取。或者直接在脚本里创建该数据。 饼图: ax.pie(x,labels=...,explode=...) 代码如下: 图像如下: 需要注意的是:所有类别的百分比相加应
阅读全文
摘要:直方图用于展示数据的分布情况,x轴是一个连续变量,y轴是该变量在一定区间内的频次。 下面利用Nathan Yau所著的《鲜活的数据:数据可视化指南》一书中的数据,学习画图。 数据地址:http://datasets.flowingdata.com/crimeRatesByState2005.csv
阅读全文
摘要:由于直方图受组距(bin size)影响很大,设置不同的组距可能会产生完全不同的可视化结果。因此我们可以用密度平滑估计来更好地反映数据的真实特征。具体可参见这篇文章:https://blog.csdn.net/unixtch/article/details/78556499。 还是用我们自己创建的一
阅读全文
摘要:这里利用Jake Vanderplas所著的《Python数据科学手册》一书中的数据,学习画图。 数据地址:https://raw.githubusercontent.com/jakevdp/data-CDCbirths/master/births.csv 准备工作:先导入matplotlib和pa
阅读全文
摘要:Matplotlib里有两种画散点图的方法,一种是用ax.plot画,一种是用ax.scatter画。 一. 用ax.plot画 ax.plot(x,y,marker="o",color="black") 二. 用ax.scatter画 ax.scatter(x,y,marker="o",s=siz
阅读全文
摘要:这里利用Nathan Yau所著的《鲜活的数据:数据可视化指南》一书中的数据,学习画图。 数据地址:http://datasets.flowingdata.com/hot-dog-contest-winners.csv (用于普通柱形图) http://datasets.flowingdata.co
阅读全文
1