python项目2--【数据可视化】之生成数据

python项目2--【数据可视化】之生成数据

python项目2--【数据可视化】之生成数据

数据可视化指的是通过可视化表示来探索数据。它与数据分析紧密相关，而数据分析指的是使用代码来探索数据集的规律和关联。数据集可以是用一行代码就能表示的小型数字列表，也可以是数千兆字节的数据。

漂亮地呈现数据并非仅仅关乎漂亮的图片。通过以引人注目的简单方式呈现数据，能让观看者明白其含义：发现数据集中原本位置的规律和意义。

所幸即便没有超级计算机，你也能够可视化复杂的数据。鉴于Python的高效性，使用它在笔记本电脑上就能快速地探索由数百万个数据点组成的数据集。数据点并非必须是数。利用之前介绍的基本知识，也可对非数值数据进行分析。

在基因研究、天气研究、政治经济分析等众多领域，人们常常使用Python来完成数据密集型工作。数据科学家使用Python编写了一系列优秀的可视化和分析工具，其中很多可供你使用。最流行的工具之一是Matplotlib，它是一个数学绘图库，我们将使用它来制作简单的图表，如折线图和散点图。然后，我们将基于随机漫步概念生成一个更有趣的数据集——根据一系列随机决策生成的图表。

本篇还将使用Plotly包，它生成的图表非常适合在数字设备上显示。Plotly生成的图表可根据显示设备的尺寸自动调整大小，还具备众多交互特性，如在用户将鼠标指向图表的不同部分时突出数据集的特定方面。本篇将使用Plotly来分析掷骰子的结果。

一、安装Matplotlib

本篇将首先使用Matplotlib来生成几个图表，为此需要使用pip来安装它。pip是一个可用于下载并安装Python包的模块。请在终端提示符下执行如下命令：

python -m pip install --user matplotlib

这个命令让Python运行模块pip，并将matplotlib包添加到当前用户的Python安装中，在你的系统中，如果运行程序或启动终端会话时使用的命令不是Python，而是python3，应使用下面的命令：

python3 -m pip install --user matplotlib

若提示网络不可达，无法下载安装可修改pip源或指定pip源进行下载，下面为指定源下载命令：

python3 -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple  --trusted-host pypi.tuna.tsinghua.edu.cn --user matplotlib

注意：在macOS系统中，如果这样不管用，请尝试在不指定标志--user的情况下再次执行该命令。

要查看使用Matplotlib可制作的各种图标，请访问其官方网站，浏览实例画廊。通过单击画廊中的图标，可查看生成它们的代码。

二、绘制简单的折线图

下面使用Matplotlib绘制一个简单的折线图，再对其进行定制，以实现信息更丰富的数据可视化效果。我们将使用平方数序列1、4、9、16和25来绘制这个图表。

只需提供如下的数，Matplotlib将完成其他工作：

首先导入模块pyplot，并为其指定别名plt，以免反复输入pyplot。模块pyplot包含很多用于生成图表的函数。

我们创建了一个名为squares的列表，在其中存储要用来制作图表的数据。然后，采取了另一种常见的Matplotlib做法——调用函数subplot()。这个函数可在一张图片中绘制一个或多个图表。变量fig表示整张图片。变量ax表示图中的各个图表，大多数情况下要使用它。

接下来调用方法plot()，它尝试根据给定的数据以有意义的方式绘制图表。函数plt.show()打开Matplotlib查看器并显示绘制的图表，如下图所示。在查看器中，你可缩放和导航图形，还可单击磁盘图标将图表保存起来。

1. 修改标签文字和线条粗细

如上图所示的图形表明数是越来越大的，但标签文字太小、线条太细，难以看清楚。所幸Matplotlib让你能够调整可视化的各个方面。

下面通过一些定制来改善这个图表的可读性，如下所示：

参数linewidth决定了plot()绘制的线条粗细。方法set_title()给图表指定标题。在上述代码中，出现多次的参数fontsize指定图表中各种文字的大小。

方法set_xlabel()和set_ylabel()让你能够为每条轴设置标题。方法tick_params()设置刻度的样式，其中指定的实参将影响x轴和y轴上的刻度(axes='both')，并将刻度标记的字号设置为14(labelsize=14)。

最终的图表阅读起来容易得多，如下图所示：标签文字更大，线条也更粗了。通常，需要尝试不同的值，才能确定什么样的设置生成的图表最合适。

2. 中文标签显示报错

报错Glyph 24179 (\N{CJK UNIFIED IDEOGRAPH-5E73}) missing from current font. func(*args)，由于设置了汉字标签，导致无法正常显示，可按以下方式解决：

(8条消息) Glyph 26426 missing from current font.解决matplotlib画图中文字体乱码问题_数据分析师之家的博客-CSDN博客

2.1 网络上下载字体simhei.ttf，放到matplotlib的字体库/root/.local/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/ttf/中

wget https://raw.githubusercontent.com/zhangsheng377/stats_stock/master/simhei.ttf

import matplotlib

# 查找字体路径
print(matplotlib.matplotlib_fname())
# 查找字体缓存路径
print(matplotlib.get_cachedir())

2.2 修改matplotlibrc文件（print(matplotlib.matplotlib_fname())方法所输入文件）

/root/.local/lib/python3.7/site-packages/matplotlib/mpl-data/matplotlibrc

去掉font.family前面的“#”，让该配置生效
去掉font.sans-serif前面的“#”，让该配置生效，并且加入SimHei字体

2.3 删除字体缓存文件（print(matplotlib.get_cachedir())方法所输入文件）

/root/.cache/matplotlib

2.4 指定使用字体

在plt.show()方法之前，添加下面代码：

3. 校正图形

图形更容易看清后，我们发现没有正确地绘制数据：折线图的终点指出4.0的平方为25！下面来修复这个问题。

向plot()提供一系列数时，它假设第一个数据点对应的x坐标值为0，但这里第一个点对应的x值为1。为改变这种默认行为，可向plot()同时提供输入值和输出值：

现在plot()将正确地绘制数据，因为同时提供了输入值和输出值，plot()无需对输出值的生成方式做出假设。最终的图形是正确的，如下图所示：

使用plot()时可指定各种实参，还可使用众多函数对图形进行定制。本篇后面处理更有趣的数据集时，将继续探索这些定制函数。

4. 使用内置样式

Matplotlib提供了了很多已经定义好的样式，它们使用的背景色、网格线、线条粗细、字体、字号等设置都很不错，让你无需做太多定制就可生成引人瞩目的可视化效果。要获悉在你的系统中可使用哪些样式，可在生成图表的代码前添加如下代码行：

这些代码生成的图表如下所示。可供使用的内置样式有很多，请尝试使用他们，找出你喜欢的。

5. 使用scatter()绘制散点图并设置样式

有时候，绘制散点图并设置各个数据点的样式很有用。例如，你可能想以一种颜色显示较小的值，用另一种颜色显示较大的值。绘制大型数据集时，还可对每个店都设置同样的样式，再使用不同的样式选项重新绘制默写点以示突出。

要绘制单个点，可使用方法scatter()。向它传递一对x坐标和y坐标，它将在指定位置绘制一个点：

下面来设置图表的样式，使其更有趣。我们将添加标题，给坐标轴加上标签，并且确保所有文本都大到能够看清：

首先，调用scatter()并使用参数s设置绘制图形时使用的点的尺寸。如果此时运行scatter_squares.py，将在图表中央看到一个点，如下图所示：

6. 使用scatter()绘制一系列点

要绘制一系列的店，可向scatter()传递两个分别包含x值和y值的列表，如下所示：

列表x_values包含要计算平方值的数，列表y_values包含前述数的平方值。将这些列表传递给scatter()时，Matplotlib依次从每个列表中读取一个值来绘制一个点。要绘制的点的坐标分别为(1,1) 、(2,4)、(3,9)、(4,16)和(5,25)，最终的结果如下图所示：

7. 自动计算数据

手工计算列表要包含的值可能效率低下，需要绘制的点很多时尤其如此。我们不必手工计算包含点坐标的列表，可以用Python循环来完成。

下面是绘制1000个点的代码：

首先创建了一个包含x值的列表，其中包含数1~1000。接下来是一个生成y值的列表解析，它遍历x值for x in x_values，计算其平方值(x**2)，并将结果存储到列表y_values中。然后，将输入列表和输出列表传递给scatter()。这个数据集较大，因此将点设置得较小。

然后，使用方法axis()指定了每个坐标轴的取值范围。方法axis()要求提供4个值：x和y坐标轴的最小值和最大值。这里将x坐标轴的取值范围设置为0~1100，并将y坐标轴的取值范围设置为0~1100000。结果如下图所示：

8. 自定义颜色

要修改数据点的颜色，可向scatter()传递参数c，并将其设置为要使用的颜色的名称（放在引号内），如下所示

ax.scatter(x_values, y_values, c='red', s=10)

还可以使用RGB颜色模式自定义颜色。要指定自定义颜色，可传递参数c，并将其设置为一个元祖，其中包含三个0~1的小数值，分别表示红色、绿色和蓝色的分量。例如，下面的代码行创建一个由淡绿色点组成的散点图：

ax.scatter(x_values, y_values, c=(0, 0.8, 0), s=10)

值越接近0，指定的颜色越深；值约接近1，指定的颜色越浅。

9. 使用颜色映射

颜色映射（colormap）是一系列颜色，从其实颜色渐变到结束颜色。在可视化中，颜色映射用于突出数据的规律。例如，你可能用较浅的颜色来学显示较小的值，并用较深的颜色来显示较大的值。

模块pyplot内置了一组颜色映射，需要告诉pyplot该如何设置数据集中每个点的颜色。下面演示了如何根据每个点的y值来设置其颜色：

我们将参数c设置成了一个y值列表，并使用参数cmap告诉pyplot使用哪个颜色映射。这些代码将y值较小的点显示为浅蓝色，并将y值较大的点显示为深蓝色，结果如下图所示：

注意：要了解pyplot中所有的颜色映射，请访问Matplotlib网站主页，单击Examples，向下滚动到Color，再单击Colormaps reference。

10. 自动保存图表

要让程序自动将图表保存到文件中，可将调用plt.show()替换为调用plt.savefig():

plt.savefig('squares_plot.png', bbox_inches='tight')

第一个实参指定要以什么文件名保存列表，这个文件将存储到scatter_squares.py所在的目录。第二个实参指定将图表多余的空白区域裁剪掉。如果要保留图表周围多余的空白区域，只需省略这个实参即可。

三、随机漫步

不接将使用Python来生成随机漫步数据，再使用Matplotlib以引人瞩目的方式将这些数据呈现出来。随机漫步是这样行走得到的路径：每次行走都是完全随机的、没有明确的方向，结果是由一系列随机决策决定的，你可以将随机漫步看做蚂蚁在晕头转向的情况下，每次斗眼随机的方向前行所经过的路径。

在自然界、物理学、生物学、化学和经济领域，随机漫步都有其实际用途。例如，漂浮在水滴上的花粉因不断受到水分子的挤压而在水面上移动。水滴中的分子运动是随机的，因此花粉在水滴上的运动路径犹如随机漫步，我们稍后编写的代码将模拟现实世界的很多情形。

1. 创建RandomWalk类

为模拟随机漫步，将创建一个名为RomdomWalk的类，它随机地选择前进方向。这个类需要三个属性：一个是存储随机漫步次数的变量，其他两个是列表，分别存储随机漫步经过的每个点的X坐标和y坐标。

RomdomWalk类只包含两个方法：方法__init__()和fill_walk()，后者计算随机漫步经过的所有点。先来看看__init__()，如下所示：

为做出随机决策，将所有可能的选择都存储在一个列表中，并在每次决策时都是用模块random中的choice来决定是用哪种选择。接下来，将随机漫步包含的默认点数设置为5000。这个数达到足以生成有趣的模式，又小到可确保能够快速地模拟随机漫步。然后，创建两个用于存储x值和y值的列表，并让每次漫步都从点(0, 0)出发。

2. 选择方向

我们将使用方法fill_walk()来生成漫步包含的店并决定每次漫步的方向，如下所示。请将这个方法添加到random_walk.py中：

首先，建议一个循环，它不断运行，直到漫步包含所需的点数。方法fill_walk()的主要部分告诉Python如何模拟四种漫步决定：向右走还是向左走？沿指定的方向走多远？向上走还是向下走？沿选定的方向走多远？

使用choice([1, -1])给x_direction选择一个值，结果要么是表示向右走的1，要么是表示向左走的-1。接下来，choice([0, 1, 2, 3, 4])随机地选择一个0~4的整数，告诉Python沿指定的方向走多远(x_distance)。通过包含0，不仅能够同时沿两个轴移动，还能够只沿一个轴移动。

然后，将移动方向乘以移动举例，确定沿x轴和y轴移动的距离。如果x_step为正常向右移动，为负数将向左移动，为零将垂直移动；如果y_step为正将向上移动，为负数将向下移动，为零将水平移动。如果x_step和y_step都为零，则意味着原地踏步。我们拒绝这样的情况，接着执行下一次循环。

为获取漫步中下一个点的x值，将x_step与x_values中的最后一个值相加，对y值也做相同的处理。获得下一个点的x值和y值后，将它们分别附加到列表x_values和y_values的末尾。

3. 绘制随机漫步图

下面的代码将随机漫步的所有点都绘制出来：

首先导入模块pyplot和RandomWalk类，再创建一个RandomWalk实例并将其存储到rw中，并且调用fill_walk()。然后，将随机漫步包含x值和y值传递给scatter()，并选择合适的点尺寸。下图显示了包含5000个点的随机漫步图。

4. 模拟多次随机漫步

每次随机漫步都不同，因此探索可能生成的各种模式很有趣。要在不多次运行程序的情况下使用前面的代码模拟多次随机漫步，一种方法是将这些代码放在一个while循环中，如下所示：

这些代码模拟一次随机漫步，在Matplotlib查看器中显示结果，再不关闭查看器的情况下暂停。如果关闭查看器，程序将询问是否要再模拟一次随机漫步。如果输入y，可模拟在起点附近进行的随机漫步、大多沿特定方向偏离起点的随机漫步、漫步点分布不均匀的随机漫步，等等。要结束程序，请输入n。

5. 设置随机漫步图的样式

本节将定制图表，以突出每次漫步的重要特征，并让分散注意力的元素不那么显眼。为此，我们确定要突出的元素，如漫步的起点、重点和经过的路径。接下来确定要使其不那么显眼的元素，如刻度标记和标签。最终的结果是简单的可视化表示，清楚地指出了每次漫步经过的路径。

5.1 给点着色

我们将使用颜色映射来指出漫步中各点的先后顺序，并删除每个点的黑色轮廓，让其颜色更为明显。为根据漫步中各点的先后顺序来着色，传递参数c，并将其设置为一个列表，其中包含各点的先后顺序。这些点是按顺序绘制的，因此给参数c指定的列表只需包含数0~4999，如下图所示：

首先，使用range()生成了一个数字列表，其中包含的数与漫步包含的点数量相同。接下来，将这个列表存储在point_numbers中，以便后面使用它来设置每个漫步点的颜色。将参数c设置为point_numbers，指定使用颜色映射Blues，并传递实参degecolors='none'以删除每个店周围的轮廓。最终的随机漫步图从浅蓝色渐变成深蓝色，如下图所示：

5.2 重新绘制起点和重点

除了给随机漫步的各个着色点，以指出其先后顺序外，如果还能呈现随机漫步的起点和终点就好了。为此，可在绘制随机漫步图后重新绘制起点和终点。这里让起点和终点更大并显示为不同的颜色，以示突出，如下所示：

为突出起点，使用绿色绘制点(0, 0)，并使其比其他点大(s=100)。为突出终点，在漫步包含的最后一个x值和y值处绘制一个点，将其颜色设置为红色，并将尺寸设置为100。务必将这些代码放在调用plt.show()的代码前面，确保在其他点指点绘制起点和终点。

如果现在运行这些代码，将能准确地知道每次随机漫步的起点和终点，如下图所示。（如果起点和终点不明显，请调整颜色和大小，直到明显为止。）

5.3 隐藏坐标轴

下面来隐藏这个图表的坐标轴，以免分散观察者对随机漫步路径的注意力。要隐藏坐标轴，可使用如下代码：

为修改坐标轴，使用方法ax.get_xaxis()和ax.get_yaxis()将每条坐标轴的可见性都设置为False，随着对数据可视化的不断学习和时间，你会经常看到这种串接方法的方式。

如果现在运行rw_visual.py，你将看到一系列图形，但看不到坐标轴，如下图所示。

5.4 增加点数

下面来增加点数，以提供更多数据。为此，在创建RandomWalk实例时增大num_points的值，并在绘图时调整每个点的大小，如下所示：

这个实例模拟了一次包含50000个点的随机漫步（以模拟现实情况），并将每个点的大小都设置为1。最终的随机漫步图更稀疏，犹如云朵，如下图所示。如你所见，我们使用简单的散点图制作出了一件艺术品！

请尝试修改上述代码，看看将漫步包含的点数增加到多少后，程序的运行速度变得极其缓慢或绘制出的图形变得很难看。

5.5 调整尺寸以适合屏幕

图表适合屏幕大小时，更能有效地将数据中的规律呈现出来。为让绘图窗口更适合屏幕大小，可以像下面这样调整Matplotlib输出的尺寸：

创建图表时，可传递参数figsize以指定生成的图形的尺寸。需要给参数figsize指定一个元组，向Matplotlib指出绘图窗口的尺寸，单位为英寸。

Matplotlib假定屏幕分辨率为100像素/英寸。如果上述代码指定的图表尺寸不合适，可根据需要调整数字。如果知道当前系统的分辨率，可通过参数dpi向plt.subplots()传递该分辨率，以有效利用可用的屏幕空间，如下所示：

fig, ax - plt.subplots(figsize=(10, 6), dpi=128)

四、使用Plotly模拟掷骰子

本节将使用Python包Plotly来生成交互式图表。需要创建在浏览器中显示的图表时，Plotly很有用，因为它生成的图表将自动缩放以适合观看者的屏幕。Plotly生成的图表还是交互式的：用户将鼠标指向特定元素时，将突出显示有关该元素的信息。

在这个项目中，我们将对掷骰子的结果进行分析。抛掷一个6面的常规骰子时，可能出现的结果为1~6点，且出现每种结果的可能性相同。然而，如果同时掷两个骰子，某些点数出现的可能性将比其他点数大。为确定哪些点数出现的可能性最大，将生成一个表示掷骰子结果的数据集，并根据结果绘制一个图形。

在数学领域，掷骰子常备被用来解释各种数据分析类型，而它在赌场和其他博弈场景中也有实际应用，在游戏《大富翁》以及众多角色扮演游戏中亦如此。

1. 安装Plotly

要安装Plotly，可像前面安装Matplotlib那样使用pip：

python -m pip install plotly

在前面安装Matplotlib时，如果使用了python3之类的命令，这里也要使用同样的命令。

要了解使用Plotly可创建什么样的图表，请在其官方网站查看图表类型画廊。每个示例都包含源代码，让你知道这些图表是如何生成的。

2. 创建Die类

为模拟掷一个骰子的情况，我们创建下面的类：

方法__init__()接受一个可选参数。创建这个类的实例时，如果没有指定任何实参，面数默认为6；如果指定了实参，这个值将用于设置骰子的面数。骰子是根据面数命名的，6面的骰子名为D6，8面的骰子名为D8，以此类推。

方法roll()使用函数randint()来返回1和面数之间的随机数。这个函数可能返回起始值1、终止值num_sides或这两个值之间的任何整数。

3. 掷骰子

使用这个类来创建图表前，先来掷D6，将结果打印出来，并确认结果是合理的。

首先，创建一个Die实例，其面数为默认值6。然后，掷骰子100次，并将每次的结果都存储在列表results中。下面是一个示例结果集：

通过快速浏览这些结果可知，Die类似乎没有问题。我们见到了值1和6，表明返回了最大和最小的可能值；没有见到0或7，表明结果都在正确的范围内；还看到了1~6的所有数字，表明所有可能的结果都出现了。下面来确定各个点数都出现了多少次。

4. 分析结果

为分析掷一个D6的结果，计算每个点数出现的次数：

由于将使用Plotly来分析，而不是将结果打印出来，因此可将模拟掷骰子的次数增加到1000。为分析结果，我们创建空列表frequencies，用于存储每种点数出现的次数。然后，遍历可能的点数（这里为1~6），计算每种点数在results中出现了所少次，并将这个值附加到列表frequencies的末尾。接下来，在可视化之前将这个列表打印出来：

结果看起来是合理的：有6个值，对应掷D6时可能出现的每个点数；另外，没有任何点数出现的频率比其他点数高很多。下面来可视化这些结果。

5. 绘制直方图

有了频率列表，就可以绘制一个表示结果的直方图了。直方图是一种条形图，指出了各种结果出现的频率。创建这种直方图的代码如下：

为创建直方图，需要为每个可能出现的点数生成一个条形。我们将可能出现的点数（1到骰子的面数）存储在一个名为x_values的列表中。Plotly不能直接接受函数range()的结果，因此需要使用函数list()将其转换为列表。Plotly类Bar()表示用于绘制条形图的数据集，需要一个存储x值的列表和一个存储y值的列表。这个类必须放在方括号内，因为数据集可能包含多个元素。

每个坐标轴都能以不同的方式进行配置，而每个配置选项都是一个字典元素。这里只设置了坐标轴标签。类Layout()返回一个指定图标布局和配置的对象。这里设置了图表名称，并传入了x轴和y轴的配置字典。

为生成图表，我们调用了函数offline.plot()。这个函数需要一个包含数据和布局对象的字典，还接受一个文件名，指定要将图表保存到哪里。这里将输出存储到文件d6.html。

运行程序die_visual.py时，可能打开浏览器并显示文件d6.html。如果没有自动显示d6.html，可在任意Web浏览器中新建一个标签页，再在其中打开文件d6.html（它位于die_visual.py所在的文件夹中）。你将看到一个类似于下图所示的图表。

注意：Plotly让这个图表具有交互性：如果将鼠标指向其中的任意条形，就能看到与之相关联的数据。在同一个图表中绘制多个数据集时，这项功能特别有用。另外，注意到右上角有一些图标，让你能够平移和缩放图表以及将其保存为图像。

6. 同时掷两个骰子

同时掷两个骰子时，得到的点数更多，结果分布情况也不同。下面来修改前面的代码，创建两个D6以模拟同时掷两个骰子的情况。每次掷两个骰子时，都将两个骰子的点数相加，并将结果存储在results中。请复制die_visual.py并将其保存为dice_visual.py，再做如下修改：

创建两个Die实例后，掷骰子多次，并计算每次的总点数。可能出现的最大点数为两个骰子的最大可能点数之和(12)，这个值存储在max_result中。可能出现的最小点总数为两个骰子的最小可能点数之和(2)。分析结果时，计算2到max_result的各种点数出现的次数。（我们原本可以使用range(2, 13)，但这只适用于两个D6。模拟现实世界的情形时，最好编写可轻松模拟各种情形的代码。前面的代码让我们能够模拟掷任意两个骰子的情形，不管这些骰子有多少面。）

创建图表时，在字典x_axis_config中使用dtick键。这项设置指定了x轴显示的刻度间距。这里绘制的直方图包含的条形更多，Plotly默认只显示某些刻度，而设置dtick: 1让Plotly显示每个刻度值。另外，我们还修改了图表名称及输出文件名。

运行这些代码后，你将看到如下所示的图表。

这个图表显示了掷两个D6时得到的大致结果。如你所见，总点数为2或12的可能性最小，而总点数为7的可能性最大。这是因为在下面6中情况下得到的总点数都为7：1和6、2和5、3和4、4和3、5和2以及6和1。

7. 同时掷两个面数不同的骰子

下面来创建一个6面骰子和一个10面骰子，看看同时掷这两个骰子50000次的结果如何：

为创建D10，我们在创建第二个Die实例时传递了实参10；修改了第一个循环，以模拟掷骰子50000次而不是1000次；还修改了图表名称和输出文件名。

下图显示了最终的图表。可能性最大的点数不止一个，而是有5个。只是因为导致出现最小点数和最大点数的组合都只有（1和1以及6和10），但面数较小的骰子限制了得到中间点数的组合数：得到总点数7、8、9、10和11的组合数都是6种。因此，这些总点数是最常见的结果，他们出现的可能性大致相同。

通过使用Plotly模拟掷骰子的结果，我们能够非常自由地探索这种现象。只需几分钟，就可模拟掷各种骰子很多次。

五、小结

在本章中，学习了：如何生成数据集以及如何对其进行可视化；如何使用Matplotlib创建简单的图表，以及如何使用散点图来探索随机漫步过程；如何使用Plotly来创建直方图，以及如何使用直方图来探索同时掷两个面数不同的骰子的结果。

使用代码生成数据集是一种有趣而强大的方式，可用于模拟和探索现实世界的各种情形。完成后面的数据可视化项目时，请注意可使用代码模拟哪些情形。请研究新闻媒体中的可视化，看看其中是否有图表是以你在这些项目中学到的类似方式生成的。

在后面，我们将从网上下载数据，并继续使用Matplotlib和Plotly来探索这些数据。

posted @ 2022-11-15 17:42 丨君丶陌阅读(810) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

丨君丶陌

君子不行陌路，管它咫尺还是天涯。

python项目2--【数据可视化】之生成数据

python项目2--【数据可视化】之生成数据

一、安装Matplotlib

二、绘制简单的折线图

1. 修改标签文字和线条粗细

2. 中文标签显示报错

2.1 网络上下载字体simhei.ttf，放到matplotlib的字体库/root/.local/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/ttf/中

2.2 修改matplotlibrc文件（print(matplotlib.matplotlib_fname())方法所输入文件）

2.3 删除字体缓存文件（print(matplotlib.get_cachedir())方法所输入文件）

2.4 指定使用字体

3. 校正图形

4. 使用内置样式

5. 使用scatter()绘制散点图并设置样式

6. 使用scatter()绘制一系列点

7. 自动计算数据

8. 自定义颜色

9. 使用颜色映射

10. 自动保存图表

三、随机漫步

1. 创建RandomWalk类

2. 选择方向

3. 绘制随机漫步图

4. 模拟多次随机漫步

5. 设置随机漫步图的样式

5.1 给点着色

5.2 重新绘制起点和重点

5.3 隐藏坐标轴

5.4 增加点数

5.5 调整尺寸以适合屏幕

四、使用Plotly模拟掷骰子

1. 安装Plotly

2. 创建Die类

3. 掷骰子

4. 分析结果

5. 绘制直方图

6. 同时掷两个骰子

7. 同时掷两个面数不同的骰子

五、小结