Python应用实例（二）数据可视化（四）

数据可视化（四）下载数据

1.CSV文件格式

从网上下载数据，并对其进行可视化。网上的数据多得令人难以置信，大多未经仔细检查。如果能够对这些数据进行分析，就能发现别人没有发现的规律和关联。

访问并可视化的数据以两种常见格式存储：CSV和JSON。我们将使用Python模块csv来处理以CSV格式存储的天气数据，找出两个地区在一段时间内的最高温度和最低温度。然后，使用Matplotlib根据下载的数据创建一个图表，展示两个不同地区的温度变化：阿拉斯加州锡特卡和加利福尼亚州死亡谷。然后，使用模块json访问以JSON格式存储的地震数据，并使用Plotly绘制一幅散点图，展示这些地震的位置和震级。

1.CSV文件格式

要在文本文件中存储数据，一个简单方式是将数据作为一系列以逗号分隔的值（comma-separated values）写入文件。这样的文件称为CSV文件。例如，下面是一行CSV格式的天气数据：

"USW00025333","SITKA AIRPORT, AK US","2018-01-01","0.45",,"48","38"

这是阿拉斯加州锡特卡2018年1月1日的天气数据，其中包含当天的最高温度和最低温度，还有众多其他的数据。CSV文件对人来说阅读起来比较麻烦，但程序可轻松提取并处理其中的值，有助于加快数据分析过程。

我们将首先处理少量CSV格式的北京天气数据，将文件beijing_weather_07-2018_simple.csv复制到存储本章程序的文件夹中。

1.1 分析CSV文件头‘

csv模块包含在Python标准库中，可用于分析CSV文件中的数据行，让我们能够快速提取感兴趣的值。先来查看这个文件的第一行，其中的一系列文件头指出了后续各行包含的是什么样的信息：sitka_highs.py

  import csv

  filename = 'data/sitka_weather_07-2018_simple.csv'
❶ with open(filename) as f:
❷     reader = csv.reader(f)
❸     header_row = next(reader)
      print(header_row)

导入模块csv后，将要使用的文件的名称赋给filename。接下来，打开这个文件，并将返回的文件对象赋给f（见❶）。然后，调用csv.reader()并将前面存储的文件对象作为实参传递给它，从而创建一个与该文件相关联的阅读器对象（见❷）。这个阅读器对象被赋给了reader。

模块csv包含函数next()，调用它并传入阅读器对象时，它将返回文件中的下一行。在上述代码中，只调用了next()一次，因此得到的是文件的第一行，其中包含文件头（见❸）。将返回的数据存储到header_row中。如你所见，header_row包含与天气相关的文件头，指出了每行都包含哪些数据：

['STATION', 'NAME', 'DATE', 'PRCP', 'TAVG', 'TMAX', 'TMIN']

reader处理文件中以逗号分隔的第一行数据，并将每项数据都作为一个元素存储在列表中。文件头STATION表示记录数据的气象站的编码。这个文件头的位置表明，每行的第一个值都是气象站编码。文件头NAME指出每行的第二个值都是记录数据的气象站的名称。其他文件头则指出记录了哪些信息。当前，我们最关心的是日期（DATE）、最高温度（TMAX）和最低温度（TMIN）。这是一个简单的数据集，只包含降水量以及与温度相关的数据。你自己下载天气数据时，可选择涵盖众多测量值，如风速、风向以及详细的降水量数据。

1.2 打印文件头及其位置

为了让文件头数据更容易理解，将列表中的每个文件头及其位置打印出来：sitka_highs.py

  --snip--
  with open(filename) as f:
      reader = csv.reader(f)
      header_row = next(reader)

❶     for index, column_header in enumerate(header_row):
          print(index, column_header)

在循环中，对列表调用了enumerate()（见❶）来获取每个元素的索引及其值。（请注意，我们删除了代码行print(header_row)，转而显示这个更详细的版本。）输出如下，指出了每个文件头的索引：

0 STATION
1 NAME
2 DATE
3 PRCP
4 TAVG
5 TMAX
6 TMIN

1.3 提取并读取数据

知道需要哪些列中的数据后，我们来读取一些数据。首先，读取每天的最高温度：sitka_highs.py

  --snip--
  with open(filename) as f:
      reader = csv.reader(f)
      header_row = next(reader)

      # 从文件中获取最高温度。
❶     highs = []
❷     for row in reader:
❸         high = int(row[5])
          highs.append(high)

  print(highs)

创建一个名为highs的空列表（见❶），再遍历文件中余下的各行（见❷）。阅读器对象从其停留的地方继续往下读取CSV文件，每次都自动返回当前所处位置的下一行。由于已经读取了文件头行，这个循环将从第二行开始——从这行开始包含的是实际数据。每次执行循环时，都将索引5处（TMAX列）的数据附加到highs末尾（见❸）。在文件中，这项数据是以字符串格式存储的，因此在附加到highs末尾前，使用函数int()将其转换为数值格式，以便使用。

highs现在存储的数据如下：

[62, 58, 70, 70, 67, 59, 58, 62, 66, 59, 56, 63, 65, 58, 56, 59, 64, 60, 60,
 61, 65, 65, 63, 59, 64, 65, 68, 66, 64, 67, 65]

提取每天的最高温度并将其存储到列表中之后，就可以可视化这些数据了。

1.4 绘制温度图表

为可视化这些温度数据，首先使用Matplotlib创建一个显示每日最高温度的简单图形，如下所示：sitka_highs.py

  import csv

  import matplotlib.pyplot as plt

  filename = 'data/sitka_weather_07-2018_simple.csv'
  with open(filename) as f:
      --_snip_—

  # 根据最高温度绘制图形。
  plt.style.use('seaborn')
  fig, ax = plt.subplots()
❶ ax.plot(highs, c='red')

  # 设置图形的格式。
❷ ax.set_title("2018年7月每日最高温度", fontsize=24)
❸ ax.set_xlabel('', fontsize=16)
  ax.set_ylabel("温度 (F)", fontsize=16)
  ax.tick_params(axis='both', which='major', labelsize=16)

  plt.show()

将最高温度列表传给plot()（见❶），并传递c='red’以便将数据点绘制为红色。（这里使用红色显示最高温度，用蓝色显示最低温度。）接下来，设置了一些其他的格式，如名称和字号（见❷），这些都在第15章介绍过。鉴于还没有添加日期，因此没有给[插图]轴添加标签，但ax.set_xlabel()确实修改了字号，让默认标签更容易看清❸。图显示了绘制的图表：一个简单的折线图，显示了阿拉斯加州锡特卡2018年7月的每日最高温度。

在这里插入图片描述

1.5 在图表中添加日期

现在，可以通过提取日期和最高温度并将其传递给plot()，对温度图形进行改进，如下所示：sitka_highs.py

  import csv
  from datetime import datetime

  import matplotlib.pyplot as plt

  filename = 'data/sitka_weather_07-2018_simple.csv'
  with open(filename) as f:
      reader = csv.reader(f)
      header_row = next(reader)

      # 从文件中获取日期和最高温度。
❶     dates, highs = [], []
      for row in reader:
❷         current_date = datetime.strptime(row[2], '%Y-%m-%d')
          high = int(row[5])
          dates.append(current_date)
          highs.append(high)

  # 根据最高温度绘制图形。
  plt.style.use('seaborn')
  fig, ax = plt.subplots()
❸ ax.plot(dates, highs, c='red')

  # 设置图形的格式。
  ax.set_title("2018年7月每日最高温度", fontsize=24)
  ax.set_xlabel('', fontsize=16)
❹ fig.autofmt_xdate()
  ax.set_ylabel("温度 (F)", fontsize=16)
  ax.tick_params(axis='both', which='major', labelsize=16)

  plt.show()

我们创建了两个空列表，用于存储从文件中提取的日期和最高温度（见❶）。然后，将包含日期信息的数据（row[2]）转换为datetime对象（见❷），并将其附加到列表dates末尾。在❸处，将日期和最高温度值传递给plot()。在❹处，调用fig.autofmt_xdate()来绘制倾斜的日期标签，以免其彼此重叠。图显示了改进后的图表。