利用pandas分析交易数据

概要
实战过程
- 原始数据格式
- 涨跌幅分析
总结

概要

最近在用 pandas 库分析交易数据时，对数据的行列转换有了进一步的认识。

在做一些纵向的比较分析的时候，数据的行列转换应该是一个常规的操作，而 pandas 库提供的方法可以从整体上对数据进行操作，极大的减少代码的编写。

实战过程

通过分析虚拟币的实际交易数据，掌握 pandas 库的行列转换。虚拟币的交易数据通过火币网的官方 API 采集而来，定期采集的，对于交易量特别大的币，可能会有部分的遗漏。

虚拟币的交易数据量比较大，这里只选取了 1 周的数据。

原始数据格式

根据 API 采集来的数据格式主要包含如下字段，每一行是一次交易：

交易ID,交易数量,价格,交易时间戳,交易方向,币种
100003775833,4000.56,0.014146,1621148710076,sell,creusdt
......

目前火币上和 USDT 交易的币种大约 200 多种，这些币种一周的所有交易次数大致在 1~2 亿之间。
仅仅一周的数据其实也是很庞大的，需要根据实际分析内容进行一些预处理。

涨跌幅分析

对于交易数据数据，最常见的分析就是每天的涨跌幅。
涨跌幅的计算方法就是：

(当天收盘价 - 上一日收盘价) / 上一日收盘价 * 100%

结果为正就是涨，反之就是跌。

所以第一步就是收集每个币种每天的收盘价，这样每天就 200 多条数据，一周的数据也就 2000 不到。
这一步不是用 pandas 做的，暂时略过，整理后的数据格式如下：

交易日,币种,最高价,最低价,收盘价
2021-05-09,1inchusdt,7.704231,6.72144,7.049687
2021-05-09,aacusdt,0.015569,0.0137,0.014916
2021-05-09,aaveusdt,475.2571,440.6347,456.919
... ...

为了简化后面的分析，我将数据精简了，只保留 3 个币种的数据。（全部数据也是一样的分析）

分析步骤 01：去除多余的列

我们的目的是分析每个币种每天的涨跌幅，只需要收盘价信息，
所以，第一步，去除最高价和最低价的列。

首先，进入 Ipython，导入 pandas 库。

In [1]: import pandas as pd
In [2]: f_data = pd.read_csv("./data.csv")
In [3]: f_data
Out[3]:
           交易日         币种       最高价       最低价       收盘价
0   2021-05-09  1inchusdt  7.704231  6.721440  7.049687
1   2021-05-09    aacusdt  0.015569  0.013700  0.014916
2   2021-05-09    zrxusdt  1.985400  1.837000  1.949000
3   2021-05-10  1inchusdt  7.205859  6.488946  6.693635
4   2021-05-10    aacusdt  0.016108  0.014216  0.016097
5   2021-05-10    zrxusdt  2.020500  1.870900  1.936400
6   2021-05-11  1inchusdt  6.706469  5.588000  6.330097
7   2021-05-11    aacusdt  0.023999  0.014787  0.017725
8   2021-05-11    zrxusdt  1.938000  1.638800  1.835800
9   2021-05-12  1inchusdt  6.914203  6.247467  6.478842
10  2021-05-12    aacusdt  0.019471  0.015502  0.016901
11  2021-05-12    zrxusdt  2.037200  1.799600  1.882900
12  2021-05-13  1inchusdt  6.523776  5.266794  5.377795
13  2021-05-13    aacusdt  0.017724  0.013801  0.014344
14  2021-05-13    zrxusdt  1.941800  1.542800  1.625700
15  2021-05-14  1inchusdt  5.939128  5.291762  5.868618
16  2021-05-14    aacusdt  0.015567  0.013966  0.015385
17  2021-05-14    zrxusdt  1.760300  1.543100  1.744100
18  2021-05-15  1inchusdt  6.047498  5.499000  5.646441
19  2021-05-15    aacusdt  0.016356  0.014308  0.015849
20  2021-05-15    zrxusdt  1.767000  1.570000  1.631500
21  2021-05-16  1inchusdt  5.645512  5.193545  5.273476
22  2021-05-16    aacusdt  0.015847  0.014411  0.015002
23  2021-05-16    zrxusdt  1.700000  1.533400  1.616500
24  2021-05-17  1inchusdt  5.339175  4.441147  4.701934
25  2021-05-17    aacusdt  0.018000  0.014000  0.016289
26  2021-05-17    zrxusdt  1.638000  1.391900  1.468800
27  2021-05-18  1inchusdt  4.884853  4.528847  4.855229
28  2021-05-18    aacusdt  0.016356  0.015042  0.015705
29  2021-05-18    zrxusdt  1.524300  1.405600  1.506800

这里显示所有用来实验的数据。
去除最高价和最低价的列只要一行代码：

In [4]: f_data = f_data[["交易日", "币种", "收盘价"]]

In [5]: f_data
Out[5]:
           交易日         币种       收盘价
0   2021-05-09  1inchusdt  7.049687
1   2021-05-09    aacusdt  0.014916
2   2021-05-09    zrxusdt  1.949000
3   2021-05-10  1inchusdt  6.693635
4   2021-05-10    aacusdt  0.016097
5   2021-05-10    zrxusdt  1.936400
6   2021-05-11  1inchusdt  6.330097
7   2021-05-11    aacusdt  0.017725
8   2021-05-11    zrxusdt  1.835800
9   2021-05-12  1inchusdt  6.478842
10  2021-05-12    aacusdt  0.016901
11  2021-05-12    zrxusdt  1.882900
12  2021-05-13  1inchusdt  5.377795
13  2021-05-13    aacusdt  0.014344
14  2021-05-13    zrxusdt  1.625700
15  2021-05-14  1inchusdt  5.868618
16  2021-05-14    aacusdt  0.015385
17  2021-05-14    zrxusdt  1.744100
18  2021-05-15  1inchusdt  5.646441
19  2021-05-15    aacusdt  0.015849
20  2021-05-15    zrxusdt  1.631500
21  2021-05-16  1inchusdt  5.273476
22  2021-05-16    aacusdt  0.015002
23  2021-05-16    zrxusdt  1.616500
24  2021-05-17  1inchusdt  4.701934
25  2021-05-17    aacusdt  0.016289
26  2021-05-17    zrxusdt  1.468800
27  2021-05-18  1inchusdt  4.855229
28  2021-05-18    aacusdt  0.015705
29  2021-05-18    zrxusdt  1.506800

分析步骤 02：币种列转为行，每个交易日一行数据

为了分析每个币种每天的变化，按照交易日顺序，排列每个币种的收盘价。
要将币种转成行，先将交易日设置成 1 级索引，币种作为 2 级索引，然后将 2 级索引转成列

In [6]: f_data = f_data.set_index(["交易日", "币种"])["收盘价"]

In [7]: f_data = f_data.unstack()

In [8]: f_data
Out[8]:
币种          1inchusdt   aacusdt  zrxusdt
交易日
2021-05-09   7.049687  0.014916   1.9490
2021-05-10   6.693635  0.016097   1.9364
2021-05-11   6.330097  0.017725   1.8358
2021-05-12   6.478842  0.016901   1.8829
2021-05-13   5.377795  0.014344   1.6257
2021-05-14   5.868618  0.015385   1.7441
2021-05-15   5.646441  0.015849   1.6315
2021-05-16   5.273476  0.015002   1.6165
2021-05-17   4.701934  0.016289   1.4688
2021-05-18   4.855229  0.015705   1.5068

通过上面可以看出，column 的 name 是币种 index 的 name 是 交易日 column 的 name 不需要，可以用下面的代码去除 column 的 name

In [9]: f_data = f_data.rename_axis(columns=None)

In [10]: f_data
Out[10]:
            1inchusdt   aacusdt  zrxusdt
交易日
2021-05-09   7.049687  0.014916   1.9490
2021-05-10   6.693635  0.016097   1.9364
2021-05-11   6.330097  0.017725   1.8358
2021-05-12   6.478842  0.016901   1.8829
2021-05-13   5.377795  0.014344   1.6257
2021-05-14   5.868618  0.015385   1.7441
2021-05-15   5.646441  0.015849   1.6315
2021-05-16   5.273476  0.015002   1.6165
2021-05-17   4.701934  0.016289   1.4688
2021-05-18   4.855229  0.015705   1.5068

分析步骤 03：就是每天的涨跌幅

数据变成上面格式之后，计算涨跌幅只需一行代码。

In [11]: f_data = f_data.pct_change()

In [12]: f_data
Out[12]:
            1inchusdt   aacusdt   zrxusdt
交易日
2021-05-09        NaN       NaN       NaN
2021-05-10  -0.050506  0.079177 -0.006465
2021-05-11  -0.054311  0.101137 -0.051952
2021-05-12   0.023498 -0.046488  0.025656
2021-05-13  -0.169945 -0.151293 -0.136598
2021-05-14   0.091268  0.072574  0.072830
2021-05-15  -0.037858  0.030159 -0.064561
2021-05-16  -0.066053 -0.053442 -0.009194
2021-05-17  -0.108381  0.085789 -0.091370
2021-05-18   0.032603 -0.035852  0.025871

第一条数据由于没有上一日的数据，所以没有涨跌幅。

分析步骤 04：删除掉第一天的无效数据

In [13]: f_data = f_data.drop(index=["2021-05-09"])

In [14]: f_data
Out[14]:
            1inchusdt   aacusdt   zrxusdt
交易日
2021-05-10  -0.050506  0.079177 -0.006465
2021-05-11  -0.054311  0.101137 -0.051952
2021-05-12   0.023498 -0.046488  0.025656
2021-05-13  -0.169945 -0.151293 -0.136598
2021-05-14   0.091268  0.072574  0.072830
2021-05-15  -0.037858  0.030159 -0.064561
2021-05-16  -0.066053 -0.053442 -0.009194
2021-05-17  -0.108381  0.085789 -0.091370
2021-05-18   0.032603 -0.035852  0.025871

分析步骤 05：币种行转列，方便按照涨跌幅排序

再转回原来的格式，方便进行涨跌幅排序。

行列转回去之后，需要重置 index，将 交易日 作为数据的一列，而不是 index.
现在 交易日 是作为数据的 index 的。

In [16]: f_data = f_data.stack()
In [17]: f_data = f_data.reset_index()
Out[17]:
           交易日    level_1         0
0   2021-05-10  1inchusdt -0.050506
1   2021-05-10    aacusdt  0.079177
2   2021-05-10    zrxusdt -0.006465
3   2021-05-11  1inchusdt -0.054311
4   2021-05-11    aacusdt  0.101137
5   2021-05-11    zrxusdt -0.051952
6   2021-05-12  1inchusdt  0.023498
7   2021-05-12    aacusdt -0.046488
8   2021-05-12    zrxusdt  0.025656
9   2021-05-13  1inchusdt -0.169945
10  2021-05-13    aacusdt -0.151293
11  2021-05-13    zrxusdt -0.136598
12  2021-05-14  1inchusdt  0.091268
13  2021-05-14    aacusdt  0.072574
14  2021-05-14    zrxusdt  0.072830
15  2021-05-15  1inchusdt -0.037858
16  2021-05-15    aacusdt  0.030159
17  2021-05-15    zrxusdt -0.064561
18  2021-05-16  1inchusdt -0.066053
19  2021-05-16    aacusdt -0.053442
20  2021-05-16    zrxusdt -0.009194
21  2021-05-17  1inchusdt -0.108381
22  2021-05-17    aacusdt  0.085789
23  2021-05-17    zrxusdt -0.091370
24  2021-05-18  1inchusdt  0.032603
25  2021-05-18    aacusdt -0.035852
26  2021-05-18    zrxusdt  0.025871

重命名列的名称 level_1 -> 币种，0 -> 涨跌幅。

In [20]: f_data = f_data.rename(columns={"level_1": "币种", 0: "涨跌幅"})

In [21]: f_data
Out[21]:
           交易日         币种       涨跌幅
0   2021-05-10  1inchusdt -0.050506
1   2021-05-10    aacusdt  0.079177
2   2021-05-10    zrxusdt -0.006465
3   2021-05-11  1inchusdt -0.054311
4   2021-05-11    aacusdt  0.101137
5   2021-05-11    zrxusdt -0.051952
6   2021-05-12  1inchusdt  0.023498
7   2021-05-12    aacusdt -0.046488
8   2021-05-12    zrxusdt  0.025656
9   2021-05-13  1inchusdt -0.169945
10  2021-05-13    aacusdt -0.151293
11  2021-05-13    zrxusdt -0.136598
12  2021-05-14  1inchusdt  0.091268
13  2021-05-14    aacusdt  0.072574
14  2021-05-14    zrxusdt  0.072830
15  2021-05-15  1inchusdt -0.037858
16  2021-05-15    aacusdt  0.030159
17  2021-05-15    zrxusdt -0.064561
18  2021-05-16  1inchusdt -0.066053
19  2021-05-16    aacusdt -0.053442
20  2021-05-16    zrxusdt -0.009194
21  2021-05-17  1inchusdt -0.108381
22  2021-05-17    aacusdt  0.085789
23  2021-05-17    zrxusdt -0.091370
24  2021-05-18  1inchusdt  0.032603
25  2021-05-18    aacusdt -0.035852
26  2021-05-18    zrxusdt  0.025871

每天各币种的涨跌幅按照从小到大排序。

In [22]: f_data = f_data.sort_values(by=["涨跌幅"])

In [23]: f_data
Out[23]:
           交易日         币种       涨跌幅
9   2021-05-13  1inchusdt -0.169945
10  2021-05-13    aacusdt -0.151293
11  2021-05-13    zrxusdt -0.136598
21  2021-05-17  1inchusdt -0.108381
23  2021-05-17    zrxusdt -0.091370
18  2021-05-16  1inchusdt -0.066053
17  2021-05-15    zrxusdt -0.064561
3   2021-05-11  1inchusdt -0.054311
19  2021-05-16    aacusdt -0.053442
5   2021-05-11    zrxusdt -0.051952
0   2021-05-10  1inchusdt -0.050506
7   2021-05-12    aacusdt -0.046488
15  2021-05-15  1inchusdt -0.037858
25  2021-05-18    aacusdt -0.035852
20  2021-05-16    zrxusdt -0.009194
2   2021-05-10    zrxusdt -0.006465
6   2021-05-12  1inchusdt  0.023498
8   2021-05-12    zrxusdt  0.025656
26  2021-05-18    zrxusdt  0.025871
16  2021-05-15    aacusdt  0.030159
24  2021-05-18  1inchusdt  0.032603
13  2021-05-14    aacusdt  0.072574
14  2021-05-14    zrxusdt  0.072830
1   2021-05-10    aacusdt  0.079177
22  2021-05-17    aacusdt  0.085789
12  2021-05-14  1inchusdt  0.091268
4   2021-05-11    aacusdt  0.101137

可以看出，排序之后，index 顺序乱了。不过没什么关系，我们最后只要导出数据，不用导出 index。

分析步骤 06：导出数据

In [24]: f_data.to_csv("./data-result.csv", index=False)

In [25]: cat ./data-result.csv
交易日,币种,涨跌幅
2021-05-13,1inchusdt,-0.16994503030016783
2021-05-13,aacusdt,-0.15129282290988688
2021-05-13,zrxusdt,-0.13659780126400767
2021-05-17,1inchusdt,-0.10838050651979836
2021-05-17,zrxusdt,-0.09137024435508811
2021-05-16,1inchusdt,-0.0660531120399559
2021-05-15,zrxusdt,-0.06456051831890375
2021-05-11,1inchusdt,-0.054310998433586444
2021-05-16,aacusdt,-0.053441857530443504
2021-05-11,zrxusdt,-0.051952076017351634
2021-05-10,1inchusdt,-0.05050607211355629
2021-05-12,aacusdt,-0.046488011283498
2021-05-15,1inchusdt,-0.03785848729632757
2021-05-18,aacusdt,-0.035852415740683985
2021-05-16,zrxusdt,-0.009193993257738176
2021-05-10,zrxusdt,-0.006464853771164791
2021-05-12,1inchusdt,0.023498060140310528
2021-05-12,zrxusdt,0.025656389584922
2021-05-18,zrxusdt,0.02587145969498894
2021-05-15,aacusdt,0.03015924601884956
2021-05-18,1inchusdt,0.03260254184767364
2021-05-14,aacusdt,0.07257389849414375
2021-05-14,zrxusdt,0.07283016546718346
2021-05-10,aacusdt,0.0791767229820326
2021-05-17,aacusdt,0.08578856152513015
2021-05-14,1inchusdt,0.09126844738410433
2021-05-11,aacusdt,0.10113685779959014

可视化

到这里基本分析结束，可以用导出的数据去做可视化展示了，使用 antd 做的动态展示效果见视频号：
databook 视频号

总结

越深入了解 pandas 库，就会遇到越来越多的惊喜。在使用 pandas 的过程中，我最深的体会是，要用整体的视角来处理数据，通过操作数据的索引和列来完成数据的变换和计算。
要抛弃写代码的思路，不要想着去解析每行数据，得到每个单元格中的数据，然后再循环处理之类的。
这似乎还有点类似于写 SQL 查数据库的感觉，不过，pandas 的 DataFrame 结构比数据库中 table 结构要强大的多。

从上面的使用还可以看出，pandas 库虽然是处理表格类的数据，但是可以通过创建多级索引来处理二维以上的数据。
通过索引，能够让数据表现出更多的层次。

posted @ 2021-05-26 18:07 wang_yb 阅读(898) 评论(0) 收藏举报

刷新页面返回顶部

千里之行，始于足下