Pandas-2-2-中文文档-八-

Pandas 2.2 中文文档（八）

原文：pandas.pydata.org/docs/

写时复制（CoW）

原文：pandas.pydata.org/docs/user_guide/copy_on_write.html

注意

写时复制将成为 pandas 3.0 的默认设置。我们建议现在就启用它以从所有改进中受益。

写时复制首次引入于版本 1.5.0。从版本 2.0 开始，大部分通过 CoW 可能实现和支持的优化已经实现。从 pandas 2.1 开始，所有可能的优化都得到支持。

写时复制将在版本 3.0 中默认启用。

CoW 将导致更可预测的行为，因为不可能用一个语句更新多个对象，例如索引操作或方法不会产生副作用。此外，通过尽可能延迟复制，平均性能和内存使用将得到改善。

先前的行为

pandas 的索引行为很难理解。一些操作返回视图，而其他操作返回副本。根据操作的结果，改变一个对象可能会意外地改变另一个对象：

In [1]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [2]: subset = df["foo"]

In [3]: subset.iloc[0] = 100

In [4]: df
Out[4]: 
 foo  bar
0  100    4
1    2    5
2    3    6

改变subset，例如更新其值，也会更新df。确切的行为很难预测。写时复制解决了意外修改多个对象的问题，它明确禁止这种情况。启用写时复制后，df保持不变：

In [5]: pd.options.mode.copy_on_write = True

In [6]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [7]: subset = df["foo"]

In [8]: subset.iloc[0] = 100

In [9]: df
Out[9]: 
 foo  bar
0    1    4
1    2    5
2    3    6

接下来的部分将解释这意味着什么，以及它如何影响现有应用程序。

迁移到写时复制

写时复制将成为 pandas 3.0 的默认和唯一模式。这意味着用户需要迁移他们的代码以符合 CoW 规则。

pandas 的默认模式将对某些情况发出警告，这些情况将积极改变行为，从而改变用户预期的行为。

我们添加了另一种模式，例如

pd.options.mode.copy_on_write = "warn"

将会对每个会改变 CoW 行为的操作发出警告。我们预计这种模式会非常嘈杂，因为许多我们不认为会影响用户的情况也会发出警告。我们建议检查这种模式并分析警告，但不需要解决所有这些警告。以下列表的前两项是需要解决的唯一情况，以使现有代码与 CoW 兼容。

接下来的几个项目描述了用户可见的变化：

链接赋值永远不会起作用

应该使用loc作为替代。查看链接赋值部分获取更多细节。

访问 pandas 对象的底层数组将返回一个只读视图

In [10]: ser = pd.Series([1, 2, 3])

In [11]: ser.to_numpy()
Out[11]: array([1, 2, 3])

这个示例返回一个 NumPy 数组，它是 Series 对象的一个视图。这个视图可以被修改，从而也会修改 pandas 对象。这不符合 CoW 规则。返回的数组被设置为不可写，以防止这种行为。创建这个数组的副本允许修改。如果你不再关心 pandas 对象，你也可以再次使数组可写。

有关只读 NumPy 数组的更多详细信息，请参阅相关部分。

一次只更新一个 pandas 对象

以下代码片段在没有 CoW 的情况下同时更新df和subset：

In [12]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [13]: subset = df["foo"]

In [14]: subset.iloc[0] = 100

In [15]: df
Out[15]: 
 foo  bar
0    1    4
1    2    5
2    3    6

这在 CoW 中将不再可能，因为 CoW 规则明确禁止这样做。这包括将单个列更新为Series并依赖于更改传播回父DataFrame。如果需要此行为，可以使用loc或iloc将此语句重写为单个语句。DataFrame.where()是此情况的另一个合适的替代方案。

使用就地方法从DataFrame中选择的列更新也将不再起作用。

In [16]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [17]: df["foo"].replace(1, 5, inplace=True)

In [18]: df
Out[18]: 
 foo  bar
0    1    4
1    2    5
2    3    6

这是另一种链式赋值的形式。通常可以以 2 种不同形式重写：

In [19]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [20]: df.replace({"foo": {1: 5}}, inplace=True)

In [21]: df
Out[21]: 
 foo  bar
0    5    4
1    2    5
2    3    6

另一种选择是不使用inplace：

In [22]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [23]: df["foo"] = df["foo"].replace(1, 5)

In [24]: df
Out[24]: 
 foo  bar
0    5    4
1    2    5
2    3    6

构造函数现在默认复制 NumPy 数组

Series 和 DataFrame 构造函数现在默认情况下将复制 NumPy 数组。这一变化是为了避免在 pandas 之外就地更改 NumPy 数组时改变 pandas 对象。您可以设置copy=False以避免此复制。

描述

CoW 意味着以任何方式从另一个 DataFrame 或 Series 派生的任何 DataFrame 或 Series 始终表现为副本。因此，我们只能通过修改对象本身来更改对象的值。CoW 不允许就地更新与另一个 DataFrame 或 Series 对象共享数据的 DataFrame 或 Series。

这样可以避免在修改值时产生副作用，因此大多数方法可以避免实际复制数据，只在必要时触发复制。

以下示例将在 CoW 下就地操作：

In [25]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [26]: df.iloc[0, 0] = 100

In [27]: df
Out[27]: 
 foo  bar
0  100    4
1    2    5
2    3    6

对象df不与任何其他对象共享数据，因此在更新值时不会触发复制。相比之下，以下操作在 CoW 下触发数据的复制：

In [28]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [29]: df2 = df.reset_index(drop=True)

In [30]: df2.iloc[0, 0] = 100

In [31]: df
Out[31]: 
 foo  bar
0    1    4
1    2    5
2    3    6

In [32]: df2
Out[32]: 
 foo  bar
0  100    4
1    2    5
2    3    6

reset_index返回一个带有 CoW 的延迟复制，而不带 CoW 的复制数据。由于df和df2两个对象共享相同的数据，当修改df2时会触发复制。对象df仍然具有最初的值，而df2已被修改。

如果在执行reset_index操作后不再需要对象df，您可以通过将reset_index的输出分配给同一变量来模拟类似就地操作：

In [33]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [34]: df = df.reset_index(drop=True)

In [35]: df.iloc[0, 0] = 100

In [36]: df
Out[36]: 
 foo  bar
0  100    4
1    2    5
2    3    6

当reset_index的结果被重新分配时，初始对象立即超出范围，因此df不与任何其他对象共享数据。在修改对象时不需要复制。这通常适用于写时复制优化中列出的所有方法。

以前，在操作视图时，会修改视图和父对象：

In [37]: with pd.option_context("mode.copy_on_write", False):
 ....:    df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})
 ....:    view = df[:]
 ....:    df.iloc[0, 0] = 100
 ....: 

In [38]: df
Out[38]: 
 foo  bar
0  100    4
1    2    5
2    3    6

In [39]: view
Out[39]: 
 foo  bar
0  100    4
1    2    5
2    3    6

当df更改时触发拷贝，以避免突变view：

In [40]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [41]: view = df[:]

In [42]: df.iloc[0, 0] = 100

In [43]: df
Out[43]: 
 foo  bar
0  100    4
1    2    5
2    3    6

In [44]: view
Out[44]: 
 foo  bar
0    1    4
1    2    5
2    3    6

链式赋值

链式赋值引用一种技术，通过两个连续的索引操作来更新对象，例如。

In [45]: with pd.option_context("mode.copy_on_write", False):
 ....:    df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})
 ....:    df["foo"][df["bar"] > 5] = 100
 ....:    df
 ....:

当列bar大于 5 时，更新列foo。尽管如此，这违反了写时拷贝的原则，因为它必须在一步中修改视图df["foo"]和df。因此，链式赋值将始终无法工作，并在启用写时拷贝时引发ChainedAssignmentError警告：

In [46]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [47]: df["foo"][df["bar"] > 5] = 100

通过使用loc可以实现写时拷贝。

In [48]: df.loc[df["bar"] > 5, "foo"] = 100 
```  ## 只读 NumPy 数组

如果数组与初始 DataFrame 共享数据，则访问 DataFrame 的底层 NumPy 数组将返回只读数组：

如果初始 DataFrame 由多个数组组成，则该数组是一个拷贝：

```py
In [49]: df = pd.DataFrame({"a": [1, 2], "b": [1.5, 2.5]})

In [50]: df.to_numpy()
Out[50]: 
array([[1\. , 1.5],
 [2\. , 2.5]])

如果 DataFrame 仅由一个 NumPy 数组组成，则该数组与 DataFrame 共享数据：

In [51]: df = pd.DataFrame({"a": [1, 2], "b": [3, 4]})

In [52]: df.to_numpy()
Out[52]: 
array([[1, 3],
 [2, 4]])

此数组是只读的，这意味着它不能就地修改：

In [53]: arr = df.to_numpy()

In [54]: arr[0, 0] = 100
---------------------------------------------------------------------------
ValueError  Traceback (most recent call last)
Cell In[54], line 1
----> 1 arr[0, 0] = 100

ValueError: assignment destination is read-only

对于 Series 也是如此，因为 Series 始终由单个数组组成。

这有两种潜在的解决方案：

如果想避免更新与数组共享内存的 DataFrame，则手动触发拷贝。
使数组可写。这是一种性能更好的解决方案，但是绕过了写时拷贝规则，因此应谨慎使用。

In [55]: arr = df.to_numpy()

In [56]: arr.flags.writeable = True

In [57]: arr[0, 0] = 100

In [58]: arr
Out[58]: 
array([[100,   3],
 [  2,   4]])

避免模式

如果两个对象共享相同的数据，而您正在就地修改一个对象，则不会执行防御性拷贝。

In [59]: df = pd.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})

In [60]: df2 = df.reset_index(drop=True)

In [61]: df2.iloc[0, 0] = 100

这将创建两个共享数据的对象，因此 setitem 操作将触发一个拷贝。如果不再需要初始对象df，则不需要这样做。简单地重新分配给相同的变量将使对象持有的引用无效。

In [62]: df = pd.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})

In [63]: df = df.reset_index(drop=True)

In [64]: df.iloc[0, 0] = 100

在这个例子中不需要拷贝。创建多个引用会保持不必要的引用存在，因此会影响性能，因为写时拷贝。

写时拷贝优化

新的惰性拷贝机制，直到修改问题对象并且仅当该对象与另一个对象共享数据时才进行拷贝。此机制已添加到不需要底层数据拷贝的方法中。流行的例子有DataFrame.drop()用于axis=1和DataFrame.rename()。

当启用写时拷贝时，这些方法返回视图，与常规执行相比提供了显著的性能改进。 ## 如何启用写时拷贝

写时拷贝可以通过配置选项copy_on_write启用。该选项可以通过以下任一方式 __ 全局 __ 启用：

In [65]: pd.set_option("mode.copy_on_write", True)

In [66]: pd.options.mode.copy_on_write = True

先前的行为

pandas 的索引行为很难理解。一些操作返回视图，而另一些操作返回副本。根据操作的结果，改变一个对象可能会意外地改变另一个对象：

In [1]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [2]: subset = df["foo"]

In [3]: subset.iloc[0] = 100

In [4]: df
Out[4]: 
 foo  bar
0  100    4
1    2    5
2    3    6

改变subset，例如更新其值，也会更新df。确切的行为很难预测。Copy-on-Write 解决了意外修改多个对象的问题，它明确禁止这种情况发生。启用 CoW 后，df保持不变：

In [5]: pd.options.mode.copy_on_write = True

In [6]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [7]: subset = df["foo"]

In [8]: subset.iloc[0] = 100

In [9]: df
Out[9]: 
 foo  bar
0    1    4
1    2    5
2    3    6

接下来的部分将解释这意味着什么以及它如何影响现有应用程序。

迁移至 Copy-on-Write

在 pandas 3.0 中，Copy-on-Write 将成为默认且唯一模式。这意味着用户需要迁移其代码以符合 CoW 规则。

pandas 的默认模式将对某些情况发出警告，这些情况将积极改变行为，从而改变用户预期的行为。

我们添加了另一种模式，例如。

pd.options.mode.copy_on_write = "warn"

对于每个会改变行为的操作都会发出 CoW 警告。我们预计这种模式会非常嘈杂，因为许多我们不希望影响用户的情况也会发出警告。我们建议检查此模式并分析警告，但不需要解决所有这些警告。以下列表的前两项是需要解决的唯一情况，以使现有代码与 CoW 一起正常工作。

接下来的几个项目描述了用户可见的更改：

链式赋值永远不会起作用

应该使用loc作为替代方法。查看链式赋值部分以获取更多详细信息。

访问 pandas 对象的底层数组将返回一个只读视图

In [10]: ser = pd.Series([1, 2, 3])

In [11]: ser.to_numpy()
Out[11]: array([1, 2, 3])

此示例返回一个 Series 对象的视图的 NumPy 数组。此视图可以被修改，从而也修改 pandas 对象。这不符合 CoW 规则。返回的数组设置为不可写，以防止这种行为。创建此数组的副本允许修改。如果不再关心 pandas 对象，也可以再次使数组可写。

查看关于只读 NumPy 数组的部分以获取更多详细信息。

一次只更新一个 pandas 对象

以下代码片段在没有 CoW 的情况下同时更新df和subset：

In [12]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [13]: subset = df["foo"]

In [14]: subset.iloc[0] = 100

In [15]: df
Out[15]: 
 foo  bar
0    1    4
1    2    5
2    3    6

这在 CoW 下将不再可能，因为 CoW 规则明确禁止这样做。这包括更新单个列作为Series并依赖于更改传播回父DataFrame。如果需要此行为，可以将此语句重写为使用loc或iloc的单个语句。DataFrame.where()是此情况的另一个合适的替代方法。

使用就地方法从DataFrame中选择的列更新列也将不再起作用。

In [16]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [17]: df["foo"].replace(1, 5, inplace=True)

In [18]: df
Out[18]: 
 foo  bar
0    1    4
1    2    5
2    3    6

这是另一种链式赋值的形式。这通常可以以 2 种不同的形式重写：

In [19]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [20]: df.replace({"foo": {1: 5}}, inplace=True)

In [21]: df
Out[21]: 
 foo  bar
0    5    4
1    2    5
2    3    6

另一种选择是不使用inplace：

In [22]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [23]: df["foo"] = df["foo"].replace(1, 5)

In [24]: df
Out[24]: 
 foo  bar
0    5    4
1    2    5
2    3    6

构造函数现在默认复制 NumPy 数组

当没有另行指定时，Series 和 DataFrame 构造函数现在默认复制 NumPy 数组。这一变更是为了避免在 pandas 之外原位更改 NumPy 数组时突变 pandas 对象。您可以设置copy=False来避免此复制。

描述

CoW 意味着以任何方式从另一个 DataFrame 或 Series 派生的任何 DataFrame 或 Series 都始终表现为副本。因此，我们只能通过修改对象本身来更改对象的值。CoW 不允许直接更新共享数据与另一个 DataFrame 或 Series 对象的 DataFrame 或 Series。

在修改值时避免副作用，因此，大多数方法可以避免实际复制数据，并且只在必要时触发复制。

以下示例将在 CoW 下进行就地操作：

In [25]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [26]: df.iloc[0, 0] = 100

In [27]: df
Out[27]: 
 foo  bar
0  100    4
1    2    5
2    3    6

对象df不与任何其他对象共享数据，因此在更新值时不触发复制。相比之下，下面的操作在 CoW 下触发数据的复制：

In [28]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [29]: df2 = df.reset_index(drop=True)

In [30]: df2.iloc[0, 0] = 100

In [31]: df
Out[31]: 
 foo  bar
0    1    4
1    2    5
2    3    6

In [32]: df2
Out[32]: 
 foo  bar
0  100    4
1    2    5
2    3    6

reset_index返回一个带有 CoW 的延迟副本，而在没有 CoW 的情况下复制数据。由于df和df2这两个对象共享相同的数据，所以当修改df2时会触发复制。对象df仍然具有最初的相同值，而df2已经被修改。

如果在执行reset_index操作后不再需要对象df，则可以通过将reset_index的输出分配给同一变量来模拟类似于 inplace 的操作：

In [33]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [34]: df = df.reset_index(drop=True)

In [35]: df.iloc[0, 0] = 100

In [36]: df
Out[36]: 
 foo  bar
0  100    4
1    2    5
2    3    6

当reset_index的结果重新分配时，初始对象就会超出范围，因此df与任何其他对象都不共享数据。在修改对象时，不需要复制。这通常对于列表中列出的所有方法都成立写时复制优化。

以前，在操作视图时，视图和父对象都会被修改：

In [37]: with pd.option_context("mode.copy_on_write", False):
 ....:    df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})
 ....:    view = df[:]
 ....:    df.iloc[0, 0] = 100
 ....: 

In [38]: df
Out[38]: 
 foo  bar
0  100    4
1    2    5
2    3    6

In [39]: view
Out[39]: 
 foo  bar
0  100    4
1    2    5
2    3    6

当修改df时，CoW 会触发复制以避免同时更改view：

In [40]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [41]: view = df[:]

In [42]: df.iloc[0, 0] = 100

In [43]: df
Out[43]: 
 foo  bar
0  100    4
1    2    5
2    3    6

In [44]: view
Out[44]: 
 foo  bar
0    1    4
1    2    5
2    3    6

链式赋值

链式赋值引用一种通过两个后续索引操作更新对象的技术，例如

In [45]: with pd.option_context("mode.copy_on_write", False):
 ....:    df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})
 ....:    df["foo"][df["bar"] > 5] = 100
 ....:    df
 ....:

当列bar大于 5 时，更新列foo。尽管如此，这违反了 CoW 原则，因为它需要一次性修改视图df["foo"]和df。因此，链式赋值始终不起作用，并在启用 CoW 时引发ChainedAssignmentError警告：

In [46]: df = pd.DataFrame({"foo": [1, 2, 3], "bar": [4, 5, 6]})

In [47]: df["foo"][df["bar"] > 5] = 100

使用loc可以使用写时复制来完成这个过程。

In [48]: df.loc[df["bar"] > 5, "foo"] = 100

只读 NumPy 数组

访问 DataFrame 的底层 NumPy 数组将返回一个只读数组，如果数组与初始 DataFrame 共享数据：

如果初始 DataFrame 包含多个数组，则数组是副本：

In [49]: df = pd.DataFrame({"a": [1, 2], "b": [1.5, 2.5]})

In [50]: df.to_numpy()
Out[50]: 
array([[1\. , 1.5],
 [2\. , 2.5]])

如果 DataFrame 只包含一个 NumPy 数组，则该数组与 DataFrame 共享数据：

In [51]: df = pd.DataFrame({"a": [1, 2], "b": [3, 4]})

In [52]: df.to_numpy()
Out[52]: 
array([[1, 3],
 [2, 4]])

此数组是只读的，这意味着它不能就地修改：

In [53]: arr = df.to_numpy()

In [54]: arr[0, 0] = 100
---------------------------------------------------------------------------
ValueError  Traceback (most recent call last)
Cell In[54], line 1
----> 1 arr[0, 0] = 100

ValueError: assignment destination is read-only

对于 Series 也是如此，因为 Series 总是由单个数组组成。

有两种潜在的解决方案：

如果您想要避免更新与数组共享内存的 DataFrame，则手动触发复制。
使数组可写。这是一种更高效的解决方案，但是它绕过了写时复制规则，因此应谨慎使用。

In [55]: arr = df.to_numpy()

In [56]: arr.flags.writeable = True

In [57]: arr[0, 0] = 100

In [58]: arr
Out[58]: 
array([[100,   3],
 [  2,   4]])

避免的模式

如果两个对象在您就地修改一个对象时共享相同的数据，则不会执行防御性复制。

In [59]: df = pd.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})

In [60]: df2 = df.reset_index(drop=True)

In [61]: df2.iloc[0, 0] = 100

这会创建两个共享数据的对象，因此 setitem 操作将触发复制。如果初始对象 df 不再需要，则不需要这样做。简单地重新分配给同一个变量将使对象持有的引用失效。

In [62]: df = pd.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})

In [63]: df = df.reset_index(drop=True)

In [64]: df.iloc[0, 0] = 100

在这个例子中不需要复制。创建多个引用会保持不必要的引用活动，因此会通过写时复制对性能造成损害。

写时复制优化

新的惰性复制机制推迟了直到修改了问题对象并且仅在此对象与另一个对象共享数据时才复制该对象。此机制已添加到不需要复制底层数据的方法中。常见示例是DataFrame.drop()对于axis=1和DataFrame.rename()。

当启用写时复制（Copy-on-Write）时，这些方法返回视图，与常规执行相比，这提供了显著的性能改进。

如何启用写时复制

可以通过配置选项 copy_on_write 启用写时复制。该选项可以通过以下任一全局方式进行打开：

In [65]: pd.set_option("mode.copy_on_write", True)

In [66]: pd.options.mode.copy_on_write = True

合并，连接，串联和比较

原文：pandas.pydata.org/docs/user_guide/merging.html

pandas 提供了各种方法来合并和比较Series或DataFrame。

concat(): 将多个Series或DataFrame对象沿着共享的索引或列合并
DataFrame.join(): 沿着列合并多个DataFrame对象
DataFrame.combine_first(): 在相同位置使用非缺失值更新缺失值
merge(): 用类似 SQL 的方式合并两个Series或DataFrame对象
merge_ordered(): 沿着有序轴合并两个Series或DataFrame对象
merge_asof(): 通过近似匹配键而不是精确匹配键来合并两个Series或DataFrame对象
Series.compare()和DataFrame.compare(): 显示两个Series或DataFrame对象之间的值差异

`concat()`

concat()函数沿着一个轴连接任意数量的Series或DataFrame对象，同时在其他轴上执行可选的集合逻辑（并集或交集）索引。与numpy.concatenate类似，concat()接受一个同类型对象的列表或字典，并将它们连接起来。

In [1]: df1 = pd.DataFrame(
 ...:    {
 ...:        "A": ["A0", "A1", "A2", "A3"],
 ...:        "B": ["B0", "B1", "B2", "B3"],
 ...:        "C": ["C0", "C1", "C2", "C3"],
 ...:        "D": ["D0", "D1", "D2", "D3"],
 ...:    },
 ...:    index=[0, 1, 2, 3],
 ...: )
 ...: 

In [2]: df2 = pd.DataFrame(
 ...:    {
 ...:        "A": ["A4", "A5", "A6", "A7"],
 ...:        "B": ["B4", "B5", "B6", "B7"],
 ...:        "C": ["C4", "C5", "C6", "C7"],
 ...:        "D": ["D4", "D5", "D6", "D7"],
 ...:    },
 ...:    index=[4, 5, 6, 7],
 ...: )
 ...: 

In [3]: df3 = pd.DataFrame(
 ...:    {
 ...:        "A": ["A8", "A9", "A10", "A11"],
 ...:        "B": ["B8", "B9", "B10", "B11"],
 ...:        "C": ["C8", "C9", "C10", "C11"],
 ...:        "D": ["D8", "D9", "D10", "D11"],
 ...:    },
 ...:    index=[8, 9, 10, 11],
 ...: )
 ...: 

In [4]: frames = [df1, df2, df3]

In [5]: result = pd.concat(frames)

In [6]: result
Out[6]: 
 A    B    C    D
0    A0   B0   C0   D0
1    A1   B1   C1   D1
2    A2   B2   C2   D2
3    A3   B3   C3   D3
4    A4   B4   C4   D4
5    A5   B5   C5   D5
6    A6   B6   C6   D6
7    A7   B7   C7   D7
8    A8   B8   C8   D8
9    A9   B9   C9   D9
10  A10  B10  C10  D10
11  A11  B11  C11  D11

注意

concat()会对数据进行完全复制，并且反复使用concat()可能会创建不必要的副本。在使用concat()之前，先将所有DataFrame或Series对象收集到一个列表中。

frames = [process_your_file(f) for f in files]
result = pd.concat(frames)

注意

当连接具有命名轴的DataFrame时，pandas 会尽可能保留这些索引/列名称。在所有输入共享一个公共名称的情况下，该名称将分配给结果。当输入名称不完全一致时，结果将没有名称。对于MultiIndex也是如此，但逻辑是逐级别分别应用的。

结果轴的连接逻辑

join关键字指定如何处理第一个DataFrame中不存在的轴值。

join='outer'取所有轴值的并集

In [7]: df4 = pd.DataFrame(
 ...:    {
 ...:        "B": ["B2", "B3", "B6", "B7"],
 ...:        "D": ["D2", "D3", "D6", "D7"],
 ...:        "F": ["F2", "F3", "F6", "F7"],
 ...:    },
 ...:    index=[2, 3, 6, 7],
 ...: )
 ...: 

In [8]: result = pd.concat([df1, df4], axis=1)

In [9]: result
Out[9]: 
 A    B    C    D    B    D    F
0   A0   B0   C0   D0  NaN  NaN  NaN
1   A1   B1   C1   D1  NaN  NaN  NaN
2   A2   B2   C2   D2   B2   D2   F2
3   A3   B3   C3   D3   B3   D3   F3
6  NaN  NaN  NaN  NaN   B6   D6   F6
7  NaN  NaN  NaN  NaN   B7   D7   F7

join='inner'取轴值的交集

In [10]: result = pd.concat([df1, df4], axis=1, join="inner")

In [11]: result
Out[11]: 
 A   B   C   D   B   D   F
2  A2  B2  C2  D2  B2  D2  F2
3  A3  B3  C3  D3  B3  D3  F3

为了使用原始DataFrame的确切索引执行有效的“左”连接，结果可以重新索引。

In [12]: result = pd.concat([df1, df4], axis=1).reindex(df1.index)

In [13]: result
Out[13]: 
 A   B   C   D    B    D    F
0  A0  B0  C0  D0  NaN  NaN  NaN
1  A1  B1  C1  D1  NaN  NaN  NaN
2  A2  B2  C2  D2   B2   D2   F2
3  A3  B3  C3  D3   B3   D3   F3

### 在连接轴上忽略索引

对于没有有意义索引的DataFrame对象，ignore_index会忽略重叠的索引。

In [14]: result = pd.concat([df1, df4], ignore_index=True, sort=False)

In [15]: result
Out[15]: 
 A   B    C   D    F
0   A0  B0   C0  D0  NaN
1   A1  B1   C1  D1  NaN
2   A2  B2   C2  D2  NaN
3   A3  B3   C3  D3  NaN
4  NaN  B2  NaN  D2   F2
5  NaN  B3  NaN  D3   F3
6  NaN  B6  NaN  D6   F6
7  NaN  B7  NaN  D7   F7

### 将Series和DataFrame连接在一起

您可以连接一组Series和DataFrame对象。Series将转换为具��列名的DataFrame，列名为Series的名称。

In [16]: s1 = pd.Series(["X0", "X1", "X2", "X3"], name="X")

In [17]: result = pd.concat([df1, s1], axis=1)

In [18]: result
Out[18]: 
 A   B   C   D   X
0  A0  B0  C0  D0  X0
1  A1  B1  C1  D1  X1
2  A2  B2  C2  D2  X2
3  A3  B3  C3  D3  X3

未命名的Series将按顺序编号。

In [19]: s2 = pd.Series(["_0", "_1", "_2", "_3"])

In [20]: result = pd.concat([df1, s2, s2, s2], axis=1)

In [21]: result
Out[21]: 
 A   B   C   D   0   1   2
0  A0  B0  C0  D0  _0  _0  _0
1  A1  B1  C1  D1  _1  _1  _1
2  A2  B2  C2  D2  _2  _2  _2
3  A3  B3  C3  D3  _3  _3  _3

ignore_index=True 将删除所有名称引用。

In [22]: result = pd.concat([df1, s1], axis=1, ignore_index=True)

In [23]: result
Out[23]: 
 0   1   2   3   4
0  A0  B0  C0  D0  X0
1  A1  B1  C1  D1  X1
2  A2  B2  C2  D2  X2
3  A3  B3  C3  D3  X3

结果的`keys`

keys 参数将向结果索引或列添加另一个轴级别（创建一个MultiIndex），将特定键与每个原始DataFrame关联。

In [24]: result = pd.concat(frames, keys=["x", "y", "z"])

In [25]: result
Out[25]: 
 A    B    C    D
x 0    A0   B0   C0   D0
 1    A1   B1   C1   D1
 2    A2   B2   C2   D2
 3    A3   B3   C3   D3
y 4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7
z 8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11

In [26]: result.loc["y"]
Out[26]: 
 A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7

keys 参数可以在基于现有Series创建新DataFrame时覆盖列名。

In [27]: s3 = pd.Series([0, 1, 2, 3], name="foo")

In [28]: s4 = pd.Series([0, 1, 2, 3])

In [29]: s5 = pd.Series([0, 1, 4, 5])

In [30]: pd.concat([s3, s4, s5], axis=1)
Out[30]: 
 foo  0  1
0    0  0  0
1    1  1  1
2    2  2  4
3    3  3  5

In [31]: pd.concat([s3, s4, s5], axis=1, keys=["red", "blue", "yellow"])
Out[31]: 
 red  blue  yellow
0    0     0       0
1    1     1       1
2    2     2       4
3    3     3       5

您还可以将字典传递给concat()，在这种情况下，除非指定了其他keys参数，否则将使用字典键作为keys参数：

In [32]: pieces = {"x": df1, "y": df2, "z": df3}

In [33]: result = pd.concat(pieces)

In [34]: result
Out[34]: 
 A    B    C    D
x 0    A0   B0   C0   D0
 1    A1   B1   C1   D1
 2    A2   B2   C2   D2
 3    A3   B3   C3   D3
y 4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7
z 8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11

In [35]: result = pd.concat(pieces, keys=["z", "y"])

In [36]: result
Out[36]: 
 A    B    C    D
z 8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11
y 4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7

创建的MultiIndex具有从传递的键和DataFrame片段的索引构建的级别：

In [37]: result.index.levels
Out[37]: FrozenList([['z', 'y'], [4, 5, 6, 7, 8, 9, 10, 11]])

levels 参数允许指定与keys相关联的结果级别

In [38]: result = pd.concat(
 ....:    pieces, keys=["x", "y", "z"], levels=[["z", "y", "x", "w"]], names=["group_key"]
 ....: )
 ....: 

In [39]: result
Out[39]: 
 A    B    C    D
group_key 
x         0    A0   B0   C0   D0
 1    A1   B1   C1   D1
 2    A2   B2   C2   D2
 3    A3   B3   C3   D3
y         4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7
z         8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11

In [40]: result.index.levels
Out[40]: FrozenList([['z', 'y', 'x', 'w'], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]])

将行附加到`DataFrame`

如果您有一个要附加为单行到 DataFrame 的 Series，您可以将该行转换为 DataFrame 并使用 concat()

In [41]: s2 = pd.Series(["X0", "X1", "X2", "X3"], index=["A", "B", "C", "D"])

In [42]: result = pd.concat([df1, s2.to_frame().T], ignore_index=True)

In [43]: result
Out[43]: 
 A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
4  X0  X1  X2  X3

## merge()

merge() 执行类似于关系数据库（如 SQL）的连接操作。熟悉 SQL 但是对 pandas 新手的用户可以参考与 SQL 的比较。

连接类型

merge() 实现了常见的 SQL 风格的连接操作。

一对一：在它们的索引上连接两个 DataFrame 对象，这些索引必须包含唯一值。
一对多：将唯一索引与不同 DataFrame 中的一个或多个列进行连接。
多对多：在列上连接列。

注意

当在列上连接列时，可能是多对多的连接，传递的 DataFrame 对象上的任何索引将被丢弃。

对于多对多的连接，如果一个键组合在两个表中出现多次，DataFrame 将具有相关数据的笛卡尔积。

In [44]: left = pd.DataFrame(
 ....:    {
 ....:        "key": ["K0", "K1", "K2", "K3"],
 ....:        "A": ["A0", "A1", "A2", "A3"],
 ....:        "B": ["B0", "B1", "B2", "B3"],
 ....:    }
 ....: )
 ....: 

In [45]: right = pd.DataFrame(
 ....:    {
 ....:        "key": ["K0", "K1", "K2", "K3"],
 ....:        "C": ["C0", "C1", "C2", "C3"],
 ....:        "D": ["D0", "D1", "D2", "D3"],
 ....:    }
 ....: )
 ....: 

In [46]: result = pd.merge(left, right, on="key")

In [47]: result
Out[47]: 
 key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2
3  K3  A3  B3  C3  D3

对于 merge() 的 how 参数指定了哪些键包含在结果表中。如果一个键组合不存在于左表或右表中，连接表中的值将为 NA。以下是 how 选项及其 SQL 等效名称的摘要：

合并方法	SQL 连接名称	描述
`left`	`LEFT OUTER JOIN`	仅使用左框架中的键
`right`	`RIGHT OUTER JOIN`	仅使用右框架中的键
`outer`	`FULL OUTER JOIN`	使用两个框架的键的并集
`inner`	`INNER JOIN`	使用两个框架中键的交集
`cross`	`CROSS JOIN`	创建两个框架行的笛卡尔积

In [48]: left = pd.DataFrame(
 ....:   {
 ....:      "key1": ["K0", "K0", "K1", "K2"],
 ....:      "key2": ["K0", "K1", "K0", "K1"],
 ....:      "A": ["A0", "A1", "A2", "A3"],
 ....:      "B": ["B0", "B1", "B2", "B3"],
 ....:   }
 ....: )
 ....: 

In [49]: right = pd.DataFrame(
 ....:   {
 ....:      "key1": ["K0", "K1", "K1", "K2"],
 ....:      "key2": ["K0", "K0", "K0", "K0"],
 ....:      "C": ["C0", "C1", "C2", "C3"],
 ....:      "D": ["D0", "D1", "D2", "D3"],
 ....:   }
 ....: )
 ....: 

In [50]: result = pd.merge(left, right, how="left", on=["key1", "key2"])

In [51]: result
Out[51]: 
 key1 key2   A   B    C    D
0   K0   K0  A0  B0   C0   D0
1   K0   K1  A1  B1  NaN  NaN
2   K1   K0  A2  B2   C1   D1
3   K1   K0  A2  B2   C2   D2
4   K2   K1  A3  B3  NaN  NaN

In [52]: result = pd.merge(left, right, how="right", on=["key1", "key2"])

In [53]: result
Out[53]: 
 key1 key2    A    B   C   D
0   K0   K0   A0   B0  C0  D0
1   K1   K0   A2   B2  C1  D1
2   K1   K0   A2   B2  C2  D2
3   K2   K0  NaN  NaN  C3  D3

In [54]: result = pd.merge(left, right, how="outer", on=["key1", "key2"])

In [55]: result
Out[55]: 
 key1 key2    A    B    C    D
0   K0   K0   A0   B0   C0   D0
1   K0   K1   A1   B1  NaN  NaN
2   K1   K0   A2   B2   C1   D1
3   K1   K0   A2   B2   C2   D2
4   K2   K0  NaN  NaN   C3   D3
5   K2   K1   A3   B3  NaN  NaN

In [56]: result = pd.merge(left, right, how="inner", on=["key1", "key2"])

In [57]: result
Out[57]: 
 key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2

In [58]: result = pd.merge(left, right, how="cross")

In [59]: result
Out[59]: 
 key1_x key2_x   A   B key1_y key2_y   C   D
0      K0     K0  A0  B0     K0     K0  C0  D0
1      K0     K0  A0  B0     K1     K0  C1  D1
2      K0     K0  A0  B0     K1     K0  C2  D2
3      K0     K0  A0  B0     K2     K0  C3  D3
4      K0     K1  A1  B1     K0     K0  C0  D0
..    ...    ...  ..  ..    ...    ...  ..  ..
11     K1     K0  A2  B2     K2     K0  C3  D3
12     K2     K1  A3  B3     K0     K0  C0  D0
13     K2     K1  A3  B3     K1     K0  C1  D1
14     K2     K1  A3  B3     K1     K0  C2  D2
15     K2     K1  A3  B3     K2     K0  C3  D3

[16 rows x 8 columns]

如果MultiIndex的名称与DataFrame中的列名对应，则可以使用Series和具有MultiIndex的DataFrame。在合并之前，使用Series.reset_index()将Series转换为DataFrame

In [60]: df = pd.DataFrame({"Let": ["A", "B", "C"], "Num": [1, 2, 3]})

In [61]: df
Out[61]: 
 Let  Num
0   A    1
1   B    2
2   C    3

In [62]: ser = pd.Series(
 ....:    ["a", "b", "c", "d", "e", "f"],
 ....:    index=pd.MultiIndex.from_arrays(
 ....:        [["A", "B", "C"] * 2, [1, 2, 3, 4, 5, 6]], names=["Let", "Num"]
 ....:    ),
 ....: )
 ....: 

In [63]: ser
Out[63]: 
Let  Num
A    1      a
B    2      b
C    3      c
A    4      d
B    5      e
C    6      f
dtype: object

In [64]: pd.merge(df, ser.reset_index(), on=["Let", "Num"])
Out[64]: 
 Let  Num  0
0   A    1  a
1   B    2  b
2   C    3  c

在具有重复连接键的DataFrame中执行外连接

In [65]: left = pd.DataFrame({"A": [1, 2], "B": [2, 2]})

In [66]: right = pd.DataFrame({"A": [4, 5, 6], "B": [2, 2, 2]})

In [67]: result = pd.merge(left, right, on="B", how="outer")

In [68]: result
Out[68]: 
 A_x  B  A_y
0    1  2    4
1    1  2    5
2    1  2    6
3    2  2    4
4    2  2    5
5    2  2    6

警告

在重复键上进行合并会显著增加结果的维度，并可能导致内存溢出。

合并键的唯一性

validate参数检查合并键的唯一性。在执行合并操作之前检查键的唯一性可以防止内存溢出和意外键重复。

In [69]: left = pd.DataFrame({"A": [1, 2], "B": [1, 2]})

In [70]: right = pd.DataFrame({"A": [4, 5, 6], "B": [2, 2, 2]})

In [71]: result = pd.merge(left, right, on="B", how="outer", validate="one_to_one")
---------------------------------------------------------------------------
MergeError  Traceback (most recent call last)
Cell In[71], line 1
----> 1 result = pd.merge(left, right, on="B", how="outer", validate="one_to_one")

File ~/work/pandas/pandas/pandas/core/reshape/merge.py:170, in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
  155     return _cross_merge(
  156         left_df,
  157         right_df,
   (...)
  167         copy=copy,
  168     )
  169 else:
--> 170     op = _MergeOperation(
  171         left_df,
  172         right_df,
  173         how=how,
  174         on=on,
  175         left_on=left_on,
  176         right_on=right_on,
  177         left_index=left_index,
  178         right_index=right_index,
  179         sort=sort,
  180         suffixes=suffixes,
  181         indicator=indicator,
  182         validate=validate,
  183     )
  184     return op.get_result(copy=copy)

File ~/work/pandas/pandas/pandas/core/reshape/merge.py:813, in _MergeOperation.__init__(self, left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, indicator, validate)
  809 # If argument passed to validate,
  810 # check if columns specified as unique
  811 # are in fact unique.
  812 if validate is not None:
--> 813     self._validate_validate_kwd(validate)

File ~/work/pandas/pandas/pandas/core/reshape/merge.py:1657, in _MergeOperation._validate_validate_kwd(self, validate)
  1653         raise MergeError(
  1654             "Merge keys are not unique in left dataset; not a one-to-one merge"
  1655         )
  1656     if not right_unique:
-> 1657         raise MergeError(
  1658             "Merge keys are not unique in right dataset; not a one-to-one merge"
  1659         )
  1661 elif validate in ["one_to_many", "1:m"]:
  1662     if not left_unique:

MergeError: Merge keys are not unique in right dataset; not a one-to-one merge

如果用户意识到右侧DataFrame中存在重复项，但希望确保左侧DataFrame中没有重复项，则可以使用validate='one_to_many'参数，这样不会引发异常。

In [72]: pd.merge(left, right, on="B", how="outer", validate="one_to_many")
Out[72]: 
 A_x  B  A_y
0    1  1  NaN
1    2  2  4.0
2    2  2  5.0
3    2  2  6.0 
```  ### 合并结果指示器

`merge()`接受参数`indicator`。如果为`True`，则将向输出对象添加一个名为`_merge`的分类列，其取值为：

> | 观察来源 | `_merge`值 |
> | --- | --- |
> | 仅在`'left'`数据框中的合并键 | `left_only` |
> | 仅在`'right'`数据框中的合并键 | `right_only` |
> | 两个数据框中的合并键 | `both` |

```py
In [73]: df1 = pd.DataFrame({"col1": [0, 1], "col_left": ["a", "b"]})

In [74]: df2 = pd.DataFrame({"col1": [1, 2, 2], "col_right": [2, 2, 2]})

In [75]: pd.merge(df1, df2, on="col1", how="outer", indicator=True)
Out[75]: 
 col1 col_left  col_right      _merge
0     0        a        NaN   left_only
1     1        b        2.0        both
2     2      NaN        2.0  right_only
3     2      NaN        2.0  right_only

字符串参数indicator将使用该值作为指示器列的名称。

In [76]: pd.merge(df1, df2, on="col1", how="outer", indicator="indicator_column")
Out[76]: 
 col1 col_left  col_right indicator_column
0     0        a        NaN        left_only
1     1        b        2.0             both
2     2      NaN        2.0       right_only
3     2      NaN        2.0       right_only

重叠值列

合并suffixes参数接受一个字符串列表的元组，用于附加到输入DataFrame中重叠列名以消除结果列的歧义：

In [77]: left = pd.DataFrame({"k": ["K0", "K1", "K2"], "v": [1, 2, 3]})

In [78]: right = pd.DataFrame({"k": ["K0", "K0", "K3"], "v": [4, 5, 6]})

In [79]: result = pd.merge(left, right, on="k")

In [80]: result
Out[80]: 
 k  v_x  v_y
0  K0    1    4
1  K0    1    5

In [81]: result = pd.merge(left, right, on="k", suffixes=("_l", "_r"))

In [82]: result
Out[82]: 
 k  v_l  v_r
0  K0    1    4
1  K0    1    5

`DataFrame.join()`

DataFrame.join()将多个可能具有不同索引的列的DataFrame合并为单个结果DataFrame。

In [83]: left = pd.DataFrame(
 ....:    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]}, index=["K0", "K1", "K2"]
 ....: )
 ....: 

In [84]: right = pd.DataFrame(
 ....:    {"C": ["C0", "C2", "C3"], "D": ["D0", "D2", "D3"]}, index=["K0", "K2", "K3"]
 ....: )
 ....: 

In [85]: result = left.join(right)

In [86]: result
Out[86]: 
 A   B    C    D
K0  A0  B0   C0   D0
K1  A1  B1  NaN  NaN
K2  A2  B2   C2   D2

In [87]: result = left.join(right, how="outer")

In [88]: result
Out[88]: 
 A    B    C    D
K0   A0   B0   C0   D0
K1   A1   B1  NaN  NaN
K2   A2   B2   C2   D2
K3  NaN  NaN   C3   D3

In [89]: result = left.join(right, how="inner")

In [90]: result
Out[90]: 
 A   B   C   D
K0  A0  B0  C0  D0
K2  A2  B2  C2  D2

DataFrame.join()接受一个可选的on参数，可以是要对齐的列或多个列名。

In [91]: left = pd.DataFrame(
 ....:    {
 ....:        "A": ["A0", "A1", "A2", "A3"],
 ....:        "B": ["B0", "B1", "B2", "B3"],
 ....:        "key": ["K0", "K1", "K0", "K1"],
 ....:    }
 ....: )
 ....: 

In [92]: right = pd.DataFrame({"C": ["C0", "C1"], "D": ["D0", "D1"]}, index=["K0", "K1"])

In [93]: result = left.join(right, on="key")

In [94]: result
Out[94]: 
 A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K0  C0  D0
3  A3  B3  K1  C1  D1

In [95]: result = pd.merge(
 ....:    left, right, left_on="key", right_index=True, how="left", sort=False
 ....: )
 ....: 

In [96]: result
Out[96]: 
 A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K0  C0  D0
3  A3  B3  K1  C1  D1

要在多个键上连接，传递的DataFrame必须具有MultiIndex:

In [97]: left = pd.DataFrame(
 ....:    {
 ....:        "A": ["A0", "A1", "A2", "A3"],
 ....:        "B": ["B0", "B1", "B2", "B3"],
 ....:        "key1": ["K0", "K0", "K1", "K2"],
 ....:        "key2": ["K0", "K1", "K0", "K1"],
 ....:    }
 ....: )
 ....: 

In [98]: index = pd.MultiIndex.from_tuples(
 ....:    [("K0", "K0"), ("K1", "K0"), ("K2", "K0"), ("K2", "K1")]
 ....: )
 ....: 

In [99]: right = pd.DataFrame(
 ....:    {"C": ["C0", "C1", "C2", "C3"], "D": ["D0", "D1", "D2", "D3"]}, index=index
 ....: )
 ....: 

In [100]: result = left.join(right, on=["key1", "key2"])

In [101]: result
Out[101]: 
 A   B key1 key2    C    D
0  A0  B0   K0   K0   C0   D0
1  A1  B1   K0   K1  NaN  NaN
2  A2  B2   K1   K0   C1   D1
3  A3  B3   K2   K1   C3   D3

DataFrame.join的默认行为是执行左连接，仅使用调用DataFrame中找到的键。其他连接类型可以通过how指定。

In [102]: result = left.join(right, on=["key1", "key2"], how="inner")

In [103]: result
Out[103]: 
 A   B key1 key2   C   D
0  A0  B0   K0   K0  C0  D0
2  A2  B2   K1   K0  C1  D1
3  A3  B3   K2   K1  C3  D3

### 将单个索引连接到多重索引

你可以将一个具有Index的DataFrame与具有MultiIndex的DataFrame在一个级别上连接。Index的name将与MultiIndex的级别名称匹配。

In [104]: left = pd.DataFrame(
 .....:    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]},
 .....:    index=pd.Index(["K0", "K1", "K2"], name="key"),
 .....: )
 .....: 

In [105]: index = pd.MultiIndex.from_tuples(
 .....:    [("K0", "Y0"), ("K1", "Y1"), ("K2", "Y2"), ("K2", "Y3")],
 .....:    names=["key", "Y"],
 .....: )
 .....: 

In [106]: right = pd.DataFrame(
 .....:    {"C": ["C0", "C1", "C2", "C3"], "D": ["D0", "D1", "D2", "D3"]},
 .....:    index=index,
 .....: )
 .....: 

In [107]: result = left.join(right, how="inner")

In [108]: result
Out[108]: 
 A   B   C   D
key Y 
K0  Y0  A0  B0  C0  D0
K1  Y1  A1  B1  C1  D1
K2  Y2  A2  B2  C2  D2
 Y3  A2  B2  C3  D3

### 与两个MultiIndex连接

输入参数的MultiIndex必须完全用于连接，并且是左参数中索引的子集。

In [109]: leftindex = pd.MultiIndex.from_product(
 .....:    [list("abc"), list("xy"), [1, 2]], names=["abc", "xy", "num"]
 .....: )
 .....: 

In [110]: left = pd.DataFrame({"v1": range(12)}, index=leftindex)

In [111]: left
Out[111]: 
 v1
abc xy num 
a   x  1     0
 2     1
 y  1     2
 2     3
b   x  1     4
 2     5
 y  1     6
 2     7
c   x  1     8
 2     9
 y  1    10
 2    11

In [112]: rightindex = pd.MultiIndex.from_product(
 .....:    [list("abc"), list("xy")], names=["abc", "xy"]
 .....: )
 .....: 

In [113]: right = pd.DataFrame({"v2": [100 * i for i in range(1, 7)]}, index=rightindex)

In [114]: right
Out[114]: 
 v2
abc xy 
a   x   100
 y   200
b   x   300
 y   400
c   x   500
 y   600

In [115]: left.join(right, on=["abc", "xy"], how="inner")
Out[115]: 
 v1   v2
abc xy num 
a   x  1     0  100
 2     1  100
 y  1     2  200
 2     3  200
b   x  1     4  300
 2     5  300
 y  1     6  400
 2     7  400
c   x  1     8  500
 2     9  500
 y  1    10  600
 2    11  600

In [116]: leftindex = pd.MultiIndex.from_tuples(
 .....:    [("K0", "X0"), ("K0", "X1"), ("K1", "X2")], names=["key", "X"]
 .....: )
 .....: 

In [117]: left = pd.DataFrame(
 .....:    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]}, index=leftindex
 .....: )
 .....: 

In [118]: rightindex = pd.MultiIndex.from_tuples(
 .....:    [("K0", "Y0"), ("K1", "Y1"), ("K2", "Y2"), ("K2", "Y3")], names=["key", "Y"]
 .....: )
 .....: 

In [119]: right = pd.DataFrame(
 .....:    {"C": ["C0", "C1", "C2", "C3"], "D": ["D0", "D1", "D2", "D3"]}, index=rightindex
 .....: )
 .....: 

In [120]: result = pd.merge(
 .....:    left.reset_index(), right.reset_index(), on=["key"], how="inner"
 .....: ).set_index(["key", "X", "Y"])
 .....: 

In [121]: result
Out[121]: 
 A   B   C   D
key X  Y 
K0  X0 Y0  A0  B0  C0  D0
 X1 Y0  A1  B1  C0  D0
K1  X2 Y1  A2  B2  C1  D1

### 在列和索引级别的组合上合并

作为on、left_on和right_on参数传递的字符串可以引用列名或索引级别名。这使得在不重置索引的情况下，可以在索引级别和列的组合上合并DataFrame实例。

In [122]: left_index = pd.Index(["K0", "K0", "K1", "K2"], name="key1")

In [123]: left = pd.DataFrame(
 .....:    {
 .....:        "A": ["A0", "A1", "A2", "A3"],
 .....:        "B": ["B0", "B1", "B2", "B3"],
 .....:        "key2": ["K0", "K1", "K0", "K1"],
 .....:    },
 .....:    index=left_index,
 .....: )
 .....: 

In [124]: right_index = pd.Index(["K0", "K1", "K2", "K2"], name="key1")

In [125]: right = pd.DataFrame(
 .....:    {
 .....:        "C": ["C0", "C1", "C2", "C3"],
 .....:        "D": ["D0", "D1", "D2", "D3"],
 .....:        "key2": ["K0", "K0", "K0", "K1"],
 .....:    },
 .....:    index=right_index,
 .....: )
 .....: 

In [126]: result = left.merge(right, on=["key1", "key2"])

In [127]: result
Out[127]: 
 A   B key2   C   D
key1 
K0    A0  B0   K0  C0  D0
K1    A2  B2   K0  C1  D1
K2    A3  B3   K1  C3  D3

注意

当DataFrame在匹配两个参数中的索引级别的字符串上进行连接时，索引级别将保留为结果DataFrame中的索引级别。

注意

当只使用MultiIndex的一些级别连接DataFrame时，多余的级别将从结果连接中删除。要保留这些级别，请在连接之前对这些级别名称使用DataFrame.reset_index()将这些级别移动到列中。 ### 连接多个DataFrame

也可以将DataFrame的列表或元组传递给join()，以在它们的索引上将它们连接在一起。

In [128]: right2 = pd.DataFrame({"v": [7, 8, 9]}, index=["K1", "K1", "K2"])

In [129]: result = left.join([right, right2])

### DataFrame.combine_first()

DataFrame.combine_first() 用另一个DataFrame中的非缺失值更新一个DataFrame中的缺失值，位置对应。

In [130]: df1 = pd.DataFrame(
 .....:    [[np.nan, 3.0, 5.0], [-4.6, np.nan, np.nan], [np.nan, 7.0, np.nan]]
 .....: )
 .....: 

In [131]: df2 = pd.DataFrame([[-42.6, np.nan, -8.2], [-5.0, 1.6, 4]], index=[1, 2])

In [132]: result = df1.combine_first(df2)

In [133]: result
Out[133]: 
 0    1    2
0  NaN  3.0  5.0
1 -4.6  NaN -8.2
2 -5.0  7.0  4.0

## merge_ordered()

merge_ordered() 将有序数据（如数值或时间序列数据）与可选的使用fill_method填充缺失数据合并。

In [134]: left = pd.DataFrame(
 .....:    {"k": ["K0", "K1", "K1", "K2"], "lv": [1, 2, 3, 4], "s": ["a", "b", "c", "d"]}
 .....: )
 .....: 

In [135]: right = pd.DataFrame({"k": ["K1", "K2", "K4"], "rv": [1, 2, 3]})

In [136]: pd.merge_ordered(left, right, fill_method="ffill", left_by="s")
Out[136]: 
 k   lv  s   rv
0   K0  1.0  a  NaN
1   K1  1.0  a  1.0
2   K2  1.0  a  2.0
3   K4  1.0  a  3.0
4   K1  2.0  b  1.0
5   K2  2.0  b  2.0
6   K4  2.0  b  3.0
7   K1  3.0  c  1.0
8   K2  3.0  c  2.0
9   K4  3.0  c  3.0
10  K1  NaN  d  1.0
11  K2  4.0  d  2.0
12  K4  4.0  d  3.0 
```  ## `merge_asof()`

`merge_asof()` 类似于有序的左连接，不同之处在于匹配的是最近的键而不是相等的键。对于`left` `DataFrame`中的每一行，选择`right` `DataFrame`中最后一行，其中`on`键小于左侧的键。两个`DataFrame`必须按键排序。

可选地，`merge_asof()`可以通过在`by`键上匹配来执行分组合并，同时在`on`键上找到最近的匹配。

```py
In [137]: trades = pd.DataFrame(
 .....:    {
 .....:        "time": pd.to_datetime(
 .....:            [
 .....:                "20160525 13:30:00.023",
 .....:                "20160525 13:30:00.038",
 .....:                "20160525 13:30:00.048",
 .....:                "20160525 13:30:00.048",
 .....:                "20160525 13:30:00.048",
 .....:            ]
 .....:        ),
 .....:        "ticker": ["MSFT", "MSFT", "GOOG", "GOOG", "AAPL"],
 .....:        "price": [51.95, 51.95, 720.77, 720.92, 98.00],
 .....:        "quantity": [75, 155, 100, 100, 100],
 .....:    },
 .....:    columns=["time", "ticker", "price", "quantity"],
 .....: )
 .....: 

In [138]: quotes = pd.DataFrame(
 .....:    {
 .....:        "time": pd.to_datetime(
 .....:            [
 .....:                "20160525 13:30:00.023",
 .....:                "20160525 13:30:00.023",
 .....:                "20160525 13:30:00.030",
 .....:                "20160525 13:30:00.041",
 .....:                "20160525 13:30:00.048",
 .....:                "20160525 13:30:00.049",
 .....:                "20160525 13:30:00.072",
 .....:                "20160525 13:30:00.075",
 .....:            ]
 .....:        ),
 .....:        "ticker": ["GOOG", "MSFT", "MSFT", "MSFT", "GOOG", "AAPL", "GOOG", "MSFT"],
 .....:        "bid": [720.50, 51.95, 51.97, 51.99, 720.50, 97.99, 720.50, 52.01],
 .....:        "ask": [720.93, 51.96, 51.98, 52.00, 720.93, 98.01, 720.88, 52.03],
 .....:    },
 .....:    columns=["time", "ticker", "bid", "ask"],
 .....: )
 .....: 

In [139]: trades
Out[139]: 
 time ticker   price  quantity
0 2016-05-25 13:30:00.023   MSFT   51.95        75
1 2016-05-25 13:30:00.038   MSFT   51.95       155
2 2016-05-25 13:30:00.048   GOOG  720.77       100
3 2016-05-25 13:30:00.048   GOOG  720.92       100
4 2016-05-25 13:30:00.048   AAPL   98.00       100

In [140]: quotes
Out[140]: 
 time ticker     bid     ask
0 2016-05-25 13:30:00.023   GOOG  720.50  720.93
1 2016-05-25 13:30:00.023   MSFT   51.95   51.96
2 2016-05-25 13:30:00.030   MSFT   51.97   51.98
3 2016-05-25 13:30:00.041   MSFT   51.99   52.00
4 2016-05-25 13:30:00.048   GOOG  720.50  720.93
5 2016-05-25 13:30:00.049   AAPL   97.99   98.01
6 2016-05-25 13:30:00.072   GOOG  720.50  720.88
7 2016-05-25 13:30:00.075   MSFT   52.01   52.03

In [141]: pd.merge_asof(trades, quotes, on="time", by="ticker")
Out[141]: 
 time ticker   price  quantity     bid     ask
0 2016-05-25 13:30:00.023   MSFT   51.95        75   51.95   51.96
1 2016-05-25 13:30:00.038   MSFT   51.95       155   51.97   51.98
2 2016-05-25 13:30:00.048   GOOG  720.77       100  720.50  720.93
3 2016-05-25 13:30:00.048   GOOG  720.92       100  720.50  720.93
4 2016-05-25 13:30:00.048   AAPL   98.00       100     NaN     NaN

merge_asof() 在报价时间和交易时间之间的2ms内合并。

In [142]: pd.merge_asof(trades, quotes, on="time", by="ticker", tolerance=pd.Timedelta("2ms"))
Out[142]: 
 time ticker   price  quantity     bid     ask
0 2016-05-25 13:30:00.023   MSFT   51.95        75   51.95   51.96
1 2016-05-25 13:30:00.038   MSFT   51.95       155     NaN     NaN
2 2016-05-25 13:30:00.048   GOOG  720.77       100  720.50  720.93
3 2016-05-25 13:30:00.048   GOOG  720.92       100  720.50  720.93
4 2016-05-25 13:30:00.048   AAPL   98.00       100     NaN     NaN

merge_asof() 在报价时间和交易时间之间的10ms内合并，并排除时间上的精确匹配。请注意，尽管我们排除了精确匹配（报价），但之前的报价确实传播到那个时间点。

In [143]: pd.merge_asof(
 .....:    trades,
 .....:    quotes,
 .....:    on="time",
 .....:    by="ticker",
 .....:    tolerance=pd.Timedelta("10ms"),
 .....:    allow_exact_matches=False,
 .....: )
 .....: 
Out[143]: 
 time ticker   price  quantity    bid    ask
0 2016-05-25 13:30:00.023   MSFT   51.95        75    NaN    NaN
1 2016-05-25 13:30:00.038   MSFT   51.95       155  51.97  51.98
2 2016-05-25 13:30:00.048   GOOG  720.77       100    NaN    NaN
3 2016-05-25 13:30:00.048   GOOG  720.92       100    NaN    NaN
4 2016-05-25 13:30:00.048   AAPL   98.00       100    NaN    NaN 
```  ## `compare()`

`Series.compare()` 和 `DataFrame.compare()` 方法允许您比较两个分别是`DataFrame`或`Series`的对象，并总结它们的差异。

```py
In [144]: df = pd.DataFrame(
 .....:    {
 .....:        "col1": ["a", "a", "b", "b", "a"],
 .....:        "col2": [1.0, 2.0, 3.0, np.nan, 5.0],
 .....:        "col3": [1.0, 2.0, 3.0, 4.0, 5.0],
 .....:    },
 .....:    columns=["col1", "col2", "col3"],
 .....: )
 .....: 

In [145]: df
Out[145]: 
 col1  col2  col3
0    a   1.0   1.0
1    a   2.0   2.0
2    b   3.0   3.0
3    b   NaN   4.0
4    a   5.0   5.0

In [146]: df2 = df.copy()

In [147]: df2.loc[0, "col1"] = "c"

In [148]: df2.loc[2, "col3"] = 4.0

In [149]: df2
Out[149]: 
 col1  col2  col3
0    c   1.0   1.0
1    a   2.0   2.0
2    b   3.0   4.0
3    b   NaN   4.0
4    a   5.0   5.0

In [150]: df.compare(df2)
Out[150]: 
 col1       col3 
 self other self other
0    a     c  NaN   NaN
2  NaN   NaN  3.0   4.0

默认情况下，如果两个对应的值相等，它们将显示为NaN。此外，如果整行/列中的所有值都相等，则该行/列将从结果中省略。剩余的差异将对齐在列上。

在行上堆叠差异。

In [151]: df.compare(df2, align_axis=0)
Out[151]: 
 col1  col3
0 self     a   NaN
 other    c   NaN
2 self   NaN   3.0
 other  NaN   4.0

保持所有原始行和列，使用keep_shape=True。

In [152]: df.compare(df2, keep_shape=True)
Out[152]: 
 col1       col2       col3 
 self other self other self other
0    a     c  NaN   NaN  NaN   NaN
1  NaN   NaN  NaN   NaN  NaN   NaN
2  NaN   NaN  NaN   NaN  3.0   4.0
3  NaN   NaN  NaN   NaN  NaN   NaN
4  NaN   NaN  NaN   NaN  NaN   NaN

保留所有原始值，即使它们相等。

In [153]: df.compare(df2, keep_shape=True, keep_equal=True)
Out[153]: 
 col1       col2       col3 
 self other self other self other
0    a     c  1.0   1.0  1.0   1.0
1    a     a  2.0   2.0  2.0   2.0
2    b     b  3.0   3.0  3.0   4.0
3    b     b  NaN   NaN  4.0   4.0
4    a     a  5.0   5.0  5.0   5.0 
```  ## `concat()`

`concat()`函数沿着一个轴连接任意数量的`Series`或`DataFrame`对象，同时在其他轴上执行可选的集合逻辑（并集或交集）索引。像`numpy.concatenate`一样，`concat()`接受同类型对象的列表或字典，并将它们连接起来。

```py
In [1]: df1 = pd.DataFrame(
 ...:    {
 ...:        "A": ["A0", "A1", "A2", "A3"],
 ...:        "B": ["B0", "B1", "B2", "B3"],
 ...:        "C": ["C0", "C1", "C2", "C3"],
 ...:        "D": ["D0", "D1", "D2", "D3"],
 ...:    },
 ...:    index=[0, 1, 2, 3],
 ...: )
 ...: 

In [2]: df2 = pd.DataFrame(
 ...:    {
 ...:        "A": ["A4", "A5", "A6", "A7"],
 ...:        "B": ["B4", "B5", "B6", "B7"],
 ...:        "C": ["C4", "C5", "C6", "C7"],
 ...:        "D": ["D4", "D5", "D6", "D7"],
 ...:    },
 ...:    index=[4, 5, 6, 7],
 ...: )
 ...: 

In [3]: df3 = pd.DataFrame(
 ...:    {
 ...:        "A": ["A8", "A9", "A10", "A11"],
 ...:        "B": ["B8", "B9", "B10", "B11"],
 ...:        "C": ["C8", "C9", "C10", "C11"],
 ...:        "D": ["D8", "D9", "D10", "D11"],
 ...:    },
 ...:    index=[8, 9, 10, 11],
 ...: )
 ...: 

In [4]: frames = [df1, df2, df3]

In [5]: result = pd.concat(frames)

In [6]: result
Out[6]: 
 A    B    C    D
0    A0   B0   C0   D0
1    A1   B1   C1   D1
2    A2   B2   C2   D2
3    A3   B3   C3   D3
4    A4   B4   C4   D4
5    A5   B5   C5   D5
6    A6   B6   C6   D6
7    A7   B7   C7   D7
8    A8   B8   C8   D8
9    A9   B9   C9   D9
10  A10  B10  C10  D10
11  A11  B11  C11  D11

注意

frames = [process_your_file(f) for f in files]
result = pd.concat(frames)

注意

当连接具有命名轴的DataFrame时，pandas 会尽可能保留这些索引/列名称。在所有输入共享一个公共名称的情况下，该名称将分配给结果。当输入名称不完全一致时，结果将不具有名称。对于MultiIndex也是如此，但逻辑是逐级别分别应用的。

结果轴的连接逻辑

join关键字指定如何处理第一个DataFrame中不存在的轴值。

join='outer'取所有轴值的并集

In [7]: df4 = pd.DataFrame(
 ...:    {
 ...:        "B": ["B2", "B3", "B6", "B7"],
 ...:        "D": ["D2", "D3", "D6", "D7"],
 ...:        "F": ["F2", "F3", "F6", "F7"],
 ...:    },
 ...:    index=[2, 3, 6, 7],
 ...: )
 ...: 

In [8]: result = pd.concat([df1, df4], axis=1)

In [9]: result
Out[9]: 
 A    B    C    D    B    D    F
0   A0   B0   C0   D0  NaN  NaN  NaN
1   A1   B1   C1   D1  NaN  NaN  NaN
2   A2   B2   C2   D2   B2   D2   F2
3   A3   B3   C3   D3   B3   D3   F3
6  NaN  NaN  NaN  NaN   B6   D6   F6
7  NaN  NaN  NaN  NaN   B7   D7   F7

join='inner'取轴值的交集

In [10]: result = pd.concat([df1, df4], axis=1, join="inner")

In [11]: result
Out[11]: 
 A   B   C   D   B   D   F
2  A2  B2  C2  D2  B2  D2  F2
3  A3  B3  C3  D3  B3  D3  F3

要使用原始DataFrame的精确索引执行有效的“左连接”，结果可以重新索引。

In [12]: result = pd.concat([df1, df4], axis=1).reindex(df1.index)

In [13]: result
Out[13]: 
 A   B   C   D    B    D    F
0  A0  B0  C0  D0  NaN  NaN  NaN
1  A1  B1  C1  D1  NaN  NaN  NaN
2  A2  B2  C2  D2   B2   D2   F2
3  A3  B3  C3  D3   B3   D3   F3

### 在连接轴上忽略索引

对于没有有意义索引的DataFrame对象，ignore_index会忽略重叠的索引。

In [14]: result = pd.concat([df1, df4], ignore_index=True, sort=False)

In [15]: result
Out[15]: 
 A   B    C   D    F
0   A0  B0   C0  D0  NaN
1   A1  B1   C1  D1  NaN
2   A2  B2   C2  D2  NaN
3   A3  B3   C3  D3  NaN
4  NaN  B2  NaN  D2   F2
5  NaN  B3  NaN  D3   F3
6  NaN  B6  NaN  D6   F6
7  NaN  B7  NaN  D7   F7

### 将Series和DataFrame连接在一起

你可以连接一组Series和DataFrame对象。Series将被转换为DataFrame，列名为Series的名称。

In [16]: s1 = pd.Series(["X0", "X1", "X2", "X3"], name="X")

In [17]: result = pd.concat([df1, s1], axis=1)

In [18]: result
Out[18]: 
 A   B   C   D   X
0  A0  B0  C0  D0  X0
1  A1  B1  C1  D1  X1
2  A2  B2  C2  D2  X2
3  A3  B3  C3  D3  X3

未命名的Series将按顺序编号。

In [19]: s2 = pd.Series(["_0", "_1", "_2", "_3"])

In [20]: result = pd.concat([df1, s2, s2, s2], axis=1)

In [21]: result
Out[21]: 
 A   B   C   D   0   1   2
0  A0  B0  C0  D0  _0  _0  _0
1  A1  B1  C1  D1  _1  _1  _1
2  A2  B2  C2  D2  _2  _2  _2
3  A3  B3  C3  D3  _3  _3  _3

ignore_index=True将删除所有名称引用。

In [22]: result = pd.concat([df1, s1], axis=1, ignore_index=True)

In [23]: result
Out[23]: 
 0   1   2   3   4
0  A0  B0  C0  D0  X0
1  A1  B1  C1  D1  X1
2  A2  B2  C2  D2  X2
3  A3  B3  C3  D3  X3

结果的`keys`

keys参数会为结果的索引或列添加另一个轴级别（创建一个MultiIndex），将特定键与每个原始DataFrame关联起来。

In [24]: result = pd.concat(frames, keys=["x", "y", "z"])

In [25]: result
Out[25]: 
 A    B    C    D
x 0    A0   B0   C0   D0
 1    A1   B1   C1   D1
 2    A2   B2   C2   D2
 3    A3   B3   C3   D3
y 4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7
z 8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11

In [26]: result.loc["y"]
Out[26]: 
 A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7

keys参数可以在基于现有Series创建新DataFrame时覆盖列名。

In [27]: s3 = pd.Series([0, 1, 2, 3], name="foo")

In [28]: s4 = pd.Series([0, 1, 2, 3])

In [29]: s5 = pd.Series([0, 1, 4, 5])

In [30]: pd.concat([s3, s4, s5], axis=1)
Out[30]: 
 foo  0  1
0    0  0  0
1    1  1  1
2    2  2  4
3    3  3  5

In [31]: pd.concat([s3, s4, s5], axis=1, keys=["red", "blue", "yellow"])
Out[31]: 
 red  blue  yellow
0    0     0       0
1    1     1       1
2    2     2       4
3    3     3       5

你也可以向concat()传递一个字典，此时字典键将用于keys参数，除非指定了其他keys参数：

In [32]: pieces = {"x": df1, "y": df2, "z": df3}

In [33]: result = pd.concat(pieces)

In [34]: result
Out[34]: 
 A    B    C    D
x 0    A0   B0   C0   D0
 1    A1   B1   C1   D1
 2    A2   B2   C2   D2
 3    A3   B3   C3   D3
y 4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7
z 8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11

In [35]: result = pd.concat(pieces, keys=["z", "y"])

In [36]: result
Out[36]: 
 A    B    C    D
z 8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11
y 4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7

创建的MultiIndex具有从传递的键和DataFrame片段的索引构建的级别：

In [37]: result.index.levels
Out[37]: FrozenList([['z', 'y'], [4, 5, 6, 7, 8, 9, 10, 11]])

levels参数允许指定与keys关联的结果级别

In [38]: result = pd.concat(
 ....:    pieces, keys=["x", "y", "z"], levels=[["z", "y", "x", "w"]], names=["group_key"]
 ....: )
 ....: 

In [39]: result
Out[39]: 
 A    B    C    D
group_key 
x         0    A0   B0   C0   D0
 1    A1   B1   C1   D1
 2    A2   B2   C2   D2
 3    A3   B3   C3   D3
y         4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7
z         8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11

In [40]: result.index.levels
Out[40]: FrozenList([['z', 'y', 'x', 'w'], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]])

将行附加到`DataFrame`

如果您有一个想要附加为单行到DataFrame的Series，您可以将行转换为DataFrame并使用concat()

In [41]: s2 = pd.Series(["X0", "X1", "X2", "X3"], index=["A", "B", "C", "D"])

In [42]: result = pd.concat([df1, s2.to_frame().T], ignore_index=True)

In [43]: result
Out[43]: 
 A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
4  X0  X1  X2  X3

结果轴的连接逻辑

join 关键字指定如何处理第一个DataFrame中不存在的轴值。

join='outer'取所有轴值的并集

In [7]: df4 = pd.DataFrame(
 ...:    {
 ...:        "B": ["B2", "B3", "B6", "B7"],
 ...:        "D": ["D2", "D3", "D6", "D7"],
 ...:        "F": ["F2", "F3", "F6", "F7"],
 ...:    },
 ...:    index=[2, 3, 6, 7],
 ...: )
 ...: 

In [8]: result = pd.concat([df1, df4], axis=1)

In [9]: result
Out[9]: 
 A    B    C    D    B    D    F
0   A0   B0   C0   D0  NaN  NaN  NaN
1   A1   B1   C1   D1  NaN  NaN  NaN
2   A2   B2   C2   D2   B2   D2   F2
3   A3   B3   C3   D3   B3   D3   F3
6  NaN  NaN  NaN  NaN   B6   D6   F6
7  NaN  NaN  NaN  NaN   B7   D7   F7

join='inner'取轴值的交集

In [10]: result = pd.concat([df1, df4], axis=1, join="inner")

In [11]: result
Out[11]: 
 A   B   C   D   B   D   F
2  A2  B2  C2  D2  B2  D2  F2
3  A3  B3  C3  D3  B3  D3  F3

要使用原始DataFrame的确切索引执行有效的“左”连接，结果可以重新索引。

In [12]: result = pd.concat([df1, df4], axis=1).reindex(df1.index)

In [13]: result
Out[13]: 
 A   B   C   D    B    D    F
0  A0  B0  C0  D0  NaN  NaN  NaN
1  A1  B1  C1  D1  NaN  NaN  NaN
2  A2  B2  C2  D2   B2   D2   F2
3  A3  B3  C3  D3   B3   D3   F3

### 在连接轴上忽略索引

对于没有有意义索引的DataFrame对象，ignore_index会忽略重叠的索引。

In [14]: result = pd.concat([df1, df4], ignore_index=True, sort=False)

In [15]: result
Out[15]: 
 A   B    C   D    F
0   A0  B0   C0  D0  NaN
1   A1  B1   C1  D1  NaN
2   A2  B2   C2  D2  NaN
3   A3  B3   C3  D3  NaN
4  NaN  B2  NaN  D2   F2
5  NaN  B3  NaN  D3   F3
6  NaN  B6  NaN  D6   F6
7  NaN  B7  NaN  D7   F7

### 将Series和DataFrame连接在一起

您可以连接一组Series和DataFrame对象。Series将转换为具有列名的DataFrame，列名为Series的名称。

In [16]: s1 = pd.Series(["X0", "X1", "X2", "X3"], name="X")

In [17]: result = pd.concat([df1, s1], axis=1)

In [18]: result
Out[18]: 
 A   B   C   D   X
0  A0  B0  C0  D0  X0
1  A1  B1  C1  D1  X1
2  A2  B2  C2  D2  X2
3  A3  B3  C3  D3  X3

未命名的Series将按顺序编号。

In [19]: s2 = pd.Series(["_0", "_1", "_2", "_3"])

In [20]: result = pd.concat([df1, s2, s2, s2], axis=1)

In [21]: result
Out[21]: 
 A   B   C   D   0   1   2
0  A0  B0  C0  D0  _0  _0  _0
1  A1  B1  C1  D1  _1  _1  _1
2  A2  B2  C2  D2  _2  _2  _2
3  A3  B3  C3  D3  _3  _3  _3

ignore_index=True将删除所有名称引用。

In [22]: result = pd.concat([df1, s1], axis=1, ignore_index=True)

In [23]: result
Out[23]: 
 0   1   2   3   4
0  A0  B0  C0  D0  X0
1  A1  B1  C1  D1  X1
2  A2  B2  C2  D2  X2
3  A3  B3  C3  D3  X3

结果`keys`

keys参数将另一个轴级别添加到结果索引或列（创建一个MultiIndex），将特定键与每个原始DataFrame关联起来。

In [24]: result = pd.concat(frames, keys=["x", "y", "z"])

In [25]: result
Out[25]: 
 A    B    C    D
x 0    A0   B0   C0   D0
 1    A1   B1   C1   D1
 2    A2   B2   C2   D2
 3    A3   B3   C3   D3
y 4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7
z 8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11

In [26]: result.loc["y"]
Out[26]: 
 A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7

keys参数可以在基于现有Series创建新DataFrame时覆盖列名。

In [27]: s3 = pd.Series([0, 1, 2, 3], name="foo")

In [28]: s4 = pd.Series([0, 1, 2, 3])

In [29]: s5 = pd.Series([0, 1, 4, 5])

In [30]: pd.concat([s3, s4, s5], axis=1)
Out[30]: 
 foo  0  1
0    0  0  0
1    1  1  1
2    2  2  4
3    3  3  5

In [31]: pd.concat([s3, s4, s5], axis=1, keys=["red", "blue", "yellow"])
Out[31]: 
 red  blue  yellow
0    0     0       0
1    1     1       1
2    2     2       4
3    3     3       5

你也可以将字典传递给concat()，在这种情况下，除非指定了其他keys参数，否则字典键将用于keys参数：

In [32]: pieces = {"x": df1, "y": df2, "z": df3}

In [33]: result = pd.concat(pieces)

In [34]: result
Out[34]: 
 A    B    C    D
x 0    A0   B0   C0   D0
 1    A1   B1   C1   D1
 2    A2   B2   C2   D2
 3    A3   B3   C3   D3
y 4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7
z 8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11

In [35]: result = pd.concat(pieces, keys=["z", "y"])

In [36]: result
Out[36]: 
 A    B    C    D
z 8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11
y 4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7

创建的MultiIndex具有从传递的键和DataFrame片段的索引构造的级别：

In [37]: result.index.levels
Out[37]: FrozenList([['z', 'y'], [4, 5, 6, 7, 8, 9, 10, 11]])

levels参数允许指定与keys关联的结果级别

In [38]: result = pd.concat(
 ....:    pieces, keys=["x", "y", "z"], levels=[["z", "y", "x", "w"]], names=["group_key"]
 ....: )
 ....: 

In [39]: result
Out[39]: 
 A    B    C    D
group_key 
x         0    A0   B0   C0   D0
 1    A1   B1   C1   D1
 2    A2   B2   C2   D2
 3    A3   B3   C3   D3
y         4    A4   B4   C4   D4
 5    A5   B5   C5   D5
 6    A6   B6   C6   D6
 7    A7   B7   C7   D7
z         8    A8   B8   C8   D8
 9    A9   B9   C9   D9
 10  A10  B10  C10  D10
 11  A11  B11  C11  D11

In [40]: result.index.levels
Out[40]: FrozenList([['z', 'y', 'x', 'w'], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]])

将行附加到`DataFrame`

如果你有一个要附加为单行到DataFrame的Series，你可以将该行转换为DataFrame并使用concat()

In [41]: s2 = pd.Series(["X0", "X1", "X2", "X3"], index=["A", "B", "C", "D"])

In [42]: result = pd.concat([df1, s2.to_frame().T], ignore_index=True)

In [43]: result
Out[43]: 
 A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
4  X0  X1  X2  X3

## merge()

merge()执行类似于关系数据库（如 SQL）的连接操作。熟悉 SQL 但是对 pandas 新手的用户可以参考与 SQL 的比较。

合并类型

merge()实现常见的 SQL 风格连接操作。

一对一：在它们的索引上连接两个DataFrame对象，这些索引必须包含唯一值。
多对一：将唯一索引与不同DataFrame中的一个或多个列连接。
多对多：在列上进行列连接。

注意

当在列上进行列连接时，可能是多对多的连接，传递的DataFrame对象上的任何索引将被丢弃。

对于多对多连接，如果一个键组合在两个表中出现多次，则DataFrame将具有相关数据的笛卡尔积。

In [44]: left = pd.DataFrame(
 ....:    {
 ....:        "key": ["K0", "K1", "K2", "K3"],
 ....:        "A": ["A0", "A1", "A2", "A3"],
 ....:        "B": ["B0", "B1", "B2", "B3"],
 ....:    }
 ....: )
 ....: 

In [45]: right = pd.DataFrame(
 ....:    {
 ....:        "key": ["K0", "K1", "K2", "K3"],
 ....:        "C": ["C0", "C1", "C2", "C3"],
 ....:        "D": ["D0", "D1", "D2", "D3"],
 ....:    }
 ....: )
 ....: 

In [46]: result = pd.merge(left, right, on="key")

In [47]: result
Out[47]: 
 key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2
3  K3  A3  B3  C3  D3

merge()的how参数指定了包含在结果表中的键。如果一个键组合不存在于左表或右表中，那么连接表中的值将为NA。以下是how选项及其 SQL 等效名称的摘要：

合并方法	SQL 连接名称	描述
`left`	`LEFT OUTER JOIN`	仅使用左侧框架的键
`right`	`RIGHT OUTER JOIN`	仅使用右侧框架的键
`outer`	`FULL OUTER JOIN`	使用两个框架的键的并集
`inner`	`INNER JOIN`	使用两个框架键的交集
`cross`	`CROSS JOIN`	创建两个框架行的笛卡尔积

In [48]: left = pd.DataFrame(
 ....:   {
 ....:      "key1": ["K0", "K0", "K1", "K2"],
 ....:      "key2": ["K0", "K1", "K0", "K1"],
 ....:      "A": ["A0", "A1", "A2", "A3"],
 ....:      "B": ["B0", "B1", "B2", "B3"],
 ....:   }
 ....: )
 ....: 

In [49]: right = pd.DataFrame(
 ....:   {
 ....:      "key1": ["K0", "K1", "K1", "K2"],
 ....:      "key2": ["K0", "K0", "K0", "K0"],
 ....:      "C": ["C0", "C1", "C2", "C3"],
 ....:      "D": ["D0", "D1", "D2", "D3"],
 ....:   }
 ....: )
 ....: 

In [50]: result = pd.merge(left, right, how="left", on=["key1", "key2"])

In [51]: result
Out[51]: 
 key1 key2   A   B    C    D
0   K0   K0  A0  B0   C0   D0
1   K0   K1  A1  B1  NaN  NaN
2   K1   K0  A2  B2   C1   D1
3   K1   K0  A2  B2   C2   D2
4   K2   K1  A3  B3  NaN  NaN

In [52]: result = pd.merge(left, right, how="right", on=["key1", "key2"])

In [53]: result
Out[53]: 
 key1 key2    A    B   C   D
0   K0   K0   A0   B0  C0  D0
1   K1   K0   A2   B2  C1  D1
2   K1   K0   A2   B2  C2  D2
3   K2   K0  NaN  NaN  C3  D3

In [54]: result = pd.merge(left, right, how="outer", on=["key1", "key2"])

In [55]: result
Out[55]: 
 key1 key2    A    B    C    D
0   K0   K0   A0   B0   C0   D0
1   K0   K1   A1   B1  NaN  NaN
2   K1   K0   A2   B2   C1   D1
3   K1   K0   A2   B2   C2   D2
4   K2   K0  NaN  NaN   C3   D3
5   K2   K1   A3   B3  NaN  NaN

In [56]: result = pd.merge(left, right, how="inner", on=["key1", "key2"])

In [57]: result
Out[57]: 
 key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2

In [58]: result = pd.merge(left, right, how="cross")

In [59]: result
Out[59]: 
 key1_x key2_x   A   B key1_y key2_y   C   D
0      K0     K0  A0  B0     K0     K0  C0  D0
1      K0     K0  A0  B0     K1     K0  C1  D1
2      K0     K0  A0  B0     K1     K0  C2  D2
3      K0     K0  A0  B0     K2     K0  C3  D3
4      K0     K1  A1  B1     K0     K0  C0  D0
..    ...    ...  ..  ..    ...    ...  ..  ..
11     K1     K0  A2  B2     K2     K0  C3  D3
12     K2     K1  A3  B3     K0     K0  C0  D0
13     K2     K1  A3  B3     K1     K0  C1  D1
14     K2     K1  A3  B3     K1     K0  C2  D2
15     K2     K1  A3  B3     K2     K0  C3  D3

[16 rows x 8 columns]

如果MultiIndex的名称与DataFrame的列对应，则可以使用Series.reset_index()将Series转换为DataFrame，然后再进行合并。

In [60]: df = pd.DataFrame({"Let": ["A", "B", "C"], "Num": [1, 2, 3]})

In [61]: df
Out[61]: 
 Let  Num
0   A    1
1   B    2
2   C    3

In [62]: ser = pd.Series(
 ....:    ["a", "b", "c", "d", "e", "f"],
 ....:    index=pd.MultiIndex.from_arrays(
 ....:        [["A", "B", "C"] * 2, [1, 2, 3, 4, 5, 6]], names=["Let", "Num"]
 ....:    ),
 ....: )
 ....: 

In [63]: ser
Out[63]: 
Let  Num
A    1      a
B    2      b
C    3      c
A    4      d
B    5      e
C    6      f
dtype: object

In [64]: pd.merge(df, ser.reset_index(), on=["Let", "Num"])
Out[64]: 
 Let  Num  0
0   A    1  a
1   B    2  b
2   C    3  c

在DataFrame中具有重复连接键执行外连接

In [65]: left = pd.DataFrame({"A": [1, 2], "B": [2, 2]})

In [66]: right = pd.DataFrame({"A": [4, 5, 6], "B": [2, 2, 2]})

In [67]: result = pd.merge(left, right, on="B", how="outer")

In [68]: result
Out[68]: 
 A_x  B  A_y
0    1  2    4
1    1  2    5
2    1  2    6
3    2  2    4
4    2  2    5
5    2  2    6

警告

在重复键上合并会显著增加结果的维度，并可能导致内存溢出。

合并键的唯一性

validate 参数检查合并键的唯一性。在合并操作之前检查键的唯一性，可以防止内存溢出和意外键重复。

In [69]: left = pd.DataFrame({"A": [1, 2], "B": [1, 2]})

In [70]: right = pd.DataFrame({"A": [4, 5, 6], "B": [2, 2, 2]})

In [71]: result = pd.merge(left, right, on="B", how="outer", validate="one_to_one")
---------------------------------------------------------------------------
MergeError  Traceback (most recent call last)
Cell In[71], line 1
----> 1 result = pd.merge(left, right, on="B", how="outer", validate="one_to_one")

File ~/work/pandas/pandas/pandas/core/reshape/merge.py:170, in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
  155     return _cross_merge(
  156         left_df,
  157         right_df,
   (...)
  167         copy=copy,
  168     )
  169 else:
--> 170     op = _MergeOperation(
  171         left_df,
  172         right_df,
  173         how=how,
  174         on=on,
  175         left_on=left_on,
  176         right_on=right_on,
  177         left_index=left_index,
  178         right_index=right_index,
  179         sort=sort,
  180         suffixes=suffixes,
  181         indicator=indicator,
  182         validate=validate,
  183     )
  184     return op.get_result(copy=copy)

File ~/work/pandas/pandas/pandas/core/reshape/merge.py:813, in _MergeOperation.__init__(self, left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, indicator, validate)
  809 # If argument passed to validate,
  810 # check if columns specified as unique
  811 # are in fact unique.
  812 if validate is not None:
--> 813     self._validate_validate_kwd(validate)

File ~/work/pandas/pandas/pandas/core/reshape/merge.py:1657, in _MergeOperation._validate_validate_kwd(self, validate)
  1653         raise MergeError(
  1654             "Merge keys are not unique in left dataset; not a one-to-one merge"
  1655         )
  1656     if not right_unique:
-> 1657         raise MergeError(
  1658             "Merge keys are not unique in right dataset; not a one-to-one merge"
  1659         )
  1661 elif validate in ["one_to_many", "1:m"]:
  1662     if not left_unique:

MergeError: Merge keys are not unique in right dataset; not a one-to-one merge

如果用户知道右侧 DataFrame 中存在重复项，但希望确保左侧 DataFrame 中没有重复项，可以使用 validate='one_to_many' 参数，而不会引发异常。

In [72]: pd.merge(left, right, on="B", how="outer", validate="one_to_many")
Out[72]: 
 A_x  B  A_y
0    1  1  NaN
1    2  2  4.0
2    2  2  5.0
3    2  2  6.0 
```  ### 合并结果指示器

`merge()` 接受参数 `indicator`。如果为 `True`，则将添加一个名为 `_merge` 的分类列到输出对象中，其值为：

> | 观察来源 | `_merge` 值 |
> | --- | --- |
> | 仅在 `'left'` 框架中的合并键 | `left_only` |
> | 仅在 `'right'` 框架中的合并键 | `right_only` |
> | 两个框架中的合并键 | `both` |

```py
In [73]: df1 = pd.DataFrame({"col1": [0, 1], "col_left": ["a", "b"]})

In [74]: df2 = pd.DataFrame({"col1": [1, 2, 2], "col_right": [2, 2, 2]})

In [75]: pd.merge(df1, df2, on="col1", how="outer", indicator=True)
Out[75]: 
 col1 col_left  col_right      _merge
0     0        a        NaN   left_only
1     1        b        2.0        both
2     2      NaN        2.0  right_only
3     2      NaN        2.0  right_only

indicator 的字符串参数将用作指示器列的名称。

In [76]: pd.merge(df1, df2, on="col1", how="outer", indicator="indicator_column")
Out[76]: 
 col1 col_left  col_right indicator_column
0     0        a        NaN        left_only
1     1        b        2.0             both
2     2      NaN        2.0       right_only
3     2      NaN        2.0       right_only

重叠值列

合并 suffixes 参数接受一个字符串列表元组，以附加到输入 DataFrame 中重叠列名称以消除结果列的歧义：

In [77]: left = pd.DataFrame({"k": ["K0", "K1", "K2"], "v": [1, 2, 3]})

In [78]: right = pd.DataFrame({"k": ["K0", "K0", "K3"], "v": [4, 5, 6]})

In [79]: result = pd.merge(left, right, on="k")

In [80]: result
Out[80]: 
 k  v_x  v_y
0  K0    1    4
1  K0    1    5

In [81]: result = pd.merge(left, right, on="k", suffixes=("_l", "_r"))

In [82]: result
Out[82]: 
 k  v_l  v_r
0  K0    1    4
1  K0    1    5

合并类型

merge() 实现常见的 SQL 风格连接操作。

一对一：在它们的索引上连接两个 DataFrame 对象，这些对象必须包含唯一值。
多对一：将唯一索引与不同 DataFrame 中的一个或多个列连接。
多对多：在列上连接列。

注意

在列上连接列时，可能是多对多连接，传递的 DataFrame 对象上的任何索引将被丢弃。

对于多对多连接，如果在两个表中一个键组合出现多次，DataFrame 将具有相关数据的笛卡尔积。

In [44]: left = pd.DataFrame(
 ....:    {
 ....:        "key": ["K0", "K1", "K2", "K3"],
 ....:        "A": ["A0", "A1", "A2", "A3"],
 ....:        "B": ["B0", "B1", "B2", "B3"],
 ....:    }
 ....: )
 ....: 

In [45]: right = pd.DataFrame(
 ....:    {
 ....:        "key": ["K0", "K1", "K2", "K3"],
 ....:        "C": ["C0", "C1", "C2", "C3"],
 ....:        "D": ["D0", "D1", "D2", "D3"],
 ....:    }
 ....: )
 ....: 

In [46]: result = pd.merge(left, right, on="key")

In [47]: result
Out[47]: 
 key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2
3  K3  A3  B3  C3  D3

merge()的how参数指定了哪些键包含在结果表中。如果一个键组合在左表或右表中都不存在，则连接表中的值将为NA。以下是how选项及其 SQL 等效名称的摘要：

合并方法	SQL 连接名称	描述
`left`	`LEFT OUTER JOIN`	仅使用左侧框架的键
`right`	`RIGHT OUTER JOIN`	仅使用右侧框架的键
`outer`	`FULL OUTER JOIN`	使用两个框架的键的并集
`inner`	`INNER JOIN`	使用两个框架的键的交集
`cross`	`CROSS JOIN`	创建两个框架行的笛卡尔积

In [48]: left = pd.DataFrame(
 ....:   {
 ....:      "key1": ["K0", "K0", "K1", "K2"],
 ....:      "key2": ["K0", "K1", "K0", "K1"],
 ....:      "A": ["A0", "A1", "A2", "A3"],
 ....:      "B": ["B0", "B1", "B2", "B3"],
 ....:   }
 ....: )
 ....: 

In [49]: right = pd.DataFrame(
 ....:   {
 ....:      "key1": ["K0", "K1", "K1", "K2"],
 ....:      "key2": ["K0", "K0", "K0", "K0"],
 ....:      "C": ["C0", "C1", "C2", "C3"],
 ....:      "D": ["D0", "D1", "D2", "D3"],
 ....:   }
 ....: )
 ....: 

In [50]: result = pd.merge(left, right, how="left", on=["key1", "key2"])

In [51]: result
Out[51]: 
 key1 key2   A   B    C    D
0   K0   K0  A0  B0   C0   D0
1   K0   K1  A1  B1  NaN  NaN
2   K1   K0  A2  B2   C1   D1
3   K1   K0  A2  B2   C2   D2
4   K2   K1  A3  B3  NaN  NaN

In [52]: result = pd.merge(left, right, how="right", on=["key1", "key2"])

In [53]: result
Out[53]: 
 key1 key2    A    B   C   D
0   K0   K0   A0   B0  C0  D0
1   K1   K0   A2   B2  C1  D1
2   K1   K0   A2   B2  C2  D2
3   K2   K0  NaN  NaN  C3  D3

In [54]: result = pd.merge(left, right, how="outer", on=["key1", "key2"])

In [55]: result
Out[55]: 
 key1 key2    A    B    C    D
0   K0   K0   A0   B0   C0   D0
1   K0   K1   A1   B1  NaN  NaN
2   K1   K0   A2   B2   C1   D1
3   K1   K0   A2   B2   C2   D2
4   K2   K0  NaN  NaN   C3   D3
5   K2   K1   A3   B3  NaN  NaN

In [56]: result = pd.merge(left, right, how="inner", on=["key1", "key2"])

In [57]: result
Out[57]: 
 key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2

In [58]: result = pd.merge(left, right, how="cross")

In [59]: result
Out[59]: 
 key1_x key2_x   A   B key1_y key2_y   C   D
0      K0     K0  A0  B0     K0     K0  C0  D0
1      K0     K0  A0  B0     K1     K0  C1  D1
2      K0     K0  A0  B0     K1     K0  C2  D2
3      K0     K0  A0  B0     K2     K0  C3  D3
4      K0     K1  A1  B1     K0     K0  C0  D0
..    ...    ...  ..  ..    ...    ...  ..  ..
11     K1     K0  A2  B2     K2     K0  C3  D3
12     K2     K1  A3  B3     K0     K0  C0  D0
13     K2     K1  A3  B3     K1     K0  C1  D1
14     K2     K1  A3  B3     K1     K0  C2  D2
15     K2     K1  A3  B3     K2     K0  C3  D3

[16 rows x 8 columns]

如果MultiIndex的名称与DataFrame中的列对应，则可以使用Series和DataFrame。在合并之前，使用Series.reset_index()将Series转换为DataFrame

In [60]: df = pd.DataFrame({"Let": ["A", "B", "C"], "Num": [1, 2, 3]})

In [61]: df
Out[61]: 
 Let  Num
0   A    1
1   B    2
2   C    3

In [62]: ser = pd.Series(
 ....:    ["a", "b", "c", "d", "e", "f"],
 ....:    index=pd.MultiIndex.from_arrays(
 ....:        [["A", "B", "C"] * 2, [1, 2, 3, 4, 5, 6]], names=["Let", "Num"]
 ....:    ),
 ....: )
 ....: 

In [63]: ser
Out[63]: 
Let  Num
A    1      a
B    2      b
C    3      c
A    4      d
B    5      e
C    6      f
dtype: object

In [64]: pd.merge(df, ser.reset_index(), on=["Let", "Num"])
Out[64]: 
 Let  Num  0
0   A    1  a
1   B    2  b
2   C    3  c

在DataFrame中执行具有重复连接键的外部连接

In [65]: left = pd.DataFrame({"A": [1, 2], "B": [2, 2]})

In [66]: right = pd.DataFrame({"A": [4, 5, 6], "B": [2, 2, 2]})

In [67]: result = pd.merge(left, right, on="B", how="outer")

In [68]: result
Out[68]: 
 A_x  B  A_y
0    1  2    4
1    1  2    5
2    1  2    6
3    2  2    4
4    2  2    5
5    2  2    6

警告

在重复键上合并会显著增加结果的维度，并可能导致内存溢出。

合并键唯一性

validate参数检查合并键的唯一性。在合并操作之前检查键的唯一性，可以防止内存溢出和意外键重复。

In [69]: left = pd.DataFrame({"A": [1, 2], "B": [1, 2]})

In [70]: right = pd.DataFrame({"A": [4, 5, 6], "B": [2, 2, 2]})

In [71]: result = pd.merge(left, right, on="B", how="outer", validate="one_to_one")
---------------------------------------------------------------------------
MergeError  Traceback (most recent call last)
Cell In[71], line 1
----> 1 result = pd.merge(left, right, on="B", how="outer", validate="one_to_one")

File ~/work/pandas/pandas/pandas/core/reshape/merge.py:170, in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy, indicator, validate)
  155     return _cross_merge(
  156         left_df,
  157         right_df,
   (...)
  167         copy=copy,
  168     )
  169 else:
--> 170     op = _MergeOperation(
  171         left_df,
  172         right_df,
  173         how=how,
  174         on=on,
  175         left_on=left_on,
  176         right_on=right_on,
  177         left_index=left_index,
  178         right_index=right_index,
  179         sort=sort,
  180         suffixes=suffixes,
  181         indicator=indicator,
  182         validate=validate,
  183     )
  184     return op.get_result(copy=copy)

File ~/work/pandas/pandas/pandas/core/reshape/merge.py:813, in _MergeOperation.__init__(self, left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, indicator, validate)
  809 # If argument passed to validate,
  810 # check if columns specified as unique
  811 # are in fact unique.
  812 if validate is not None:
--> 813     self._validate_validate_kwd(validate)

File ~/work/pandas/pandas/pandas/core/reshape/merge.py:1657, in _MergeOperation._validate_validate_kwd(self, validate)
  1653         raise MergeError(
  1654             "Merge keys are not unique in left dataset; not a one-to-one merge"
  1655         )
  1656     if not right_unique:
-> 1657         raise MergeError(
  1658             "Merge keys are not unique in right dataset; not a one-to-one merge"
  1659         )
  1661 elif validate in ["one_to_many", "1:m"]:
  1662     if not left_unique:

MergeError: Merge keys are not unique in right dataset; not a one-to-one merge

如果用户意识到右侧 DataFrame 中存在重复项，但希望确保左侧 DataFrame 中没有重复项，则可以使用 validate='one_to_many' 参数，而不会引发异常。

In [72]: pd.merge(left, right, on="B", how="outer", validate="one_to_many")
Out[72]: 
 A_x  B  A_y
0    1  1  NaN
1    2  2  4.0
2    2  2  5.0
3    2  2  6.0

合并结果指示器

merge() 接受参数 indicator。如果为 True，则会向输出对象添加一个名为 _merge 的分类列，其取值为：

观察来源 _merge 值

仅在 'left' 框架中的合并键 left_only

仅在 'right' 框架中的合并键 right_only

两个框架中的合并键 both

观察来源	`_merge` 值
仅在 `'left'` 框架中的合并键	`left_only`
仅在 `'right'` 框架中的合并键	`right_only`
两个框架中的合并键	`both`

In [73]: df1 = pd.DataFrame({"col1": [0, 1], "col_left": ["a", "b"]})

In [74]: df2 = pd.DataFrame({"col1": [1, 2, 2], "col_right": [2, 2, 2]})

In [75]: pd.merge(df1, df2, on="col1", how="outer", indicator=True)
Out[75]: 
 col1 col_left  col_right      _merge
0     0        a        NaN   left_only
1     1        b        2.0        both
2     2      NaN        2.0  right_only
3     2      NaN        2.0  right_only

indicator 的字符串参数将使用该值作为指示器列的名称。

In [76]: pd.merge(df1, df2, on="col1", how="outer", indicator="indicator_column")
Out[76]: 
 col1 col_left  col_right indicator_column
0     0        a        NaN        left_only
1     1        b        2.0             both
2     2      NaN        2.0       right_only
3     2      NaN        2.0       right_only

重叠值列

合并 suffixes 参数接受一个字符串列表的元组，以附加到输入 DataFrame 中重叠列名称以消除结果列的歧义：

In [77]: left = pd.DataFrame({"k": ["K0", "K1", "K2"], "v": [1, 2, 3]})

In [78]: right = pd.DataFrame({"k": ["K0", "K0", "K3"], "v": [4, 5, 6]})

In [79]: result = pd.merge(left, right, on="k")

In [80]: result
Out[80]: 
 k  v_x  v_y
0  K0    1    4
1  K0    1    5

In [81]: result = pd.merge(left, right, on="k", suffixes=("_l", "_r"))

In [82]: result
Out[82]: 
 k  v_l  v_r
0  K0    1    4
1  K0    1    5

`DataFrame.join()`

DataFrame.join() 将多个、可能具有不同索引的 DataFrame 的列合并为单个结果 DataFrame。

In [83]: left = pd.DataFrame(
 ....:    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]}, index=["K0", "K1", "K2"]
 ....: )
 ....: 

In [84]: right = pd.DataFrame(
 ....:    {"C": ["C0", "C2", "C3"], "D": ["D0", "D2", "D3"]}, index=["K0", "K2", "K3"]
 ....: )
 ....: 

In [85]: result = left.join(right)

In [86]: result
Out[86]: 
 A   B    C    D
K0  A0  B0   C0   D0
K1  A1  B1  NaN  NaN
K2  A2  B2   C2   D2

In [87]: result = left.join(right, how="outer")

In [88]: result
Out[88]: 
 A    B    C    D
K0   A0   B0   C0   D0
K1   A1   B1  NaN  NaN
K2   A2   B2   C2   D2
K3  NaN  NaN   C3   D3

In [89]: result = left.join(right, how="inner")

In [90]: result
Out[90]: 
 A   B   C   D
K0  A0  B0  C0  D0
K2  A2  B2  C2  D2

DataFrame.join() 接受一个可选的 on 参数，该参数可以是要对齐的列或多个列名，传递的 DataFrame 将对齐。

In [91]: left = pd.DataFrame(
 ....:    {
 ....:        "A": ["A0", "A1", "A2", "A3"],
 ....:        "B": ["B0", "B1", "B2", "B3"],
 ....:        "key": ["K0", "K1", "K0", "K1"],
 ....:    }
 ....: )
 ....: 

In [92]: right = pd.DataFrame({"C": ["C0", "C1"], "D": ["D0", "D1"]}, index=["K0", "K1"])

In [93]: result = left.join(right, on="key")

In [94]: result
Out[94]: 
 A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K0  C0  D0
3  A3  B3  K1  C1  D1

In [95]: result = pd.merge(
 ....:    left, right, left_on="key", right_index=True, how="left", sort=False
 ....: )
 ....: 

In [96]: result
Out[96]: 
 A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K0  C0  D0
3  A3  B3  K1  C1  D1

要根据多个键进行连接，传递的 DataFrame 必须具有 MultiIndex：

In [97]: left = pd.DataFrame(
 ....:    {
 ....:        "A": ["A0", "A1", "A2", "A3"],
 ....:        "B": ["B0", "B1", "B2", "B3"],
 ....:        "key1": ["K0", "K0", "K1", "K2"],
 ....:        "key2": ["K0", "K1", "K0", "K1"],
 ....:    }
 ....: )
 ....: 

In [98]: index = pd.MultiIndex.from_tuples(
 ....:    [("K0", "K0"), ("K1", "K0"), ("K2", "K0"), ("K2", "K1")]
 ....: )
 ....: 

In [99]: right = pd.DataFrame(
 ....:    {"C": ["C0", "C1", "C2", "C3"], "D": ["D0", "D1", "D2", "D3"]}, index=index
 ....: )
 ....: 

In [100]: result = left.join(right, on=["key1", "key2"])

In [101]: result
Out[101]: 
 A   B key1 key2    C    D
0  A0  B0   K0   K0   C0   D0
1  A1  B1   K0   K1  NaN  NaN
2  A2  B2   K1   K0   C1   D1
3  A3  B3   K2   K1   C3   D3

DataFrame.join的默认行为是执行左连接，仅使用调用DataFrame中找到的键。可以使用how指定其他连接类型。

In [102]: result = left.join(right, on=["key1", "key2"], how="inner")

In [103]: result
Out[103]: 
 A   B key1 key2   C   D
0  A0  B0   K0   K0  C0  D0
2  A2  B2   K1   K0  C1  D1
3  A3  B3   K2   K1  C3  D3

### 将单个索引连接到多重索引

您可以将具有MultiIndex的Index与具有级别的DataFrame连接。Index的name将与MultiIndex的级别名称匹配。

In [104]: left = pd.DataFrame(
 .....:    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]},
 .....:    index=pd.Index(["K0", "K1", "K2"], name="key"),
 .....: )
 .....: 

In [105]: index = pd.MultiIndex.from_tuples(
 .....:    [("K0", "Y0"), ("K1", "Y1"), ("K2", "Y2"), ("K2", "Y3")],
 .....:    names=["key", "Y"],
 .....: )
 .....: 

In [106]: right = pd.DataFrame(
 .....:    {"C": ["C0", "C1", "C2", "C3"], "D": ["D0", "D1", "D2", "D3"]},
 .....:    index=index,
 .....: )
 .....: 

In [107]: result = left.join(right, how="inner")

In [108]: result
Out[108]: 
 A   B   C   D
key Y 
K0  Y0  A0  B0  C0  D0
K1  Y1  A1  B1  C1  D1
K2  Y2  A2  B2  C2  D2
 Y3  A2  B2  C3  D3

### 与两个MultiIndex连接

输入参数的MultiIndex必须完全在连接中使用，并且是左参数中索引的子集。

In [109]: leftindex = pd.MultiIndex.from_product(
 .....:    [list("abc"), list("xy"), [1, 2]], names=["abc", "xy", "num"]
 .....: )
 .....: 

In [110]: left = pd.DataFrame({"v1": range(12)}, index=leftindex)

In [111]: left
Out[111]: 
 v1
abc xy num 
a   x  1     0
 2     1
 y  1     2
 2     3
b   x  1     4
 2     5
 y  1     6
 2     7
c   x  1     8
 2     9
 y  1    10
 2    11

In [112]: rightindex = pd.MultiIndex.from_product(
 .....:    [list("abc"), list("xy")], names=["abc", "xy"]
 .....: )
 .....: 

In [113]: right = pd.DataFrame({"v2": [100 * i for i in range(1, 7)]}, index=rightindex)

In [114]: right
Out[114]: 
 v2
abc xy 
a   x   100
 y   200
b   x   300
 y   400
c   x   500
 y   600

In [115]: left.join(right, on=["abc", "xy"], how="inner")
Out[115]: 
 v1   v2
abc xy num 
a   x  1     0  100
 2     1  100
 y  1     2  200
 2     3  200
b   x  1     4  300
 2     5  300
 y  1     6  400
 2     7  400
c   x  1     8  500
 2     9  500
 y  1    10  600
 2    11  600

In [116]: leftindex = pd.MultiIndex.from_tuples(
 .....:    [("K0", "X0"), ("K0", "X1"), ("K1", "X2")], names=["key", "X"]
 .....: )
 .....: 

In [117]: left = pd.DataFrame(
 .....:    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]}, index=leftindex
 .....: )
 .....: 

In [118]: rightindex = pd.MultiIndex.from_tuples(
 .....:    [("K0", "Y0"), ("K1", "Y1"), ("K2", "Y2"), ("K2", "Y3")], names=["key", "Y"]
 .....: )
 .....: 

In [119]: right = pd.DataFrame(
 .....:    {"C": ["C0", "C1", "C2", "C3"], "D": ["D0", "D1", "D2", "D3"]}, index=rightindex
 .....: )
 .....: 

In [120]: result = pd.merge(
 .....:    left.reset_index(), right.reset_index(), on=["key"], how="inner"
 .....: ).set_index(["key", "X", "Y"])
 .....: 

In [121]: result
Out[121]: 
 A   B   C   D
key X  Y 
K0  X0 Y0  A0  B0  C0  D0
 X1 Y0  A1  B1  C0  D0
K1  X2 Y1  A2  B2  C1  D1

### 在列和索引级别的组合上合并

作为on、left_on和right_on参数传递的字符串可以引用列名或索引级别名称。这使得在不重置索引的情况下，可以在索引级别和列的组合上合并DataFrame实例。

In [122]: left_index = pd.Index(["K0", "K0", "K1", "K2"], name="key1")

In [123]: left = pd.DataFrame(
 .....:    {
 .....:        "A": ["A0", "A1", "A2", "A3"],
 .....:        "B": ["B0", "B1", "B2", "B3"],
 .....:        "key2": ["K0", "K1", "K0", "K1"],
 .....:    },
 .....:    index=left_index,
 .....: )
 .....: 

In [124]: right_index = pd.Index(["K0", "K1", "K2", "K2"], name="key1")

In [125]: right = pd.DataFrame(
 .....:    {
 .....:        "C": ["C0", "C1", "C2", "C3"],
 .....:        "D": ["D0", "D1", "D2", "D3"],
 .....:        "key2": ["K0", "K0", "K0", "K1"],
 .....:    },
 .....:    index=right_index,
 .....: )
 .....: 

In [126]: result = left.merge(right, on=["key1", "key2"])

In [127]: result
Out[127]: 
 A   B key2   C   D
key1 
K0    A0  B0   K0  C0  D0
K1    A2  B2   K0  C1  D1
K2    A3  B3   K1  C3  D3

注意

当DataFrame在两个参数中匹配索引级别的字符串上进行连接时，索引级别将保留为结果DataFrame中的索引级别。

注意

当仅使用MultiIndex的一些级别来连接DataFrame时，结果连接中将删除额外的级别。要保留这些级别，请在连接之前对这些级别名称使用DataFrame.reset_index()将这些级别移动到列中。 ### 连接多个DataFrame

一个：class：DataFrame``的列表或元组也可以传递给join()，以便根据它们的索引将它们连接在一起。

In [128]: right2 = pd.DataFrame({"v": [7, 8, 9]}, index=["K1", "K1", "K2"])

In [129]: result = left.join([right, right2])

### DataFrame.combine_first()

DataFrame.combine_first()将一个DataFrame中的��失值更新为另一个DataFrame中相应位置的非缺失值。

In [130]: df1 = pd.DataFrame(
 .....:    [[np.nan, 3.0, 5.0], [-4.6, np.nan, np.nan], [np.nan, 7.0, np.nan]]
 .....: )
 .....: 

In [131]: df2 = pd.DataFrame([[-42.6, np.nan, -8.2], [-5.0, 1.6, 4]], index=[1, 2])

In [132]: result = df1.combine_first(df2)

In [133]: result
Out[133]: 
 0    1    2
0  NaN  3.0  5.0
1 -4.6  NaN -8.2
2 -5.0  7.0  4.0

### 将单个索引连接到多重索引

您可以将一个带有Index的DataFrame与具有MultiIndex的DataFrame在一个级别上连接。Index的name将与MultiIndex的级别名称匹配。

In [104]: left = pd.DataFrame(
 .....:    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]},
 .....:    index=pd.Index(["K0", "K1", "K2"], name="key"),
 .....: )
 .....: 

In [105]: index = pd.MultiIndex.from_tuples(
 .....:    [("K0", "Y0"), ("K1", "Y1"), ("K2", "Y2"), ("K2", "Y3")],
 .....:    names=["key", "Y"],
 .....: )
 .....: 

In [106]: right = pd.DataFrame(
 .....:    {"C": ["C0", "C1", "C2", "C3"], "D": ["D0", "D1", "D2", "D3"]},
 .....:    index=index,
 .....: )
 .....: 

In [107]: result = left.join(right, how="inner")

In [108]: result
Out[108]: 
 A   B   C   D
key Y 
K0  Y0  A0  B0  C0  D0
K1  Y1  A1  B1  C1  D1
K2  Y2  A2  B2  C2  D2
 Y3  A2  B2  C3  D3

### 与两个MultiIndex连接

输入参数的MultiIndex必须完全在连接中使用，并且是左侧参数中索引的子集。

In [109]: leftindex = pd.MultiIndex.from_product(
 .....:    [list("abc"), list("xy"), [1, 2]], names=["abc", "xy", "num"]
 .....: )
 .....: 

In [110]: left = pd.DataFrame({"v1": range(12)}, index=leftindex)

In [111]: left
Out[111]: 
 v1
abc xy num 
a   x  1     0
 2     1
 y  1     2
 2     3
b   x  1     4
 2     5
 y  1     6
 2     7
c   x  1     8
 2     9
 y  1    10
 2    11

In [112]: rightindex = pd.MultiIndex.from_product(
 .....:    [list("abc"), list("xy")], names=["abc", "xy"]
 .....: )
 .....: 

In [113]: right = pd.DataFrame({"v2": [100 * i for i in range(1, 7)]}, index=rightindex)

In [114]: right
Out[114]: 
 v2
abc xy 
a   x   100
 y   200
b   x   300
 y   400
c   x   500
 y   600

In [115]: left.join(right, on=["abc", "xy"], how="inner")
Out[115]: 
 v1   v2
abc xy num 
a   x  1     0  100
 2     1  100
 y  1     2  200
 2     3  200
b   x  1     4  300
 2     5  300
 y  1     6  400
 2     7  400
c   x  1     8  500
 2     9  500
 y  1    10  600
 2    11  600

In [116]: leftindex = pd.MultiIndex.from_tuples(
 .....:    [("K0", "X0"), ("K0", "X1"), ("K1", "X2")], names=["key", "X"]
 .....: )
 .....: 

In [117]: left = pd.DataFrame(
 .....:    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]}, index=leftindex
 .....: )
 .....: 

In [118]: rightindex = pd.MultiIndex.from_tuples(
 .....:    [("K0", "Y0"), ("K1", "Y1"), ("K2", "Y2"), ("K2", "Y3")], names=["key", "Y"]
 .....: )
 .....: 

In [119]: right = pd.DataFrame(
 .....:    {"C": ["C0", "C1", "C2", "C3"], "D": ["D0", "D1", "D2", "D3"]}, index=rightindex
 .....: )
 .....: 

In [120]: result = pd.merge(
 .....:    left.reset_index(), right.reset_index(), on=["key"], how="inner"
 .....: ).set_index(["key", "X", "Y"])
 .....: 

In [121]: result
Out[121]: 
 A   B   C   D
key X  Y 
K0  X0 Y0  A0  B0  C0  D0
 X1 Y0  A1  B1  C0  D0
K1  X2 Y1  A2  B2  C1  D1

### 在列和索引级别的组合上合并

作为on、left_on和right_on参数传递的字符串可以引用列名或索引级别名称。这使得可以在不重置索引的情况下，根据索引级别和列的组合来合并DataFrame实例。

In [122]: left_index = pd.Index(["K0", "K0", "K1", "K2"], name="key1")

In [123]: left = pd.DataFrame(
 .....:    {
 .....:        "A": ["A0", "A1", "A2", "A3"],
 .....:        "B": ["B0", "B1", "B2", "B3"],
 .....:        "key2": ["K0", "K1", "K0", "K1"],
 .....:    },
 .....:    index=left_index,
 .....: )
 .....: 

In [124]: right_index = pd.Index(["K0", "K1", "K2", "K2"], name="key1")

In [125]: right = pd.DataFrame(
 .....:    {
 .....:        "C": ["C0", "C1", "C2", "C3"],
 .....:        "D": ["D0", "D1", "D2", "D3"],
 .....:        "key2": ["K0", "K0", "K0", "K1"],
 .....:    },
 .....:    index=right_index,
 .....: )
 .....: 

In [126]: result = left.merge(right, on=["key1", "key2"])

In [127]: result
Out[127]: 
 A   B key2   C   D
key1 
K0    A0  B0   K0  C0  D0
K1    A2  B2   K0  C1  D1
K2    A3  B3   K1  C3  D3

注意

当在两个参数中都匹配索引级别的字符串上连接DataFrame时，索引级别将作为结果DataFrame中的索引级别保留。

注意

当仅使用MultiIndex的部分级别连接DataFrame时，结果连接中的额外级别将被丢弃。要保留这些级别，请在连接之前对这些级别名称使用DataFrame.reset_index()将这些级别移动到列中。

连接多个`DataFrame`

也可以将DataFrame的列表或元组传递给join()，以便根据它们的索引将它们连接在一起。

In [128]: right2 = pd.DataFrame({"v": [7, 8, 9]}, index=["K1", "K1", "K2"])

In [129]: result = left.join([right, right2])

### DataFrame.combine_first()

DataFrame.combine_first()将一个DataFrame中的缺失值更新为另一个DataFrame中相应位置的非缺失值。

In [130]: df1 = pd.DataFrame(
 .....:    [[np.nan, 3.0, 5.0], [-4.6, np.nan, np.nan], [np.nan, 7.0, np.nan]]
 .....: )
 .....: 

In [131]: df2 = pd.DataFrame([[-42.6, np.nan, -8.2], [-5.0, 1.6, 4]], index=[1, 2])

In [132]: result = df1.combine_first(df2)

In [133]: result
Out[133]: 
 0    1    2
0  NaN  3.0  5.0
1 -4.6  NaN -8.2
2 -5.0  7.0  4.0

## merge_ordered()

merge_ordered()将顺序数据（如数字或时间序列数据）与可选的使用fill_method填充缺失数据的数据合并。

In [134]: left = pd.DataFrame(
 .....:    {"k": ["K0", "K1", "K1", "K2"], "lv": [1, 2, 3, 4], "s": ["a", "b", "c", "d"]}
 .....: )
 .....: 

In [135]: right = pd.DataFrame({"k": ["K1", "K2", "K4"], "rv": [1, 2, 3]})

In [136]: pd.merge_ordered(left, right, fill_method="ffill", left_by="s")
Out[136]: 
 k   lv  s   rv
0   K0  1.0  a  NaN
1   K1  1.0  a  1.0
2   K2  1.0  a  2.0
3   K4  1.0  a  3.0
4   K1  2.0  b  1.0
5   K2  2.0  b  2.0
6   K4  2.0  b  3.0
7   K1  3.0  c  1.0
8   K2  3.0  c  2.0
9   K4  3.0  c  3.0
10  K1  NaN  d  1.0
11  K2  4.0  d  2.0
12  K4  4.0  d  3.0

`merge_asof()`

merge_asof() 类似于有序的左连接，只是匹配的是最近的键而不是相等的键。对于left DataFrame中的每一行，选择right DataFrame中的最后一行，其中 on 键小于左侧的键。两个DataFrame必须按键排序。

可选地，merge_asof() 可以通过在 on 键上最接近的匹配的同时匹配 by 键来执行分组合并。

In [137]: trades = pd.DataFrame(
 .....:    {
 .....:        "time": pd.to_datetime(
 .....:            [
 .....:                "20160525 13:30:00.023",
 .....:                "20160525 13:30:00.038",
 .....:                "20160525 13:30:00.048",
 .....:                "20160525 13:30:00.048",
 .....:                "20160525 13:30:00.048",
 .....:            ]
 .....:        ),
 .....:        "ticker": ["MSFT", "MSFT", "GOOG", "GOOG", "AAPL"],
 .....:        "price": [51.95, 51.95, 720.77, 720.92, 98.00],
 .....:        "quantity": [75, 155, 100, 100, 100],
 .....:    },
 .....:    columns=["time", "ticker", "price", "quantity"],
 .....: )
 .....: 

In [138]: quotes = pd.DataFrame(
 .....:    {
 .....:        "time": pd.to_datetime(
 .....:            [
 .....:                "20160525 13:30:00.023",
 .....:                "20160525 13:30:00.023",
 .....:                "20160525 13:30:00.030",
 .....:                "20160525 13:30:00.041",
 .....:                "20160525 13:30:00.048",
 .....:                "20160525 13:30:00.049",
 .....:                "20160525 13:30:00.072",
 .....:                "20160525 13:30:00.075",
 .....:            ]
 .....:        ),
 .....:        "ticker": ["GOOG", "MSFT", "MSFT", "MSFT", "GOOG", "AAPL", "GOOG", "MSFT"],
 .....:        "bid": [720.50, 51.95, 51.97, 51.99, 720.50, 97.99, 720.50, 52.01],
 .....:        "ask": [720.93, 51.96, 51.98, 52.00, 720.93, 98.01, 720.88, 52.03],
 .....:    },
 .....:    columns=["time", "ticker", "bid", "ask"],
 .....: )
 .....: 

In [139]: trades
Out[139]: 
 time ticker   price  quantity
0 2016-05-25 13:30:00.023   MSFT   51.95        75
1 2016-05-25 13:30:00.038   MSFT   51.95       155
2 2016-05-25 13:30:00.048   GOOG  720.77       100
3 2016-05-25 13:30:00.048   GOOG  720.92       100
4 2016-05-25 13:30:00.048   AAPL   98.00       100

In [140]: quotes
Out[140]: 
 time ticker     bid     ask
0 2016-05-25 13:30:00.023   GOOG  720.50  720.93
1 2016-05-25 13:30:00.023   MSFT   51.95   51.96
2 2016-05-25 13:30:00.030   MSFT   51.97   51.98
3 2016-05-25 13:30:00.041   MSFT   51.99   52.00
4 2016-05-25 13:30:00.048   GOOG  720.50  720.93
5 2016-05-25 13:30:00.049   AAPL   97.99   98.01
6 2016-05-25 13:30:00.072   GOOG  720.50  720.88
7 2016-05-25 13:30:00.075   MSFT   52.01   52.03

In [141]: pd.merge_asof(trades, quotes, on="time", by="ticker")
Out[141]: 
 time ticker   price  quantity     bid     ask
0 2016-05-25 13:30:00.023   MSFT   51.95        75   51.95   51.96
1 2016-05-25 13:30:00.038   MSFT   51.95       155   51.97   51.98
2 2016-05-25 13:30:00.048   GOOG  720.77       100  720.50  720.93
3 2016-05-25 13:30:00.048   GOOG  720.92       100  720.50  720.93
4 2016-05-25 13:30:00.048   AAPL   98.00       100     NaN     NaN

merge_asof() 在报价时间和交易时间之间的2ms内。

In [142]: pd.merge_asof(trades, quotes, on="time", by="ticker", tolerance=pd.Timedelta("2ms"))
Out[142]: 
 time ticker   price  quantity     bid     ask
0 2016-05-25 13:30:00.023   MSFT   51.95        75   51.95   51.96
1 2016-05-25 13:30:00.038   MSFT   51.95       155     NaN     NaN
2 2016-05-25 13:30:00.048   GOOG  720.77       100  720.50  720.93
3 2016-05-25 13:30:00.048   GOOG  720.92       100  720.50  720.93
4 2016-05-25 13:30:00.048   AAPL   98.00       100     NaN     NaN

merge_asof() 在报价时间和交易时间之间的10ms内，并排除时间上的精确匹配。请注意，尽管我们排除了精确匹配（报价），但之前的报价确实传播到那个时间点。

In [143]: pd.merge_asof(
 .....:    trades,
 .....:    quotes,
 .....:    on="time",
 .....:    by="ticker",
 .....:    tolerance=pd.Timedelta("10ms"),
 .....:    allow_exact_matches=False,
 .....: )
 .....: 
Out[143]: 
 time ticker   price  quantity    bid    ask
0 2016-05-25 13:30:00.023   MSFT   51.95        75    NaN    NaN
1 2016-05-25 13:30:00.038   MSFT   51.95       155  51.97  51.98
2 2016-05-25 13:30:00.048   GOOG  720.77       100    NaN    NaN
3 2016-05-25 13:30:00.048   GOOG  720.92       100    NaN    NaN
4 2016-05-25 13:30:00.048   AAPL   98.00       100    NaN    NaN

`compare()`

Series.compare() 和 DataFrame.compare() 方法允许您比较两个分别是DataFrame或Series的对象，并总结它们的差异。

In [144]: df = pd.DataFrame(
 .....:    {
 .....:        "col1": ["a", "a", "b", "b", "a"],
 .....:        "col2": [1.0, 2.0, 3.0, np.nan, 5.0],
 .....:        "col3": [1.0, 2.0, 3.0, 4.0, 5.0],
 .....:    },
 .....:    columns=["col1", "col2", "col3"],
 .....: )
 .....: 

In [145]: df
Out[145]: 
 col1  col2  col3
0    a   1.0   1.0
1    a   2.0   2.0
2    b   3.0   3.0
3    b   NaN   4.0
4    a   5.0   5.0

In [146]: df2 = df.copy()

In [147]: df2.loc[0, "col1"] = "c"

In [148]: df2.loc[2, "col3"] = 4.0

In [149]: df2
Out[149]: 
 col1  col2  col3
0    c   1.0   1.0
1    a   2.0   2.0
2    b   3.0   4.0
3    b   NaN   4.0
4    a   5.0   5.0

In [150]: df.compare(df2)
Out[150]: 
 col1       col3 
 self other self other
0    a     c  NaN   NaN
2  NaN   NaN  3.0   4.0

默认情况下，如果两个对应的值相等，它们将显示为 NaN。此外，如果整行/列中的所有值都相等，则该行/列将从结果中省略。剩余的差异将对齐在列上。

将差异堆叠在行上。

In [151]: df.compare(df2, align_axis=0)
Out[151]: 
 col1  col3
0 self     a   NaN
 other    c   NaN
2 self   NaN   3.0
 other  NaN   4.0

保留所有原始行和列，使用 keep_shape=True

In [152]: df.compare(df2, keep_shape=True)
Out[152]: 
 col1       col2       col3 
 self other self other self other
0    a     c  NaN   NaN  NaN   NaN
1  NaN   NaN  NaN   NaN  NaN   NaN
2  NaN   NaN  NaN   NaN  3.0   4.0
3  NaN   NaN  NaN   NaN  NaN   NaN
4  NaN   NaN  NaN   NaN  NaN   NaN

保留所有原始值，即使它们相等。

In [153]: df.compare(df2, keep_shape=True, keep_equal=True)
Out[153]: 
 col1       col2       col3 
 self other self other self other
0    a     c  1.0   1.0  1.0   1.0
1    a     a  2.0   2.0  2.0   2.0
2    b     b  3.0   3.0  3.0   4.0
3    b     b  NaN   NaN  4.0   4.0
4    a     a  5.0   5.0  5.0   5.0

重塑和透视表

原文：pandas.pydata.org/docs/user_guide/reshaping.html

pandas 提供了用于操作Series和DataFrame的方法，以改变数据的表示形式，以便进行进一步的数据处理或数据汇总。

pivot() 和 pivot_table()：在一个或多个离散类别中对唯一值进行分组。
stack() 和 unstack()：分别将列或行级别的数据透视到相反的轴上。
melt() 和 wide_to_long()：将宽格式的DataFrame转换为长格式。
get_dummies() 和 from_dummies()：使用指示变量进行转换。
explode()：将类似列表的值的列转换为单独的行。
crosstab()：计算多个一维因子数组的交叉制表。
cut()：将连续变量转换为离散的分类值。
factorize()：将一维变量编码为整数标签。

`pivot()` 和 `pivot_table()`

`pivot()`

数据通常以所谓的“堆叠”或“记录”格式存储。在“记录”或“宽”格式中，通常每个主题都有一行。在“堆叠”或“长”格式中，每个主题（适用时）可能有多行。

In [1]: data = {
 ...:   "value": range(12),
 ...:   "variable": ["A"] * 3 + ["B"] * 3 + ["C"] * 3 + ["D"] * 3,
 ...:   "date": pd.to_datetime(["2020-01-03", "2020-01-04", "2020-01-05"] * 4)
 ...: }
 ...: 

In [2]: df = pd.DataFrame(data)

要对每个唯一变量执行时间序列操作，更好的表示形式是columns是唯一变量，index是日期标识个别观察。为了将数据重塑为这种形式，我们使用DataFrame.pivot()方法（也实现为顶级函数pivot()）：

In [3]: pivoted = df.pivot(index="date", columns="variable", values="value")

In [4]: pivoted
Out[4]: 
variable    A  B  C   D
date 
2020-01-03  0  3  6   9
2020-01-04  1  4  7  10
2020-01-05  2  5  8  11

如果省略了values参数，并且输入的DataFrame具有多个未用作列或索引输入的值列，则生成的“透视”DataFrame将具有分层列，其最顶层指示相应的值列：

In [5]: df["value2"] = df["value"] * 2

In [6]: pivoted = df.pivot(index="date", columns="variable")

In [7]: pivoted
Out[7]: 
 value           value2 
variable       A  B  C   D      A   B   C   D
date 
2020-01-03     0  3  6   9      0   6  12  18
2020-01-04     1  4  7  10      2   8  14  20
2020-01-05     2  5  8  11      4  10  16  22

你可以从透视后的DataFrame中选择子集：

In [8]: pivoted["value2"]
Out[8]: 
variable    A   B   C   D
date 
2020-01-03  0   6  12  18
2020-01-04  2   8  14  20
2020-01-05  4  10  16  22

请注意，这将返回基础数据的视图，如果数据是同质类型的。

注意

pivot()只能处理由index和columns指定的唯一行。如果您的数据包含重复项，请使用pivot_table()。

`pivot_table()`

虽然pivot()提供了各种数据类型的通用透视功能，但 pandas 还提供了用于对数值数据进行聚合的pivot_table()或pivot_table()。

函数pivot_table()可用于创建类似电子表格的透视表。查看食谱以获取一些高级策略。

In [9]: import datetime

In [10]: df = pd.DataFrame(
 ....:    {
 ....:        "A": ["one", "one", "two", "three"] * 6,
 ....:        "B": ["A", "B", "C"] * 8,
 ....:        "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 4,
 ....:        "D": np.random.randn(24),
 ....:        "E": np.random.randn(24),
 ....:        "F": [datetime.datetime(2013, i, 1) for i in range(1, 13)]
 ....:        + [datetime.datetime(2013, i, 15) for i in range(1, 13)],
 ....:    }
 ....: )
 ....: 

In [11]: df
Out[11]: 
 A  B    C         D         E          F
0     one  A  foo  0.469112  0.404705 2013-01-01
1     one  B  foo -0.282863  0.577046 2013-02-01
2     two  C  foo -1.509059 -1.715002 2013-03-01
3   three  A  bar -1.135632 -1.039268 2013-04-01
4     one  B  bar  1.212112 -0.370647 2013-05-01
..    ... ..  ...       ...       ...        ...
19  three  B  foo -1.087401 -0.472035 2013-08-15
20    one  C  foo -0.673690 -0.013960 2013-09-15
21    one  A  bar  0.113648 -0.362543 2013-10-15
22    two  B  bar -1.478427 -0.006154 2013-11-15
23  three  C  bar  0.524988 -0.923061 2013-12-15

[24 rows x 6 columns]

In [12]: pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"])
Out[12]: 
C             bar       foo
A     B 
one   A -0.995460  0.595334
 B  0.393570 -0.494817
 C  0.196903 -0.767769
three A -0.431886       NaN
 B       NaN -1.065818
 C  0.798396       NaN
two   A       NaN  0.197720
 B -0.986678       NaN
 C       NaN -1.274317

In [13]: pd.pivot_table(
 ....:    df, values=["D", "E"],
 ....:    index=["B"],
 ....:    columns=["A", "C"],
 ....:    aggfunc="sum",
 ....: )
 ....: 
Out[13]: 
 D                      ...         E 
A       one               three  ...     three      two 
C       bar       foo       bar  ...       foo      bar       foo
B                                ... 
A -1.990921  1.190667 -0.863772  ...       NaN      NaN -1.067650
B  0.787140 -0.989634       NaN  ...  0.372851  1.63741       NaN
C  0.393806 -1.535539  1.596791  ...       NaN      NaN -3.491906

[3 rows x 12 columns]

In [14]: pd.pivot_table(
 ....:    df, values="E",
 ....:    index=["B", "C"],
 ....:    columns=["A"],
 ....:    aggfunc=["sum", "mean"],
 ....: )
 ....: 
Out[14]: 
 sum                          mean 
A           one     three       two       one     three       two
B C 
A bar -0.471593 -2.008182       NaN -0.235796 -1.004091       NaN
 foo  0.761726       NaN -1.067650  0.380863       NaN -0.533825
B bar -1.665170       NaN  1.637410 -0.832585       NaN  0.818705
 foo -0.097554  0.372851       NaN -0.048777  0.186425       NaN
C bar -0.744154 -2.392449       NaN -0.372077 -1.196224       NaN
 foo  1.061810       NaN -3.491906  0.530905       NaN -1.745953

结果是一个可能在索引或列上具有MultiIndex的DataFrame。如果未提供values列名，则透视表将在列中包含所有数据的额外层次结构：

In [15]: pd.pivot_table(df[["A", "B", "C", "D", "E"]], index=["A", "B"], columns=["C"])
Out[15]: 
 D                   E 
C             bar       foo       bar       foo
A     B 
one   A -0.995460  0.595334 -0.235796  0.380863
 B  0.393570 -0.494817 -0.832585 -0.048777
 C  0.196903 -0.767769 -0.372077  0.530905
three A -0.431886       NaN -1.004091       NaN
 B       NaN -1.065818       NaN  0.186425
 C  0.798396       NaN -1.196224       NaN
two   A       NaN  0.197720       NaN -0.533825
 B -0.986678       NaN  0.818705       NaN
 C       NaN -1.274317       NaN -1.745953

同样，您可以在index和columns关键字中使用Grouper。有关Grouper的详细信息，请参见使用 Grouper 规范进行分组。

In [16]: pd.pivot_table(df, values="D", index=pd.Grouper(freq="ME", key="F"), columns="C")
Out[16]: 
C                bar       foo
F 
2013-01-31       NaN  0.595334
2013-02-28       NaN -0.494817
2013-03-31       NaN -1.274317
2013-04-30 -0.431886       NaN
2013-05-31  0.393570       NaN
2013-06-30  0.196903       NaN
2013-07-31       NaN  0.197720
2013-08-31       NaN -1.065818
2013-09-30       NaN -0.767769
2013-10-31 -0.995460       NaN
2013-11-30 -0.986678       NaN
2013-12-31  0.798396       NaN

添加边距

将margins=True传递给pivot_table()将在行和列上添加一个带有All标签的行和列，其中包含跨行和列��别的部分组聚合：

In [17]: table = df.pivot_table(
 ....:    index=["A", "B"],
 ....:    columns="C",
 ....:    values=["D", "E"],
 ....:    margins=True,
 ....:    aggfunc="std"
 ....: )
 ....: 

In [18]: table
Out[18]: 
 D                             E 
C             bar       foo       All       bar       foo       All
A     B 
one   A  1.568517  0.178504  1.293926  0.179247  0.033718  0.371275
 B  1.157593  0.299748  0.860059  0.653280  0.885047  0.779837
 C  0.523425  0.133049  0.638297  1.111310  0.770555  0.938819
three A  0.995247       NaN  0.995247  0.049748       NaN  0.049748
 B       NaN  0.030522  0.030522       NaN  0.931203  0.931203
 C  0.386657       NaN  0.386657  0.386312       NaN  0.386312
two   A       NaN  0.111032  0.111032       NaN  1.146201  1.146201
 B  0.695438       NaN  0.695438  1.166526       NaN  1.166526
 C       NaN  0.331975  0.331975       NaN  0.043771  0.043771
All      1.014073  0.713941  0.871016  0.881376  0.984017  0.923568

此外，您可以调用DataFrame.stack()来显示一个透视的 DataFrame，具有多级索引：

In [19]: table.stack(future_stack=True)
Out[19]: 
 D         E
A   B C 
one A bar  1.568517  0.179247
 foo  0.178504  0.033718
 All  1.293926  0.371275
 B bar  1.157593  0.653280
 foo  0.299748  0.885047
...             ...       ...
two C foo  0.331975  0.043771
 All  0.331975  0.043771
All   bar  1.014073  0.881376
 foo  0.713941  0.984017
 All  0.871016  0.923568

[30 rows x 2 columns] 
```  ## `stack()` 和 `unstack()`

![../_images/reshaping_stack.png](https://gitee.com/OpenDocCN/dsai-docs-zh/raw/master/docs/pd22/img/ea980142626bfa8107bf2b032d05059a.png)

与`pivot()`方法密切相关的是`Series`和`DataFrame`上可用的相关`stack()`和`unstack()`方法。这些方法旨在与`MultiIndex`对象一起使用（请参阅分层索引部分）。

+   `stack()`：将（可能是分层的）列标签的一个级别“枢轴”，返回一个带有新的最内层行标签的`DataFrame`。

+   `unstack()`:（`stack()`的逆操作）将（可能是分层的）行索引的一个级别“枢轴”到列轴，生成一个重新塑造的带有新的最内层列标签的`DataFrame`。

![../_images/reshaping_unstack.png](https://gitee.com/OpenDocCN/dsai-docs-zh/raw/master/docs/pd22/img/f048ad4727a0d692aa9d7098c96598df.png)

```py
In [20]: tuples = [
 ....:   ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
 ....:   ["one", "two", "one", "two", "one", "two", "one", "two"],
 ....: ]
 ....: 

In [21]: index = pd.MultiIndex.from_arrays(tuples, names=["first", "second"])

In [22]: df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=["A", "B"])

In [23]: df2 = df[:4]

In [24]: df2
Out[24]: 
 A         B
first second 
bar   one     0.895717  0.805244
 two    -1.206412  2.565646
baz   one     1.431256  1.340309
 two    -1.170299 -0.226169

stack() 函数将 DataFrame 中的一个级别“压缩”为以下之一：

在列中具有Index的情况下的Series。
在列中具有MultiIndex的情况下的DataFrame。

如果列具有MultiIndex，您可以选择堆叠哪个级别。堆叠的级别将成为列中MultiIndex的新最低级别：

In [25]: stacked = df2.stack(future_stack=True)

In [26]: stacked
Out[26]: 
first  second 
bar    one     A    0.895717
 B    0.805244
 two     A   -1.206412
 B    2.565646
baz    one     A    1.431256
 B    1.340309
 two     A   -1.170299
 B   -0.226169
dtype: float64

使用“堆叠”DataFrame 或 Series（具有 MultiIndex 作为 index）的逆操作是 unstack()，默认情况下取消堆叠最后一个级别：

In [27]: stacked.unstack()
Out[27]: 
 A         B
first second 
bar   one     0.895717  0.805244
 two    -1.206412  2.565646
baz   one     1.431256  1.340309
 two    -1.170299 -0.226169

In [28]: stacked.unstack(1)
Out[28]: 
second        one       two
first 
bar   A  0.895717 -1.206412
 B  0.805244  2.565646
baz   A  1.431256 -1.170299
 B  1.340309 -0.226169

In [29]: stacked.unstack(0)
Out[29]: 
first          bar       baz
second 
one    A  0.895717  1.431256
 B  0.805244  1.340309
two    A -1.206412 -1.170299
 B  2.565646 -0.226169

如果索引有名称，则可以使用级别名称而不是指定级别编号：

In [30]: stacked.unstack("second")
Out[30]: 
second        one       two
first 
bar   A  0.895717 -1.206412
 B  0.805244  2.565646
baz   A  1.431256 -1.170299
 B  1.340309 -0.226169

请注意，stack() 和 unstack() 方法隐式地对涉及的索引级别进行排序。因此，对 stack() 和然后 unstack() 或反之的调用，将导致原始 DataFrame 或 Series 的排序副本：

In [31]: index = pd.MultiIndex.from_product([[2, 1], ["a", "b"]])

In [32]: df = pd.DataFrame(np.random.randn(4), index=index, columns=["A"])

In [33]: df
Out[33]: 
 A
2 a -1.413681
 b  1.607920
1 a  1.024180
 b  0.569605

In [34]: all(df.unstack().stack(future_stack=True) == df.sort_index())
Out[34]: True

多个级别

您还可以通过传递级别列表一次堆叠或取消堆叠多个级别，此时最终结果就像列表中的每个级别都单独处理一样。

In [35]: columns = pd.MultiIndex.from_tuples(
 ....:    [
 ....:        ("A", "cat", "long"),
 ....:        ("B", "cat", "long"),
 ....:        ("A", "dog", "short"),
 ....:        ("B", "dog", "short"),
 ....:    ],
 ....:    names=["exp", "animal", "hair_length"],
 ....: )
 ....: 

In [36]: df = pd.DataFrame(np.random.randn(4, 4), columns=columns)

In [37]: df
Out[37]: 
exp                 A         B         A         B
animal            cat       cat       dog       dog
hair_length      long      long     short     short
0            0.875906 -2.211372  0.974466 -2.006747
1           -0.410001 -0.078638  0.545952 -1.219217
2           -1.226825  0.769804 -1.281247 -0.727707
3           -0.121306 -0.097883  0.695775  0.341734

In [38]: df.stack(level=["animal", "hair_length"], future_stack=True)
Out[38]: 
exp                          A         B
 animal hair_length 
0 cat    long         0.875906 -2.211372
 dog    short        0.974466 -2.006747
1 cat    long        -0.410001 -0.078638
 dog    short        0.545952 -1.219217
2 cat    long        -1.226825  0.769804
 dog    short       -1.281247 -0.727707
3 cat    long        -0.121306 -0.097883
 dog    short        0.695775  0.341734

级别列表可以包含级别名称或级别编号，但不能混合使用两者。

# df.stack(level=['animal', 'hair_length'], future_stack=True)
# from above is equivalent to:
In [39]: df.stack(level=[1, 2], future_stack=True)
Out[39]: 
exp                          A         B
 animal hair_length 
0 cat    long         0.875906 -2.211372
 dog    short        0.974466 -2.006747
1 cat    long        -0.410001 -0.078638
 dog    short        0.545952 -1.219217
2 cat    long        -1.226825  0.769804
 dog    short       -1.281247 -0.727707
3 cat    long        -0.121306 -0.097883
 dog    short        0.695775  0.341734

缺失数据

如果子组没有相同的标签集，则取消堆叠可能会导致缺失值。默认情况下，缺失值将替换为该数据类型的默认填充值。

In [40]: columns = pd.MultiIndex.from_tuples(
 ....:    [
 ....:        ("A", "cat"),
 ....:        ("B", "dog"),
 ....:        ("B", "cat"),
 ....:        ("A", "dog"),
 ....:    ],
 ....:    names=["exp", "animal"],
 ....: )
 ....: 

In [41]: index = pd.MultiIndex.from_product(
 ....:    [("bar", "baz", "foo", "qux"), ("one", "two")], names=["first", "second"]
 ....: )
 ....: 

In [42]: df = pd.DataFrame(np.random.randn(8, 4), index=index, columns=columns)

In [43]: df3 = df.iloc[[0, 1, 4, 7], [1, 2]]

In [44]: df3
Out[44]: 
exp                  B 
animal             dog       cat
first second 
bar   one    -1.110336 -0.619976
 two     0.687738  0.176444
foo   one     1.314232  0.690579
qux   two     0.380396  0.084844

In [45]: df3.unstack()
Out[45]: 
exp            B 
animal       dog                 cat 
second       one       two       one       two
first 
bar    -1.110336  0.687738 -0.619976  0.176444
foo     1.314232       NaN  0.690579       NaN
qux          NaN  0.380396       NaN  0.084844

可以使用fill_value参数将缺失值填充为特定值。

In [46]: df3.unstack(fill_value=-1e9)
Out[46]: 
exp                B 
animal           dog                         cat 
second           one           two           one           two
first 
bar    -1.110336e+00  6.877384e-01 -6.199759e-01  1.764443e-01
foo     1.314232e+00 -1.000000e+09  6.905793e-01 -1.000000e+09
qux    -1.000000e+09  3.803956e-01 -1.000000e+09  8.484421e-02 
```  ## `melt()` 和 `wide_to_long()`

![../_images/reshaping_melt.png](https://gitee.com/OpenDocCN/dsai-docs-zh/raw/master/docs/pd22/img/a140c066f549eb4ce484503ce7fd7f13.png)

顶级`melt()`函数及其对应的`DataFrame.melt()`对于将`DataFrame`整理成一种格式非常有用，其中一个或多个列是*标识符变量*，而所有其他列，被视为*测量变量*，被“解开”到行轴上，仅留下两个非标识符列，“变量”和“值”。 这些列的名称可以通过提供`var_name`和`value_name`参数进行自定义。

```py
In [47]: cheese = pd.DataFrame(
 ....:    {
 ....:        "first": ["John", "Mary"],
 ....:        "last": ["Doe", "Bo"],
 ....:        "height": [5.5, 6.0],
 ....:        "weight": [130, 150],
 ....:    }
 ....: )
 ....: 

In [48]: cheese
Out[48]: 
 first last  height  weight
0  John  Doe     5.5     130
1  Mary   Bo     6.0     150

In [49]: cheese.melt(id_vars=["first", "last"])
Out[49]: 
 first last variable  value
0  John  Doe   height    5.5
1  Mary   Bo   height    6.0
2  John  Doe   weight  130.0
3  Mary   Bo   weight  150.0

In [50]: cheese.melt(id_vars=["first", "last"], var_name="quantity")
Out[50]: 
 first last quantity  value
0  John  Doe   height    5.5
1  Mary   Bo   height    6.0
2  John  Doe   weight  130.0
3  Mary   Bo   weight  150.0

在使用melt()转换 DataFrame 时，索引将被忽略。可以通过将ignore_index=False参数设置为False（默认为True）来保留原始索引值。 ignore_index=False会导致索引值重复。

In [51]: index = pd.MultiIndex.from_tuples([("person", "A"), ("person", "B")])

In [52]: cheese = pd.DataFrame(
 ....:    {
 ....:        "first": ["John", "Mary"],
 ....:        "last": ["Doe", "Bo"],
 ....:        "height": [5.5, 6.0],
 ....:        "weight": [130, 150],
 ....:    },
 ....:    index=index,
 ....: )
 ....: 

In [53]: cheese
Out[53]: 
 first last  height  weight
person A  John  Doe     5.5     130
 B  Mary   Bo     6.0     150

In [54]: cheese.melt(id_vars=["first", "last"])
Out[54]: 
 first last variable  value
0  John  Doe   height    5.5
1  Mary   Bo   height    6.0
2  John  Doe   weight  130.0
3  Mary   Bo   weight  150.0

In [55]: cheese.melt(id_vars=["first", "last"], ignore_index=False)
Out[55]: 
 first last variable  value
person A  John  Doe   height    5.5
 B  Mary   Bo   height    6.0
 A  John  Doe   weight  130.0
 B  Mary   Bo   weight  150.0

wide_to_long()类似于melt()，但具有更多的列匹配自定义功能。

In [56]: dft = pd.DataFrame(
 ....:    {
 ....:        "A1970": {0: "a", 1: "b", 2: "c"},
 ....:        "A1980": {0: "d", 1: "e", 2: "f"},
 ....:        "B1970": {0: 2.5, 1: 1.2, 2: 0.7},
 ....:        "B1980": {0: 3.2, 1: 1.3, 2: 0.1},
 ....:        "X": dict(zip(range(3), np.random.randn(3))),
 ....:    }
 ....: )
 ....: 

In [57]: dft["id"] = dft.index

In [58]: dft
Out[58]: 
 A1970 A1980  B1970  B1980         X  id
0     a     d    2.5    3.2  1.519970   0
1     b     e    1.2    1.3 -0.493662   1
2     c     f    0.7    0.1  0.600178   2

In [59]: pd.wide_to_long(dft, ["A", "B"], i="id", j="year")
Out[59]: 
 X  A    B
id year 
0  1970  1.519970  a  2.5
1  1970 -0.493662  b  1.2
2  1970  0.600178  c  0.7
0  1980  1.519970  d  3.2
1  1980 -0.493662  e  1.3
2  1980  0.600178  f  0.1 
```  ## `get_dummies()` 和 `from_dummies()`

要将`Series`的分类变量转换为“虚拟”或“指示符”，`get_dummies()`会创建一个新的`DataFrame`，其中包含唯一变量的列和表示每行中变量存在的值。

```py
In [60]: df = pd.DataFrame({"key": list("bbacab"), "data1": range(6)})

In [61]: pd.get_dummies(df["key"])
Out[61]: 
 a      b      c
0  False   True  False
1  False   True  False
2   True  False  False
3  False  False   True
4   True  False  False
5  False   True  False

In [62]: df["key"].str.get_dummies()
Out[62]: 
 a  b  c
0  0  1  0
1  0  1  0
2  1  0  0
3  0  0  1
4  1  0  0
5  0  1  0

prefix将前缀添加到列名中，这对将结果与原始DataFrame合并很有用：

In [63]: dummies = pd.get_dummies(df["key"], prefix="key")

In [64]: dummies
Out[64]: 
 key_a  key_b  key_c
0  False   True  False
1  False   True  False
2   True  False  False
3  False  False   True
4   True  False  False
5  False   True  False

In [65]: df[["data1"]].join(dummies)
Out[65]: 
 data1  key_a  key_b  key_c
0      0  False   True  False
1      1  False   True  False
2      2   True  False  False
3      3  False  False   True
4      4   True  False  False
5      5  False   True  False

这个函数通常与像cut()这样的离散化函数一起使用：

In [66]: values = np.random.randn(10)

In [67]: values
Out[67]: 
array([ 0.2742,  0.1329, -0.0237,  2.4102,  1.4505,  0.2061, -0.2519,
 -2.2136,  1.0633,  1.2661])

In [68]: bins = [0, 0.2, 0.4, 0.6, 0.8, 1]

In [69]: pd.get_dummies(pd.cut(values, bins))
Out[69]: 
 (0.0, 0.2]  (0.2, 0.4]  (0.4, 0.6]  (0.6, 0.8]  (0.8, 1.0]
0       False        True       False       False       False
1        True       False       False       False       False
2       False       False       False       False       False
3       False       False       False       False       False
4       False       False       False       False       False
5       False        True       False       False       False
6       False       False       False       False       False
7       False       False       False       False       False
8       False       False       False       False       False
9       False       False       False       False       False

get_dummies() 也接受一个DataFrame。默认情况下，object、string或categorical类型的列将被编码为虚拟变量，而其他列保持不变。

In [70]: df = pd.DataFrame({"A": ["a", "b", "a"], "B": ["c", "c", "b"], "C": [1, 2, 3]})

In [71]: pd.get_dummies(df)
Out[71]: 
 C    A_a    A_b    B_b    B_c
0  1   True  False  False   True
1  2  False   True  False   True
2  3   True  False   True  False

指定columns关键字将对任何类型的列进行编码。

In [72]: pd.get_dummies(df, columns=["A"])
Out[72]: 
 B  C    A_a    A_b
0  c  1   True  False
1  c  2  False   True
2  b  3   True  False

与Series版本一样，您可以为prefix和prefix_sep传递值。默认情况下，列名用作前缀，_用作前缀分隔符。您可以以 3 种方式指定prefix��prefix_sep：

string: 对于要编码的每一列，使用相同的值作为prefix或prefix_sep。
list: 必须与要编码的列数相同长度。
dict: 将列名映射到前缀。

In [73]: simple = pd.get_dummies(df, prefix="new_prefix")

In [74]: simple
Out[74]: 
 C  new_prefix_a  new_prefix_b  new_prefix_b  new_prefix_c
0  1          True         False         False          True
1  2         False          True         False          True
2  3          True         False          True         False

In [75]: from_list = pd.get_dummies(df, prefix=["from_A", "from_B"])

In [76]: from_list
Out[76]: 
 C  from_A_a  from_A_b  from_B_b  from_B_c
0  1      True     False     False      True
1  2     False      True     False      True
2  3      True     False      True     False

In [77]: from_dict = pd.get_dummies(df, prefix={"B": "from_B", "A": "from_A"})

In [78]: from_dict
Out[78]: 
 C  from_A_a  from_A_b  from_B_b  from_B_c
0  1      True     False     False      True
1  2     False      True     False      True
2  3      True     False      True     False

为了避免在将结果输入统计模型时出现共线性问题，请指定drop_first=True。

In [79]: s = pd.Series(list("abcaa"))

In [80]: pd.get_dummies(s)
Out[80]: 
 a      b      c
0   True  False  False
1  False   True  False
2  False  False   True
3   True  False  False
4   True  False  False

In [81]: pd.get_dummies(s, drop_first=True)
Out[81]: 
 b      c
0  False  False
1   True  False
2  False   True
3  False  False
4  False  False

当一列只包含一个级别时，它将在结果中被省略。

In [82]: df = pd.DataFrame({"A": list("aaaaa"), "B": list("ababc")})

In [83]: pd.get_dummies(df)
Out[83]: 
 A_a    B_a    B_b    B_c
0  True   True  False  False
1  True  False   True  False
2  True   True  False  False
3  True  False   True  False
4  True  False  False   True

In [84]: pd.get_dummies(df, drop_first=True)
Out[84]: 
 B_b    B_c
0  False  False
1   True  False
2  False  False
3   True  False
4  False   True

可以使用dtype参数将值转换为不同类型。

In [85]: df = pd.DataFrame({"A": list("abc"), "B": [1.1, 2.2, 3.3]})

In [86]: pd.get_dummies(df, dtype=np.float32).dtypes
Out[86]: 
B      float64
A_a    float32
A_b    float32
A_c    float32
dtype: object

新版本 1.5.0 中新增。

from_dummies() 将get_dummies() 的输出转换回指示值的Series。

In [87]: df = pd.DataFrame({"prefix_a": [0, 1, 0], "prefix_b": [1, 0, 1]})

In [88]: df
Out[88]: 
 prefix_a  prefix_b
0         0         1
1         1         0
2         0         1

In [89]: pd.from_dummies(df, sep="_")
Out[89]: 
 prefix
0      b
1      a
2      b

虚拟编码数据只需要包含k - 1个类别，此时最后一个类别是默认类别。默认类别可以使用default_category进行修改。

In [90]: df = pd.DataFrame({"prefix_a": [0, 1, 0]})

In [91]: df
Out[91]: 
 prefix_a
0         0
1         1
2         0

In [92]: pd.from_dummies(df, sep="_", default_category="b")
Out[92]: 
 prefix
0      b
1      a
2      b 
```  ## `explode()`

对于具有嵌套、类似列表的值的`DataFrame`列，`explode()` 将每个类似列表的值转换为单独的行。生成的`Index` 将与原始行的索引标签对应重复：

```py
In [93]: keys = ["panda1", "panda2", "panda3"]

In [94]: values = [["eats", "shoots"], ["shoots", "leaves"], ["eats", "leaves"]]

In [95]: df = pd.DataFrame({"keys": keys, "values": values})

In [96]: df
Out[96]: 
 keys            values
0  panda1    [eats, shoots]
1  panda2  [shoots, leaves]
2  panda3    [eats, leaves]

In [97]: df["values"].explode()
Out[97]: 
0      eats
0    shoots
1    shoots
1    leaves
2      eats
2    leaves
Name: values, dtype: object

DataFrame.explode 也可以将DataFrame中的列展开。

In [98]: df.explode("values")
Out[98]: 
 keys  values
0  panda1    eats
0  panda1  shoots
1  panda2  shoots
1  panda2  leaves
2  panda3    eats
2  panda3  leaves

Series.explode() 将空列表替换为缺失值指示符并保留标量条目。

In [99]: s = pd.Series([[1, 2, 3], "foo", [], ["a", "b"]])

In [100]: s
Out[100]: 
0    [1, 2, 3]
1          foo
2           []
3       [a, b]
dtype: object

In [101]: s.explode()
Out[101]: 
0      1
0      2
0      3
1    foo
2    NaN
3      a
3      b
dtype: object

逗号分隔的字符串值可以拆分为列表中的单个值，然后展开为新行。

In [102]: df = pd.DataFrame([{"var1": "a,b,c", "var2": 1}, {"var1": "d,e,f", "var2": 2}])

In [103]: df.assign(var1=df.var1.str.split(",")).explode("var1")
Out[103]: 
 var1  var2
0    a     1
0    b     1
0    c     1
1    d     2
1    e     2
1    f     2 
```  ## `crosstab()`

使用`crosstab()`计算两个（或更多）因子的交叉制表。默认情况下，`crosstab()`计算因子的频率表，除非传递了值数组和聚合函数。

传递的任何`Series`都将使用其名称属性，除非为交叉制表指定了行或列名称

```py
In [104]: a = np.array(["foo", "foo", "bar", "bar", "foo", "foo"], dtype=object)

In [105]: b = np.array(["one", "one", "two", "one", "two", "one"], dtype=object)

In [106]: c = np.array(["dull", "dull", "shiny", "dull", "dull", "shiny"], dtype=object)

In [107]: pd.crosstab(a, [b, c], rownames=["a"], colnames=["b", "c"])
Out[107]: 
b    one        two 
c   dull shiny dull shiny
a 
bar    1     0    0     1
foo    2     1    1     0

如果crosstab()只接收两个Series，它将提供一个频率表。

In [108]: df = pd.DataFrame(
 .....:    {"A": [1, 2, 2, 2, 2], "B": [3, 3, 4, 4, 4], "C": [1, 1, np.nan, 1, 1]}
 .....: )
 .....: 

In [109]: df
Out[109]: 
 A  B    C
0  1  3  1.0
1  2  3  1.0
2  2  4  NaN
3  2  4  1.0
4  2  4  1.0

In [110]: pd.crosstab(df["A"], df["B"])
Out[110]: 
B  3  4
A 
1  1  0
2  1  3

crosstab()还可以总结Categorical数据。

In [111]: foo = pd.Categorical(["a", "b"], categories=["a", "b", "c"])

In [112]: bar = pd.Categorical(["d", "e"], categories=["d", "e", "f"])

In [113]: pd.crosstab(foo, bar)
Out[113]: 
col_0  d  e
row_0 
a      1  0
b      0  1

对于Categorical数据，如果要包含所有数据类别，即使实际数据不包含特定类别的任何实例，请使用dropna=False。

In [114]: pd.crosstab(foo, bar, dropna=False)
Out[114]: 
col_0  d  e  f
row_0 
a      1  0  0
b      0  1  0
c      0  0  0

归一化

频率表也可以通过normalize参数进行归一化，以显示百分比而不是计数：

In [115]: pd.crosstab(df["A"], df["B"], normalize=True)
Out[115]: 
B    3    4
A 
1  0.2  0.0
2  0.2  0.6

normalize还可以在每行或每列内归一化值：

In [116]: pd.crosstab(df["A"], df["B"], normalize="columns")
Out[116]: 
B    3    4
A 
1  0.5  0.0
2  0.5  1.0

crosstab()还可以接受第三个Series和一个聚合函数(aggfunc)，该函数将应用于第三个Series的值，这些值在由前两个Series定义的每个组内：

In [117]: pd.crosstab(df["A"], df["B"], values=df["C"], aggfunc="sum")
Out[117]: 
B    3    4
A 
1  1.0  NaN
2  1.0  2.0

添加边际

margins=True将添加一个带有All标签的行和列，该标签在行和列上的类别上具有部分组聚合：

In [118]: pd.crosstab(
 .....:    df["A"], df["B"], values=df["C"], aggfunc="sum", normalize=True, margins=True
 .....: )
 .....: 
Out[118]: 
B       3    4   All
A 
1    0.25  0.0  0.25
2    0.25  0.5  0.75
All  0.50  0.5  1.00 
```  ## `cut()`

`cut()`函数计算输入数组的值的分组，并经常用于将连续变量转换为离散或分类变量：

整数`bins`将形成等宽箱。

```py
In [119]: ages = np.array([10, 15, 13, 12, 23, 25, 28, 59, 60])

In [120]: pd.cut(ages, bins=3)
Out[120]: 
[(9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (26.667, 43.333], (43.333, 60.0], (43.333, 60.0]]
Categories (3, interval[float64, right]): [(9.95, 26.667] < (26.667, 43.333] < (43.333, 60.0]]

一个有序的箱边列表将为每个变量分配一个区间。

In [121]: pd.cut(ages, bins=[0, 18, 35, 70])
Out[121]: 
[(0, 18], (0, 18], (0, 18], (0, 18], (18, 35], (18, 35], (18, 35], (35, 70], (35, 70]]
Categories (3, interval[int64, right]): [(0, 18] < (18, 35] < (35, 70]]

如果bins关键字是一个IntervalIndex，那么这些将用于对传递的数据进行分箱。

In [122]: pd.cut(ages, bins=pd.IntervalIndex.from_breaks([0, 40, 70]))
Out[122]: 
[(0, 40], (0, 40], (0, 40], (0, 40], (0, 40], (0, 40], (0, 40], (40, 70], (40, 70]]
Categories (2, interval[int64, right]): [(0, 40] < (40, 70]] 
```  ## `factorize()`

`factorize()`将一维值编码为整数标签。缺失值被编码为`-1`。

```py
In [123]: x = pd.Series(["A", "A", np.nan, "B", 3.14, np.inf])

In [124]: x
Out[124]: 
0       A
1       A
2     NaN
3       B
4    3.14
5     inf
dtype: object

In [125]: labels, uniques = pd.factorize(x)

In [126]: labels
Out[126]: array([ 0,  0, -1,  1,  2,  3])

In [127]: uniques
Out[127]: Index(['A', 'B', 3.14, inf], dtype='object')

Categorical 将类似地对 1 维值进行编码以进行进一步的分类操作

In [128]: pd.Categorical(x)
Out[128]: 
['A', 'A', NaN, 'B', 3.14, inf]
Categories (4, object): [3.14, inf, 'A', 'B']

`pivot()` 和 `pivot_table()`

`pivot()`

In [1]: data = {
 ...:   "value": range(12),
 ...:   "variable": ["A"] * 3 + ["B"] * 3 + ["C"] * 3 + ["D"] * 3,
 ...:   "date": pd.to_datetime(["2020-01-03", "2020-01-04", "2020-01-05"] * 4)
 ...: }
 ...: 

In [2]: df = pd.DataFrame(data)

要对每个唯一变量执行时间序列操作，更好的表示形式是 columns 是唯一变量，日期的 index 标识个别观察结果。为了将数据重塑为这种形式，我们使用 DataFrame.pivot() 方法（也实现为顶级函数 pivot()）：

In [3]: pivoted = df.pivot(index="date", columns="variable", values="value")

In [4]: pivoted
Out[4]: 
variable    A  B  C   D
date 
2020-01-03  0  3  6   9
2020-01-04  1  4  7  10
2020-01-05  2  5  8  11

如果省略 values 参数，并且输入的 DataFrame 有多列值，这些值不用作 pivot() 的列或索引输入，则生成的“透视” DataFrame 将具有分层列，其最顶层指示相应的值列：

In [5]: df["value2"] = df["value"] * 2

In [6]: pivoted = df.pivot(index="date", columns="variable")

In [7]: pivoted
Out[7]: 
 value           value2 
variable       A  B  C   D      A   B   C   D
date 
2020-01-03     0  3  6   9      0   6  12  18
2020-01-04     1  4  7  10      2   8  14  20
2020-01-05     2  5  8  11      4  10  16  22

然后您可以从透视的 DataFrame 中选择子集：

In [8]: pivoted["value2"]
Out[8]: 
variable    A   B   C   D
date 
2020-01-03  0   6  12  18
2020-01-04  2   8  14  20
2020-01-05  4  10  16  22

请注意，在数据是同质类型的情况下，这将返回对底层数据的视图。

注意

pivot() 只能处理由 index 和 columns 指定的唯一行。如果您的数据包含重复项，请使用 pivot_table()。

`pivot_table()`

虽然 pivot() 提供了各种数据类型的通用数据透视，但 pandas 还提供了 pivot_table() 或 pivot_table() 用于对数值数据进行聚合的数据透视。

函数pivot_table() 可以用来创建类似电子表格的透视表。查看示例以获取一些高级策略。

In [9]: import datetime

In [10]: df = pd.DataFrame(
 ....:    {
 ....:        "A": ["one", "one", "two", "three"] * 6,
 ....:        "B": ["A", "B", "C"] * 8,
 ....:        "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 4,
 ....:        "D": np.random.randn(24),
 ....:        "E": np.random.randn(24),
 ....:        "F": [datetime.datetime(2013, i, 1) for i in range(1, 13)]
 ....:        + [datetime.datetime(2013, i, 15) for i in range(1, 13)],
 ....:    }
 ....: )
 ....: 

In [11]: df
Out[11]: 
 A  B    C         D         E          F
0     one  A  foo  0.469112  0.404705 2013-01-01
1     one  B  foo -0.282863  0.577046 2013-02-01
2     two  C  foo -1.509059 -1.715002 2013-03-01
3   three  A  bar -1.135632 -1.039268 2013-04-01
4     one  B  bar  1.212112 -0.370647 2013-05-01
..    ... ..  ...       ...       ...        ...
19  three  B  foo -1.087401 -0.472035 2013-08-15
20    one  C  foo -0.673690 -0.013960 2013-09-15
21    one  A  bar  0.113648 -0.362543 2013-10-15
22    two  B  bar -1.478427 -0.006154 2013-11-15
23  three  C  bar  0.524988 -0.923061 2013-12-15

[24 rows x 6 columns]

In [12]: pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"])
Out[12]: 
C             bar       foo
A     B 
one   A -0.995460  0.595334
 B  0.393570 -0.494817
 C  0.196903 -0.767769
three A -0.431886       NaN
 B       NaN -1.065818
 C  0.798396       NaN
two   A       NaN  0.197720
 B -0.986678       NaN
 C       NaN -1.274317

In [13]: pd.pivot_table(
 ....:    df, values=["D", "E"],
 ....:    index=["B"],
 ....:    columns=["A", "C"],
 ....:    aggfunc="sum",
 ....: )
 ....: 
Out[13]: 
 D                      ...         E 
A       one               three  ...     three      two 
C       bar       foo       bar  ...       foo      bar       foo
B                                ... 
A -1.990921  1.190667 -0.863772  ...       NaN      NaN -1.067650
B  0.787140 -0.989634       NaN  ...  0.372851  1.63741       NaN
C  0.393806 -1.535539  1.596791  ...       NaN      NaN -3.491906

[3 rows x 12 columns]

In [14]: pd.pivot_table(
 ....:    df, values="E",
 ....:    index=["B", "C"],
 ....:    columns=["A"],
 ....:    aggfunc=["sum", "mean"],
 ....: )
 ....: 
Out[14]: 
 sum                          mean 
A           one     three       two       one     three       two
B C 
A bar -0.471593 -2.008182       NaN -0.235796 -1.004091       NaN
 foo  0.761726       NaN -1.067650  0.380863       NaN -0.533825
B bar -1.665170       NaN  1.637410 -0.832585       NaN  0.818705
 foo -0.097554  0.372851       NaN -0.048777  0.186425       NaN
C bar -0.744154 -2.392449       NaN -0.372077 -1.196224       NaN
 foo  1.061810       NaN -3.491906  0.530905       NaN -1.745953

结果是一个可能具有索引或列上的MultiIndex的DataFrame。如果未提供values列名称，则透视表将在列中包含所有数据的另一层次的层次结构：

In [15]: pd.pivot_table(df[["A", "B", "C", "D", "E"]], index=["A", "B"], columns=["C"])
Out[15]: 
 D                   E 
C             bar       foo       bar       foo
A     B 
one   A -0.995460  0.595334 -0.235796  0.380863
 B  0.393570 -0.494817 -0.832585 -0.048777
 C  0.196903 -0.767769 -0.372077  0.530905
three A -0.431886       NaN -1.004091       NaN
 B       NaN -1.065818       NaN  0.186425
 C  0.798396       NaN -1.196224       NaN
two   A       NaN  0.197720       NaN -0.533825
 B -0.986678       NaN  0.818705       NaN
 C       NaN -1.274317       NaN -1.745953

此外，您可以将Grouper用于index和columns关键字。有关Grouper的详细信息，请参阅使用 Grouper 规范进行分组。

In [16]: pd.pivot_table(df, values="D", index=pd.Grouper(freq="ME", key="F"), columns="C")
Out[16]: 
C                bar       foo
F 
2013-01-31       NaN  0.595334
2013-02-28       NaN -0.494817
2013-03-31       NaN -1.274317
2013-04-30 -0.431886       NaN
2013-05-31  0.393570       NaN
2013-06-30  0.196903       NaN
2013-07-31       NaN  0.197720
2013-08-31       NaN -1.065818
2013-09-30       NaN -0.767769
2013-10-31 -0.995460       NaN
2013-11-30 -0.986678       NaN
2013-12-31  0.798396       NaN

添加边距

将margins=True传递给pivot_table()将在行和列上添加具有部分组聚合的All标签的行和列：

In [17]: table = df.pivot_table(
 ....:    index=["A", "B"],
 ....:    columns="C",
 ....:    values=["D", "E"],
 ....:    margins=True,
 ....:    aggfunc="std"
 ....: )
 ....: 

In [18]: table
Out[18]: 
 D                             E 
C             bar       foo       All       bar       foo       All
A     B 
one   A  1.568517  0.178504  1.293926  0.179247  0.033718  0.371275
 B  1.157593  0.299748  0.860059  0.653280  0.885047  0.779837
 C  0.523425  0.133049  0.638297  1.111310  0.770555  0.938819
three A  0.995247       NaN  0.995247  0.049748       NaN  0.049748
 B       NaN  0.030522  0.030522       NaN  0.931203  0.931203
 C  0.386657       NaN  0.386657  0.386312       NaN  0.386312
two   A       NaN  0.111032  0.111032       NaN  1.146201  1.146201
 B  0.695438       NaN  0.695438  1.166526       NaN  1.166526
 C       NaN  0.331975  0.331975       NaN  0.043771  0.043771
All      1.014073  0.713941  0.871016  0.881376  0.984017  0.923568

此外，您可以调用DataFrame.stack()将透视的 DataFrame 显示为具有多级索引：

In [19]: table.stack(future_stack=True)
Out[19]: 
 D         E
A   B C 
one A bar  1.568517  0.179247
 foo  0.178504  0.033718
 All  1.293926  0.371275
 B bar  1.157593  0.653280
 foo  0.299748  0.885047
...             ...       ...
two C foo  0.331975  0.043771
 All  0.331975  0.043771
All   bar  1.014073  0.881376
 foo  0.713941  0.984017
 All  0.871016  0.923568

[30 rows x 2 columns]

`pivot()`

数据通常以所谓的“堆叠”或“记录”格式存储。在“记录”或“宽”格式中，通常每个主题都有一行。在“堆叠”或“长”格式中，每个主题（适用时）通常有多行。

In [1]: data = {
 ...:   "value": range(12),
 ...:   "variable": ["A"] * 3 + ["B"] * 3 + ["C"] * 3 + ["D"] * 3,
 ...:   "date": pd.to_datetime(["2020-01-03", "2020-01-04", "2020-01-05"] * 4)
 ...: }
 ...: 

In [2]: df = pd.DataFrame(data)

要使用每个唯一变量执行时间序列操作，更好的表示形式是columns是唯一变量，index是日期，标识单个观察。要将数据重塑为这种形式，我们使用DataFrame.pivot()方法（也实现为顶级函数pivot()）：

In [3]: pivoted = df.pivot(index="date", columns="variable", values="value")

In [4]: pivoted
Out[4]: 
variable    A  B  C   D
date 
2020-01-03  0  3  6   9
2020-01-04  1  4  7  10
2020-01-05  2  5  8  11

如果省略了values参数，并且输入的DataFrame具有多列值，这些值未用作列或索引输入到pivot()，则生成的“透视”DataFrame将具有层次化的列，其最顶层指示相应的值列：

In [5]: df["value2"] = df["value"] * 2

In [6]: pivoted = df.pivot(index="date", columns="variable")

In [7]: pivoted
Out[7]: 
 value           value2 
variable       A  B  C   D      A   B   C   D
date 
2020-01-03     0  3  6   9      0   6  12  18
2020-01-04     1  4  7  10      2   8  14  20
2020-01-05     2  5  8  11      4  10  16  22

然后，您可以从透视的DataFrame中选择子集：

In [8]: pivoted["value2"]
Out[8]: 
variable    A   B   C   D
date 
2020-01-03  0   6  12  18
2020-01-04  2   8  14  20
2020-01-05  4  10  16  22

请注意，在数据类型均为同质类型的情况下，这将返回基础数据的视图。

注意

pivot()只能处理由index和columns指定的唯一行。如果您的数据包含重复项，请使用pivot_table()。

`pivot_table()`

虽然pivot()提供了各种数据类型的通用数据透视功能，但 pandas 还提供了pivot_table()或pivot_table()用于对数值数据进行聚合的数据透视。

函数pivot_table()可用于创建类似电子表格的数据透视表。有关一些高级策略，请参阅食谱。

In [9]: import datetime

In [10]: df = pd.DataFrame(
 ....:    {
 ....:        "A": ["one", "one", "two", "three"] * 6,
 ....:        "B": ["A", "B", "C"] * 8,
 ....:        "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 4,
 ....:        "D": np.random.randn(24),
 ....:        "E": np.random.randn(24),
 ....:        "F": [datetime.datetime(2013, i, 1) for i in range(1, 13)]
 ....:        + [datetime.datetime(2013, i, 15) for i in range(1, 13)],
 ....:    }
 ....: )
 ....: 

In [11]: df
Out[11]: 
 A  B    C         D         E          F
0     one  A  foo  0.469112  0.404705 2013-01-01
1     one  B  foo -0.282863  0.577046 2013-02-01
2     two  C  foo -1.509059 -1.715002 2013-03-01
3   three  A  bar -1.135632 -1.039268 2013-04-01
4     one  B  bar  1.212112 -0.370647 2013-05-01
..    ... ..  ...       ...       ...        ...
19  three  B  foo -1.087401 -0.472035 2013-08-15
20    one  C  foo -0.673690 -0.013960 2013-09-15
21    one  A  bar  0.113648 -0.362543 2013-10-15
22    two  B  bar -1.478427 -0.006154 2013-11-15
23  three  C  bar  0.524988 -0.923061 2013-12-15

[24 rows x 6 columns]

In [12]: pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"])
Out[12]: 
C             bar       foo
A     B 
one   A -0.995460  0.595334
 B  0.393570 -0.494817
 C  0.196903 -0.767769
three A -0.431886       NaN
 B       NaN -1.065818
 C  0.798396       NaN
two   A       NaN  0.197720
 B -0.986678       NaN
 C       NaN -1.274317

In [13]: pd.pivot_table(
 ....:    df, values=["D", "E"],
 ....:    index=["B"],
 ....:    columns=["A", "C"],
 ....:    aggfunc="sum",
 ....: )
 ....: 
Out[13]: 
 D                      ...         E 
A       one               three  ...     three      two 
C       bar       foo       bar  ...       foo      bar       foo
B                                ... 
A -1.990921  1.190667 -0.863772  ...       NaN      NaN -1.067650
B  0.787140 -0.989634       NaN  ...  0.372851  1.63741       NaN
C  0.393806 -1.535539  1.596791  ...       NaN      NaN -3.491906

[3 rows x 12 columns]

In [14]: pd.pivot_table(
 ....:    df, values="E",
 ....:    index=["B", "C"],
 ....:    columns=["A"],
 ....:    aggfunc=["sum", "mean"],
 ....: )
 ....: 
Out[14]: 
 sum                          mean 
A           one     three       two       one     three       two
B C 
A bar -0.471593 -2.008182       NaN -0.235796 -1.004091       NaN
 foo  0.761726       NaN -1.067650  0.380863       NaN -0.533825
B bar -1.665170       NaN  1.637410 -0.832585       NaN  0.818705
 foo -0.097554  0.372851       NaN -0.048777  0.186425       NaN
C bar -0.744154 -2.392449       NaN -0.372077 -1.196224       NaN
 foo  1.061810       NaN -3.491906  0.530905       NaN -1.745953

结果是一个DataFrame，可能在索引或列上具有MultiIndex。如果未提供values列名，则数据透视表将在列中包含所有数据的额外层次结构：

In [15]: pd.pivot_table(df[["A", "B", "C", "D", "E"]], index=["A", "B"], columns=["C"])
Out[15]: 
 D                   E 
C             bar       foo       bar       foo
A     B 
one   A -0.995460  0.595334 -0.235796  0.380863
 B  0.393570 -0.494817 -0.832585 -0.048777
 C  0.196903 -0.767769 -0.372077  0.530905
three A -0.431886       NaN -1.004091       NaN
 B       NaN -1.065818       NaN  0.186425
 C  0.798396       NaN -1.196224       NaN
two   A       NaN  0.197720       NaN -0.533825
 B -0.986678       NaN  0.818705       NaN
 C       NaN -1.274317       NaN -1.745953

此外，您可以使用Grouper作为index和columns关键字。有关Grouper的详细信��，请参阅使用 Grouper 规范进行分组。

In [16]: pd.pivot_table(df, values="D", index=pd.Grouper(freq="ME", key="F"), columns="C")
Out[16]: 
C                bar       foo
F 
2013-01-31       NaN  0.595334
2013-02-28       NaN -0.494817
2013-03-31       NaN -1.274317
2013-04-30 -0.431886       NaN
2013-05-31  0.393570       NaN
2013-06-30  0.196903       NaN
2013-07-31       NaN  0.197720
2013-08-31       NaN -1.065818
2013-09-30       NaN -0.767769
2013-10-31 -0.995460       NaN
2013-11-30 -0.986678       NaN
2013-12-31  0.798396       NaN

添加边距

将margins=True传递给pivot_table()将在行和列上添加一个带有部分组聚合的All标签的行和列：

In [17]: table = df.pivot_table(
 ....:    index=["A", "B"],
 ....:    columns="C",
 ....:    values=["D", "E"],
 ....:    margins=True,
 ....:    aggfunc="std"
 ....: )
 ....: 

In [18]: table
Out[18]: 
 D                             E 
C             bar       foo       All       bar       foo       All
A     B 
one   A  1.568517  0.178504  1.293926  0.179247  0.033718  0.371275
 B  1.157593  0.299748  0.860059  0.653280  0.885047  0.779837
 C  0.523425  0.133049  0.638297  1.111310  0.770555  0.938819
three A  0.995247       NaN  0.995247  0.049748       NaN  0.049748
 B       NaN  0.030522  0.030522       NaN  0.931203  0.931203
 C  0.386657       NaN  0.386657  0.386312       NaN  0.386312
two   A       NaN  0.111032  0.111032       NaN  1.146201  1.146201
 B  0.695438       NaN  0.695438  1.166526       NaN  1.166526
 C       NaN  0.331975  0.331975       NaN  0.043771  0.043771
All      1.014073  0.713941  0.871016  0.881376  0.984017  0.923568

此外，您可以调用DataFrame.stack()将一个数据透视的 DataFrame 显示为具有多级索引：

In [19]: table.stack(future_stack=True)
Out[19]: 
 D         E
A   B C 
one A bar  1.568517  0.179247
 foo  0.178504  0.033718
 All  1.293926  0.371275
 B bar  1.157593  0.653280
 foo  0.299748  0.885047
...             ...       ...
two C foo  0.331975  0.043771
 All  0.331975  0.043771
All   bar  1.014073  0.881376
 foo  0.713941  0.984017
 All  0.871016  0.923568

[30 rows x 2 columns] 
```  #### 添加边距

将`margins=True`传递给`pivot_table()`将在行和列上添加一个带有部分组聚合的`All`标签的行和列：

```py
In [17]: table = df.pivot_table(
 ....:    index=["A", "B"],
 ....:    columns="C",
 ....:    values=["D", "E"],
 ....:    margins=True,
 ....:    aggfunc="std"
 ....: )
 ....: 

In [18]: table
Out[18]: 
 D                             E 
C             bar       foo       All       bar       foo       All
A     B 
one   A  1.568517  0.178504  1.293926  0.179247  0.033718  0.371275
 B  1.157593  0.299748  0.860059  0.653280  0.885047  0.779837
 C  0.523425  0.133049  0.638297  1.111310  0.770555  0.938819
three A  0.995247       NaN  0.995247  0.049748       NaN  0.049748
 B       NaN  0.030522  0.030522       NaN  0.931203  0.931203
 C  0.386657       NaN  0.386657  0.386312       NaN  0.386312
two   A       NaN  0.111032  0.111032       NaN  1.146201  1.146201
 B  0.695438       NaN  0.695438  1.166526       NaN  1.166526
 C       NaN  0.331975  0.331975       NaN  0.043771  0.043771
All      1.014073  0.713941  0.871016  0.881376  0.984017  0.923568

此外，您可以调用DataFrame.stack()将一个数据透视的 DataFrame 显示为具有多级索引：

In [19]: table.stack(future_stack=True)
Out[19]: 
 D         E
A   B C 
one A bar  1.568517  0.179247
 foo  0.178504  0.033718
 All  1.293926  0.371275
 B bar  1.157593  0.653280
 foo  0.299748  0.885047
...             ...       ...
two C foo  0.331975  0.043771
 All  0.331975  0.043771
All   bar  1.014073  0.881376
 foo  0.713941  0.984017
 All  0.871016  0.923568

[30 rows x 2 columns]

`stack()` 和 `unstack()`

与pivot() 方法密切相关的是在Series 和 DataFrame 上可用的stack() 和 unstack() 方法。这些方法被设计为与 MultiIndex 对象一起工作（参见层次化索引部分）。

stack(): “旋转”（pivot）可能是分层的列标签的一级，返回一个带有新的最内层行标签的DataFrame。
unstack():（与stack()的反向操作）将可能是分层的行索引的一级“旋转”到列轴，产生一个带有新的最内层列标签的重塑DataFrame。

In [20]: tuples = [
 ....:   ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
 ....:   ["one", "two", "one", "two", "one", "two", "one", "two"],
 ....: ]
 ....: 

In [21]: index = pd.MultiIndex.from_arrays(tuples, names=["first", "second"])

In [22]: df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=["A", "B"])

In [23]: df2 = df[:4]

In [24]: df2
Out[24]: 
 A         B
first second 
bar   one     0.895717  0.805244
 two    -1.206412  2.565646
baz   one     1.431256  1.340309
 two    -1.170299 -0.226169

stack() 函数将DataFrame 中的一级列“压缩”为：

在列方向上是Index的情况下，一个Series。
在列方向上是 MultiIndex 的情况下，一个DataFrame。

如果列有一个MultiIndex，您可以选择堆叠哪个级别。堆叠的级别变为列的新最低级别的MultiIndex:

In [25]: stacked = df2.stack(future_stack=True)

In [26]: stacked
Out[26]: 
first  second 
bar    one     A    0.895717
 B    0.805244
 two     A   -1.206412
 B    2.565646
baz    one     A    1.431256
 B    1.340309
 two     A   -1.170299
 B   -0.226169
dtype: float64

使用“堆叠”DataFrame或Series（将MultiIndex作为index）时，stack()的逆操作是unstack()，默认情况下会展开最后一级：

In [27]: stacked.unstack()
Out[27]: 
 A         B
first second 
bar   one     0.895717  0.805244
 two    -1.206412  2.565646
baz   one     1.431256  1.340309
 two    -1.170299 -0.226169

In [28]: stacked.unstack(1)
Out[28]: 
second        one       two
first 
bar   A  0.895717 -1.206412
 B  0.805244  2.565646
baz   A  1.431256 -1.170299
 B  1.340309 -0.226169

In [29]: stacked.unstack(0)
Out[29]: 
first          bar       baz
second 
one    A  0.895717  1.431256
 B  0.805244  1.340309
two    A -1.206412 -1.170299
 B  2.565646 -0.226169

如果索引有名称，可以使用级别名称而不是指定级别编号：

In [30]: stacked.unstack("second")
Out[30]: 
second        one       two
first 
bar   A  0.895717 -1.206412
 B  0.805244  2.565646
baz   A  1.431256 -1.170299
 B  1.340309 -0.226169

请注意，stack() 和 unstack() 方法会隐式对涉及的索引级别进行排序。因此，调用 stack() 然后 unstack()，或反之亦然，将导致原始DataFrame或Series的排序副本：

In [31]: index = pd.MultiIndex.from_product([[2, 1], ["a", "b"]])

In [32]: df = pd.DataFrame(np.random.randn(4), index=index, columns=["A"])

In [33]: df
Out[33]: 
 A
2 a -1.413681
 b  1.607920
1 a  1.024180
 b  0.569605

In [34]: all(df.unstack().stack(future_stack=True) == df.sort_index())
Out[34]: True

多级别

也可以一次堆叠或展开多个级别，通过传递级别列表，此时的最终结果就好像列表中的每个级别都被单独处理一样。

In [35]: columns = pd.MultiIndex.from_tuples(
 ....:    [
 ....:        ("A", "cat", "long"),
 ....:        ("B", "cat", "long"),
 ....:        ("A", "dog", "short"),
 ....:        ("B", "dog", "short"),
 ....:    ],
 ....:    names=["exp", "animal", "hair_length"],
 ....: )
 ....: 

In [36]: df = pd.DataFrame(np.random.randn(4, 4), columns=columns)

In [37]: df
Out[37]: 
exp                 A         B         A         B
animal            cat       cat       dog       dog
hair_length      long      long     short     short
0            0.875906 -2.211372  0.974466 -2.006747
1           -0.410001 -0.078638  0.545952 -1.219217
2           -1.226825  0.769804 -1.281247 -0.727707
3           -0.121306 -0.097883  0.695775  0.341734

In [38]: df.stack(level=["animal", "hair_length"], future_stack=True)
Out[38]: 
exp                          A         B
 animal hair_length 
0 cat    long         0.875906 -2.211372
 dog    short        0.974466 -2.006747
1 cat    long        -0.410001 -0.078638
 dog    short        0.545952 -1.219217
2 cat    long        -1.226825  0.769804
 dog    short       -1.281247 -0.727707
3 cat    long        -0.121306 -0.097883
 dog    short        0.695775  0.341734

级别列表可以包含级别名称或级别编号，但不能混合使用。

# df.stack(level=['animal', 'hair_length'], future_stack=True)
# from above is equivalent to:
In [39]: df.stack(level=[1, 2], future_stack=True)
Out[39]: 
exp                          A         B
 animal hair_length 
0 cat    long         0.875906 -2.211372
 dog    short        0.974466 -2.006747
1 cat    long        -0.410001 -0.078638
 dog    short        0.545952 -1.219217
2 cat    long        -1.226825  0.769804
 dog    short       -1.281247 -0.727707
3 cat    long        -0.121306 -0.097883
 dog    short        0.695775  0.341734

缺失数据

如果子组没有相同的标签集，展开可能导致缺失值。默认情况下，缺失值将被替换为该数据类型的默认填充值。

In [40]: columns = pd.MultiIndex.from_tuples(
 ....:    [
 ....:        ("A", "cat"),
 ....:        ("B", "dog"),
 ....:        ("B", "cat"),
 ....:        ("A", "dog"),
 ....:    ],
 ....:    names=["exp", "animal"],
 ....: )
 ....: 

In [41]: index = pd.MultiIndex.from_product(
 ....:    [("bar", "baz", "foo", "qux"), ("one", "two")], names=["first", "second"]
 ....: )
 ....: 

In [42]: df = pd.DataFrame(np.random.randn(8, 4), index=index, columns=columns)

In [43]: df3 = df.iloc[[0, 1, 4, 7], [1, 2]]

In [44]: df3
Out[44]: 
exp                  B 
animal             dog       cat
first second 
bar   one    -1.110336 -0.619976
 two     0.687738  0.176444
foo   one     1.314232  0.690579
qux   two     0.380396  0.084844

In [45]: df3.unstack()
Out[45]: 
exp            B 
animal       dog                 cat 
second       one       two       one       two
first 
bar    -1.110336  0.687738 -0.619976  0.176444
foo     1.314232       NaN  0.690579       NaN
qux          NaN  0.380396       NaN  0.084844

可以使用fill_value参数将缺失值填充为特定值。

In [46]: df3.unstack(fill_value=-1e9)
Out[46]: 
exp                B 
animal           dog                         cat 
second           one           two           one           two
first 
bar    -1.110336e+00  6.877384e-01 -6.199759e-01  1.764443e-01
foo     1.314232e+00 -1.000000e+09  6.905793e-01 -1.000000e+09
qux    -1.000000e+09  3.803956e-01 -1.000000e+09  8.484421e-02

多级别

也可以一次堆叠或展开多个级别，通过传递级别列表，此时的最终结果就好像列表中的每个级别都被单独处理一样。

In [35]: columns = pd.MultiIndex.from_tuples(
 ....:    [
 ....:        ("A", "cat", "long"),
 ....:        ("B", "cat", "long"),
 ....:        ("A", "dog", "short"),
 ....:        ("B", "dog", "short"),
 ....:    ],
 ....:    names=["exp", "animal", "hair_length"],
 ....: )
 ....: 

In [36]: df = pd.DataFrame(np.random.randn(4, 4), columns=columns)

In [37]: df
Out[37]: 
exp                 A         B         A         B
animal            cat       cat       dog       dog
hair_length      long      long     short     short
0            0.875906 -2.211372  0.974466 -2.006747
1           -0.410001 -0.078638  0.545952 -1.219217
2           -1.226825  0.769804 -1.281247 -0.727707
3           -0.121306 -0.097883  0.695775  0.341734

In [38]: df.stack(level=["animal", "hair_length"], future_stack=True)
Out[38]: 
exp                          A         B
 animal hair_length 
0 cat    long         0.875906 -2.211372
 dog    short        0.974466 -2.006747
1 cat    long        -0.410001 -0.078638
 dog    short        0.545952 -1.219217
2 cat    long        -1.226825  0.769804
 dog    short       -1.281247 -0.727707
3 cat    long        -0.121306 -0.097883
 dog    short        0.695775  0.341734

级别列表可以包含级别名称或级别编号，但不能混合使用。

# df.stack(level=['animal', 'hair_length'], future_stack=True)
# from above is equivalent to:
In [39]: df.stack(level=[1, 2], future_stack=True)
Out[39]: 
exp                          A         B
 animal hair_length 
0 cat    long         0.875906 -2.211372
 dog    short        0.974466 -2.006747
1 cat    long        -0.410001 -0.078638
 dog    short        0.545952 -1.219217
2 cat    long        -1.226825  0.769804
 dog    short       -1.281247 -0.727707
3 cat    long        -0.121306 -0.097883
 dog    short        0.695775  0.341734

缺失数据

如果子组没有相同的标签集，展开可能导致缺失值。默认情况下，缺失值将被替换为该数据类型的默认填充值。

In [40]: columns = pd.MultiIndex.from_tuples(
 ....:    [
 ....:        ("A", "cat"),
 ....:        ("B", "dog"),
 ....:        ("B", "cat"),
 ....:        ("A", "dog"),
 ....:    ],
 ....:    names=["exp", "animal"],
 ....: )
 ....: 

In [41]: index = pd.MultiIndex.from_product(
 ....:    [("bar", "baz", "foo", "qux"), ("one", "two")], names=["first", "second"]
 ....: )
 ....: 

In [42]: df = pd.DataFrame(np.random.randn(8, 4), index=index, columns=columns)

In [43]: df3 = df.iloc[[0, 1, 4, 7], [1, 2]]

In [44]: df3
Out[44]: 
exp                  B 
animal             dog       cat
first second 
bar   one    -1.110336 -0.619976
 two     0.687738  0.176444
foo   one     1.314232  0.690579
qux   two     0.380396  0.084844

In [45]: df3.unstack()
Out[45]: 
exp            B 
animal       dog                 cat 
second       one       two       one       two
first 
bar    -1.110336  0.687738 -0.619976  0.176444
foo     1.314232       NaN  0.690579       NaN
qux          NaN  0.380396       NaN  0.084844

可以使用fill_value参数将缺失值填充为特定值。

In [46]: df3.unstack(fill_value=-1e9)
Out[46]: 
exp                B 
animal           dog                         cat 
second           one           two           one           two
first 
bar    -1.110336e+00  6.877384e-01 -6.199759e-01  1.764443e-01
foo     1.314232e+00 -1.000000e+09  6.905793e-01 -1.000000e+09
qux    -1.000000e+09  3.803956e-01 -1.000000e+09  8.484421e-02

`melt()` 和 `wide_to_long()`

顶级melt()函数及其对应的DataFrame.melt()对于将DataFrame整理成一个格式很有用，其中一个或多个列是标识变量，而所有其他列，被认为是测量变量，都被“展开”到行轴上，仅留下两个非标识列，“变量”和“值”。这些列的名称可以通过提供 var_name 和 value_name 参数进行自定义。

In [47]: cheese = pd.DataFrame(
 ....:    {
 ....:        "first": ["John", "Mary"],
 ....:        "last": ["Doe", "Bo"],
 ....:        "height": [5.5, 6.0],
 ....:        "weight": [130, 150],
 ....:    }
 ....: )
 ....: 

In [48]: cheese
Out[48]: 
 first last  height  weight
0  John  Doe     5.5     130
1  Mary   Bo     6.0     150

In [49]: cheese.melt(id_vars=["first", "last"])
Out[49]: 
 first last variable  value
0  John  Doe   height    5.5
1  Mary   Bo   height    6.0
2  John  Doe   weight  130.0
3  Mary   Bo   weight  150.0

In [50]: cheese.melt(id_vars=["first", "last"], var_name="quantity")
Out[50]: 
 first last quantity  value
0  John  Doe   height    5.5
1  Mary   Bo   height    6.0
2  John  Doe   weight  130.0
3  Mary   Bo   weight  150.0

使用melt()转换 DataFrame 时，索引会被忽略。通过将 ignore_index=False 参数设置为 False（默认为 True），可以保留原始索引值。ignore_index=False 会导致索引值重复。

In [51]: index = pd.MultiIndex.from_tuples([("person", "A"), ("person", "B")])

In [52]: cheese = pd.DataFrame(
 ....:    {
 ....:        "first": ["John", "Mary"],
 ....:        "last": ["Doe", "Bo"],
 ....:        "height": [5.5, 6.0],
 ....:        "weight": [130, 150],
 ....:    },
 ....:    index=index,
 ....: )
 ....: 

In [53]: cheese
Out[53]: 
 first last  height  weight
person A  John  Doe     5.5     130
 B  Mary   Bo     6.0     150

In [54]: cheese.melt(id_vars=["first", "last"])
Out[54]: 
 first last variable  value
0  John  Doe   height    5.5
1  Mary   Bo   height    6.0
2  John  Doe   weight  130.0
3  Mary   Bo   weight  150.0

In [55]: cheese.melt(id_vars=["first", "last"], ignore_index=False)
Out[55]: 
 first last variable  value
person A  John  Doe   height    5.5
 B  Mary   Bo   height    6.0
 A  John  Doe   weight  130.0
 B  Mary   Bo   weight  150.0

wide_to_long() 类似于 melt() ，但具有更多的列匹配自定义选项。

In [56]: dft = pd.DataFrame(
 ....:    {
 ....:        "A1970": {0: "a", 1: "b", 2: "c"},
 ....:        "A1980": {0: "d", 1: "e", 2: "f"},
 ....:        "B1970": {0: 2.5, 1: 1.2, 2: 0.7},
 ....:        "B1980": {0: 3.2, 1: 1.3, 2: 0.1},
 ....:        "X": dict(zip(range(3), np.random.randn(3))),
 ....:    }
 ....: )
 ....: 

In [57]: dft["id"] = dft.index

In [58]: dft
Out[58]: 
 A1970 A1980  B1970  B1980         X  id
0     a     d    2.5    3.2  1.519970   0
1     b     e    1.2    1.3 -0.493662   1
2     c     f    0.7    0.1  0.600178   2

In [59]: pd.wide_to_long(dft, ["A", "B"], i="id", j="year")
Out[59]: 
 X  A    B
id year 
0  1970  1.519970  a  2.5
1  1970 -0.493662  b  1.2
2  1970  0.600178  c  0.7
0  1980  1.519970  d  3.2
1  1980 -0.493662  e  1.3
2  1980  0.600178  f  0.1

`get_dummies()` 和 `from_dummies()`

将Series的分类变量转换为“虚拟”或“指示符”时，get_dummies()会创建一个新的DataFrame，其中包含唯一变量的列，值表示每行中这些变量的存在情况。

In [60]: df = pd.DataFrame({"key": list("bbacab"), "data1": range(6)})

In [61]: pd.get_dummies(df["key"])
Out[61]: 
 a      b      c
0  False   True  False
1  False   True  False
2   True  False  False
3  False  False   True
4   True  False  False
5  False   True  False

In [62]: df["key"].str.get_dummies()
Out[62]: 
 a  b  c
0  0  1  0
1  0  1  0
2  1  0  0
3  0  0  1
4  1  0  0
5  0  1  0

prefix 为列名添加一个前缀，这对于将结果与原始DataFrame合并很有用：

In [63]: dummies = pd.get_dummies(df["key"], prefix="key")

In [64]: dummies
Out[64]: 
 key_a  key_b  key_c
0  False   True  False
1  False   True  False
2   True  False  False
3  False  False   True
4   True  False  False
5  False   True  False

In [65]: df[["data1"]].join(dummies)
Out[65]: 
 data1  key_a  key_b  key_c
0      0  False   True  False
1      1  False   True  False
2      2   True  False  False
3      3  False  False   True
4      4   True  False  False
5      5  False   True  False

这个函数经常与诸如 cut() 这样的离散化函数一起使用：

In [66]: values = np.random.randn(10)

In [67]: values
Out[67]: 
array([ 0.2742,  0.1329, -0.0237,  2.4102,  1.4505,  0.2061, -0.2519,
 -2.2136,  1.0633,  1.2661])

In [68]: bins = [0, 0.2, 0.4, 0.6, 0.8, 1]

In [69]: pd.get_dummies(pd.cut(values, bins))
Out[69]: 
 (0.0, 0.2]  (0.2, 0.4]  (0.4, 0.6]  (0.6, 0.8]  (0.8, 1.0]
0       False        True       False       False       False
1        True       False       False       False       False
2       False       False       False       False       False
3       False       False       False       False       False
4       False       False       False       False       False
5       False        True       False       False       False
6       False       False       False       False       False
7       False       False       False       False       False
8       False       False       False       False       False
9       False       False       False       False       False

get_dummies() 也接受一个DataFrame。默认情况下，object、string或categorical类型的列会被编码为虚拟变量，其他列不变。

In [70]: df = pd.DataFrame({"A": ["a", "b", "a"], "B": ["c", "c", "b"], "C": [1, 2, 3]})

In [71]: pd.get_dummies(df)
Out[71]: 
 C    A_a    A_b    B_b    B_c
0  1   True  False  False   True
1  2  False   True  False   True
2  3   True  False   True  False

指定 columns 关键字会编码任何类型的列。

In [72]: pd.get_dummies(df, columns=["A"])
Out[72]: 
 B  C    A_a    A_b
0  c  1   True  False
1  c  2  False   True
2  b  3   True  False

与Series版本一样，可以为 prefix 和 prefix_sep 传递值。默认情况下，列名用作前缀，_ 用作前缀分隔符。可以以 3 种方式指定 prefix 和 prefix_sep：

字符串：对于要编码的每列，使用相同的值作为 prefix 或 prefix_sep。
列表：必须与被编码的列数相同。
字典：将列名映射到前缀。

In [73]: simple = pd.get_dummies(df, prefix="new_prefix")

In [74]: simple
Out[74]: 
 C  new_prefix_a  new_prefix_b  new_prefix_b  new_prefix_c
0  1          True         False         False          True
1  2         False          True         False          True
2  3          True         False          True         False

In [75]: from_list = pd.get_dummies(df, prefix=["from_A", "from_B"])

In [76]: from_list
Out[76]: 
 C  from_A_a  from_A_b  from_B_b  from_B_c
0  1      True     False     False      True
1  2     False      True     False      True
2  3      True     False      True     False

In [77]: from_dict = pd.get_dummies(df, prefix={"B": "from_B", "A": "from_A"})

In [78]: from_dict
Out[78]: 
 C  from_A_a  from_A_b  from_B_b  from_B_c
0  1      True     False     False      True
1  2     False      True     False      True
2  3      True     False      True     False

在将结果提供给统计模型时，为避免共线性，请指定 drop_first=True。

In [79]: s = pd.Series(list("abcaa"))

In [80]: pd.get_dummies(s)
Out[80]: 
 a      b      c
0   True  False  False
1  False   True  False
2  False  False   True
3   True  False  False
4   True  False  False

In [81]: pd.get_dummies(s, drop_first=True)
Out[81]: 
 b      c
0  False  False
1   True  False
2  False   True
3  False  False
4  False  False

当列只包含一个级别时，结果中将省略该列。

In [82]: df = pd.DataFrame({"A": list("aaaaa"), "B": list("ababc")})

In [83]: pd.get_dummies(df)
Out[83]: 
 A_a    B_a    B_b    B_c
0  True   True  False  False
1  True  False   True  False
2  True   True  False  False
3  True  False   True  False
4  True  False  False   True

In [84]: pd.get_dummies(df, drop_first=True)
Out[84]: 
 B_b    B_c
0  False  False
1   True  False
2  False  False
3   True  False
4  False   True

可以使用 dtype 参数将值转换为不同类型。

In [85]: df = pd.DataFrame({"A": list("abc"), "B": [1.1, 2.2, 3.3]})

In [86]: pd.get_dummies(df, dtype=np.float32).dtypes
Out[86]: 
B      float64
A_a    float32
A_b    float32
A_c    float32
dtype: object

版本 1.5.0 中的新功能。

from_dummies() 将 get_dummies() 的输出转换回指示值的分类值 Series。

In [87]: df = pd.DataFrame({"prefix_a": [0, 1, 0], "prefix_b": [1, 0, 1]})

In [88]: df
Out[88]: 
 prefix_a  prefix_b
0         0         1
1         1         0
2         0         1

In [89]: pd.from_dummies(df, sep="_")
Out[89]: 
 prefix
0      b
1      a
2      b

虚拟编码数据只需要包含 k - 1 个类别，此时最后一个类别是默认类别。默认类别可以使用 default_category 修改。

In [90]: df = pd.DataFrame({"prefix_a": [0, 1, 0]})

In [91]: df
Out[91]: 
 prefix_a
0         0
1         1
2         0

In [92]: pd.from_dummies(df, sep="_", default_category="b")
Out[92]: 
 prefix
0      b
1      a
2      b

`explode()`

对于具有嵌套、类似列表的值的 DataFrame 列，explode() 将每个类似列表的值转换为单独的行。生成的 Index 将根据原始行的索引标签重复：

In [93]: keys = ["panda1", "panda2", "panda3"]

In [94]: values = [["eats", "shoots"], ["shoots", "leaves"], ["eats", "leaves"]]

In [95]: df = pd.DataFrame({"keys": keys, "values": values})

In [96]: df
Out[96]: 
 keys            values
0  panda1    [eats, shoots]
1  panda2  [shoots, leaves]
2  panda3    [eats, leaves]

In [97]: df["values"].explode()
Out[97]: 
0      eats
0    shoots
1    shoots
1    leaves
2      eats
2    leaves
Name: values, dtype: object

DataFrame.explode 也可以将 DataFrame 中的列扩展。

In [98]: df.explode("values")
Out[98]: 
 keys  values
0  panda1    eats
0  panda1  shoots
1  panda2  shoots
1  panda2  leaves
2  panda3    eats
2  panda3  leaves

Series.explode() 将空列表替换为缺失值指示符，并保留标量条目。

In [99]: s = pd.Series([[1, 2, 3], "foo", [], ["a", "b"]])

In [100]: s
Out[100]: 
0    [1, 2, 3]
1          foo
2           []
3       [a, b]
dtype: object

In [101]: s.explode()
Out[101]: 
0      1
0      2
0      3
1    foo
2    NaN
3      a
3      b
dtype: object

逗号分隔的字符串值可以拆分为列表中的单个值，然后扩展到新行。

In [102]: df = pd.DataFrame([{"var1": "a,b,c", "var2": 1}, {"var1": "d,e,f", "var2": 2}])

In [103]: df.assign(var1=df.var1.str.split(",")).explode("var1")
Out[103]: 
 var1  var2
0    a     1
0    b     1
0    c     1
1    d     2
1    e     2
1    f     2

`crosstab()`

使用 crosstab() 计算两个（或更多）因子的交叉制表。默认情况下，crosstab() 计算因子的频率表，除非传递了值数组和聚合函数。

任何传递的 Series 将使用其名称属性，除非为交叉制表指定了行或列名称

In [104]: a = np.array(["foo", "foo", "bar", "bar", "foo", "foo"], dtype=object)

In [105]: b = np.array(["one", "one", "two", "one", "two", "one"], dtype=object)

In [106]: c = np.array(["dull", "dull", "shiny", "dull", "dull", "shiny"], dtype=object)

In [107]: pd.crosstab(a, [b, c], rownames=["a"], colnames=["b", "c"])
Out[107]: 
b    one        two 
c   dull shiny dull shiny
a 
bar    1     0    0     1
foo    2     1    1     0

如果 crosstab() 只接收两个 Series，它将提供一个频率表。

In [108]: df = pd.DataFrame(
 .....:    {"A": [1, 2, 2, 2, 2], "B": [3, 3, 4, 4, 4], "C": [1, 1, np.nan, 1, 1]}
 .....: )
 .....: 

In [109]: df
Out[109]: 
 A  B    C
0  1  3  1.0
1  2  3  1.0
2  2  4  NaN
3  2  4  1.0
4  2  4  1.0

In [110]: pd.crosstab(df["A"], df["B"])
Out[110]: 
B  3  4
A 
1  1  0
2  1  3

crosstab() 还可以总结为Categorical数据。

In [111]: foo = pd.Categorical(["a", "b"], categories=["a", "b", "c"])

In [112]: bar = pd.Categorical(["d", "e"], categories=["d", "e", "f"])

In [113]: pd.crosstab(foo, bar)
Out[113]: 
col_0  d  e
row_0 
a      1  0
b      0  1

对于Categorical数据，要包含所有数据类别，即使实际数据不包含特定类别的任何实例，使用dropna=False。

In [114]: pd.crosstab(foo, bar, dropna=False)
Out[114]: 
col_0  d  e  f
row_0 
a      1  0  0
b      0  1  0
c      0  0  0

标准化

频率表也可以通过normalize参数显示百分比而不是计数：

In [115]: pd.crosstab(df["A"], df["B"], normalize=True)
Out[115]: 
B    3    4
A 
1  0.2  0.0
2  0.2  0.6

normalize还可以在每行或每列内规范化值：

In [116]: pd.crosstab(df["A"], df["B"], normalize="columns")
Out[116]: 
B    3    4
A 
1  0.5  0.0
2  0.5  1.0

crosstab() 还可以接受第三个Series和一个聚合函数(aggfunc)，该函数将应用于第三个Series的值，这些值在由前两个Series定义的每个组内：

In [117]: pd.crosstab(df["A"], df["B"], values=df["C"], aggfunc="sum")
Out[117]: 
B    3    4
A 
1  1.0  NaN
2  1.0  2.0

添加边际

margins=True 将添加一个带有All标签的行和列，该标签在行和列上的类别中部分组聚合：

In [118]: pd.crosstab(
 .....:    df["A"], df["B"], values=df["C"], aggfunc="sum", normalize=True, margins=True
 .....: )
 .....: 
Out[118]: 
B       3    4   All
A 
1    0.25  0.0  0.25
2    0.25  0.5  0.75
All  0.50  0.5  1.00

标准化

频率表也可以通过normalize参数显示百分比而不是计数：

In [115]: pd.crosstab(df["A"], df["B"], normalize=True)
Out[115]: 
B    3    4
A 
1  0.2  0.0
2  0.2  0.6

normalize还可以在每行或每列内规范化值：

In [116]: pd.crosstab(df["A"], df["B"], normalize="columns")
Out[116]: 
B    3    4
A 
1  0.5  0.0
2  0.5  1.0

crosstab() 还可以接受第三个Series和一个聚合函数(aggfunc)，该函数将应用于第三个Series的值，这些值在由前两个Series定义的每个组内：

In [117]: pd.crosstab(df["A"], df["B"], values=df["C"], aggfunc="sum")
Out[117]: 
B    3    4
A 
1  1.0  NaN
2  1.0  2.0

添加边际

margins=True 将添加一个带有All标签的行和列，该标签在行和列上的类别中部分组聚合：

In [118]: pd.crosstab(
 .....:    df["A"], df["B"], values=df["C"], aggfunc="sum", normalize=True, margins=True
 .....: )
 .....: 
Out[118]: 
B       3    4   All
A 
1    0.25  0.0  0.25
2    0.25  0.5  0.75
All  0.50  0.5  1.00

`cut()`

cut() 函数计算输入数组的值的分组，并经常用于将连续变量转换为离散或分类变量：

整数bins将形成等宽箱。

In [119]: ages = np.array([10, 15, 13, 12, 23, 25, 28, 59, 60])

In [120]: pd.cut(ages, bins=3)
Out[120]: 
[(9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (26.667, 43.333], (43.333, 60.0], (43.333, 60.0]]
Categories (3, interval[float64, right]): [(9.95, 26.667] < (26.667, 43.333] < (43.333, 60.0]]

一个有序的箱边列表将为每个变量分配一个区间。

In [121]: pd.cut(ages, bins=[0, 18, 35, 70])
Out[121]: 
[(0, 18], (0, 18], (0, 18], (0, 18], (18, 35], (18, 35], (18, 35], (35, 70], (35, 70]]
Categories (3, interval[int64, right]): [(0, 18] < (18, 35] < (35, 70]]

如果bins关键字是一个IntervalIndex，那么这些将用于对传递的数据进行分箱。

In [122]: pd.cut(ages, bins=pd.IntervalIndex.from_breaks([0, 40, 70]))
Out[122]: 
[(0, 40], (0, 40], (0, 40], (0, 40], (0, 40], (0, 40], (0, 40], (40, 70], (40, 70]]
Categories (2, interval[int64, right]): [(0, 40] < (40, 70]]

`factorize()`

factorize() 将一维数值编码为整数标签。缺失值被编码为-1。

In [123]: x = pd.Series(["A", "A", np.nan, "B", 3.14, np.inf])

In [124]: x
Out[124]: 
0       A
1       A
2     NaN
3       B
4    3.14
5     inf
dtype: object

In [125]: labels, uniques = pd.factorize(x)

In [126]: labels
Out[126]: array([ 0,  0, -1,  1,  2,  3])

In [127]: uniques
Out[127]: Index(['A', 'B', 3.14, inf], dtype='object')

Categorical 会类似地对一维值进行编码，以进行更多的分类操作。

In [128]: pd.Categorical(x)
Out[128]: 
['A', 'A', NaN, 'B', 3.14, inf]
Categories (4, object): [3.14, inf, 'A', 'B']

posted @ 2024-06-24 16:11 绝不原创的飞龙阅读(69) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈

Pandas-2-2-中文文档-八-

Pandas 2.2 中文文档（八）

写时复制（CoW）

先前的行为

迁移到写时复制

描述

链式赋值

避免模式

写时拷贝优化

先前的行为

迁移至 Copy-on-Write

描述

链式赋值

只读 NumPy 数组

避免的模式

写时复制优化

如何启用写时复制

合并，连接，串联和比较

concat()

结果轴的连接逻辑

结果的keys

将行附加到DataFrame

连接类型

合并键的唯一性

重叠值列

DataFrame.join()

结果轴的连接逻辑

结果的keys

将行附加到DataFrame

结果轴的连接逻辑

结果keys

将行附加到DataFrame

合并类型

合并键的唯一性

重叠值列

合并类型

合并键唯一性

合并结果指示器

重叠值列

DataFrame.join()

连接多个DataFrame

merge_asof()

compare()

重塑和透视表

pivot() 和 pivot_table()

pivot()

pivot_table()

添加边距

多个级别

缺失数据

归一化

添加边际

pivot() 和 pivot_table()

pivot()

pivot_table()

添加边距

pivot()

pivot_table()

添加边距

stack() 和 unstack()

多级别

缺失数据

多级别

缺失数据

melt() 和 wide_to_long()

get_dummies() 和 from_dummies()

explode()

crosstab()

标准化

添加边际

标准化

添加边际

cut()

factorize()

公告

`concat()`

结果的`keys`

将行附加到`DataFrame`

`DataFrame.join()`

结果的`keys`

将行附加到`DataFrame`

结果`keys`

将行附加到`DataFrame`

`DataFrame.join()`

连接多个`DataFrame`

`merge_asof()`

`compare()`

`pivot()` 和 `pivot_table()`

`pivot()`

`pivot_table()`

`pivot()` 和 `pivot_table()`

`pivot()`

`pivot_table()`

`pivot()`

`pivot_table()`

`stack()` 和 `unstack()`

`melt()` 和 `wide_to_long()`

`get_dummies()` 和 `from_dummies()`

`explode()`

`crosstab()`

`cut()`

`factorize()`