Pandas-2-2-中文文档-六十二-

Pandas 2.2 中文文档（六十二）

原文：pandas.pydata.org/docs/

版本 0.5.0（2011 年 10 月 24 日）

原文：pandas.pydata.org/docs/whatsnew/v0.5.0.html

新功能

添加 DataFrame.align 方法与标准连接选项
添加 parse_dates 选项到 read_csv 和 read_table 方法以尝试在索引列中解析日期
添加 nrows，chunksize 和 iterator 参数到 read_csv 和 read_table。最后两个返回一个新的 TextParser 类，能够惰性地迭代一个平面文件的块（GH 242）
添加在 DataFrame.join 中多列连接的能力（GH 214）
添加私有 _get_duplicates 函数到 Index 用于更容易地识别重复值（ENH5c）
添加 DataFrame 的列属性访问。
添加 DataFrame 列的 Python tab 补全钩子。（GH 233, GH 230）
实现 Series.describe 用于包含对象的 Series（GH 241）
添加在键上连接时 DataFrame.join 的内部连接选项（GH 248）
实现通过传递列表到 __getitem__ 选择 DataFrame 列（GH 253）
实现 & 和 | 分别用于交集 / 并集 Index 对象（GH 261）
添加 pivot_table 方便函数到 pandas 命名空间（GH 234）
实现 Panel.rename_axis 函数（GH 243）
DataFrame 将在控制台输出中显示索引级别名称（GH 334）
实现 Panel.take
添加 set_eng_float_format 用于备选 DataFrame 浮点字符串格式化（ENH61）
添加方便的 set_index 函数用于从现有列创建 DataFrame 索引
实现了 groupby 分层索引级别名称 (GH 223)
为 DataFrame.to_csv 添加对不同分隔符的支持 (GH 244)

性能增强

VBENCH 在文件解析函数 read_csv 和 read_table 中进行了重大性能改进
VBENCH 添加了将元组转换为 ndarray 的 Cython 函数，速度非常快。加快了许多与 MultiIndex 相关的操作
VBENCH 重构了合并/连接代码到一个整洁的类，并在浮点数/对象情况下禁用了不必要的计算，从而获得了约 10% 的性能提升 (GH 211)
VBENCH 将混合类型 DataFrame 对象上的 DataFrame.xs 的速度提高了约 5 倍，与 0.3.0 版本相比有所回归 (GH 215)
VBENCH 使用新的 DataFrame.align 方法，将不同索引的 DataFrame 对象之间的二进制操作加快了 10-25%。
VBENCH 显著加快了将嵌套字典转换为 DataFrame 的速度 (GH 212)
VBENCH 在大型混合类型 DataFrame 对象的 __repr__ 和 count 上显著提速

贡献者

总共有 9 人为这个版本贡献了补丁。在他们的名字旁边带有“+”号的人是首次贡献补丁的。

Aman Thakral +
Luca Beltrame +
Nick Pentreath +
Skipper Seabold
Thomas Kluyver +
Wes McKinney
Yaroslav Halchenko +
lodagro +
未知 +

新功能

添加 DataFrame.align 方法，具有标准的连接选项
为 read_csv 和 read_table 方法添加了 parse_dates 选项，可选择尝试解析索引列中的日期
为 read_csv 和 read_table 添加了 nrows、chunksize 和 iterator 参数。最后两个返回一个新的 TextParser 类，能够惰性地迭代扁平文件的块 (GH 242)
为 DataFrame.join 添加了在多个列上连接的功能 (GH 214)
为 Index 添加了私有的 _get_duplicates 函数，更容易识别重复值 (ENH5c)
为 DataFrame 添加了列属性访问。
为 DataFrame 列添加 Python 补全钩子。 (GH 233, GH 230)
为包含对象的 Series 实现了 Series.describe (GH 241)
在在关键词上连接时，为 DataFrame.join 添加了内连接选项（GH 248）
实现了通过将列表传递给 __getitem__ 来选择 DataFrame 列（GH 253）
实现了 & 和 | 以分别交集 / 并集索引对象，对应于 (GH 261)
添加了 pivot_table 便捷函数到 pandas 命名空间（GH 234）
实现了 Panel.rename_axis 函数（GH 243）
DataFrame 将在控制台输出中显示索引级别名称（GH 334）
实现了 Panel.take
添加了 set_eng_float_format 以备用 DataFrame 浮点字符串格式化（ENH61）
添加了用于从现有列创建 DataFrame 索引的便捷 set_index 函数
实现了 groupby 分层索引级别名称（GH 223）
添加了对 DataFrame.to_csv 中的不同分隔符的支持（GH 244）

性能增强

VBENCH 在文件解析函数 read_csv 和 read_table 中进行了主要性能改进
VBENCH 添加了 Cython 函数，用于将元组快速转换为 ndarray。加快了许多 MultiIndex 相关的操作的速度
VBENCH 重构了合并 / 连接代码为一个整洁的类，并在 float/object 情况下禁用了不必要的计算，从而使性能提高了约 10%（GH 211）
VBENCH 对混合类型 DataFrame 对象上的 DataFrame.xs 的速度提升了约 5 倍，从 0.3.0 版本开始出现的回归（GH 215）
VBENCH 使用新的 DataFrame.align 方法，将不同索引的 DataFrame 对象之间的二进制操作加速了 10-25%。
VBENCH 大大加快了将嵌套字典转换为 DataFrame 的速度（GH 212）
VBENCH 大幅加快了大型混合类型 DataFrame 对象上的 __repr__ 和 count 的速度

贡献者

总共有 9 人为此版本贡献了补丁。带有 “+” 的人第一次为此贡献了补丁。

阿曼·塔克拉尔 +
卢卡·贝尔特拉梅 +
尼克·彭特里斯 +
斯基普·西波尔德
托马斯·克鲁伊弗 +
韦斯·麦金尼
亚罗斯拉夫·哈尔琴科 +
洛达格罗 +
未知 +

版本 0.4.1 到 0.4.3（2011 年 9 月 25 日 - 10 月 9 日）

原文：pandas.pydata.org/docs/whatsnew/v0.4.x.html

新功能

使用 2to3 添加了 Python 3 支持（GH 200)
添加了 Series 的 name 属性，现在作为 Series.__repr__ 的一部分打印出来
Series.isnull()和Series.notnull()`（GH 209, GH 203)
添加了 Series.align 方法，用于对齐两个系列并选择连接方法（ENH56)
添加 get_level_values 方法到 MultiIndex（GH 188)
通过 .ix 索引属性在混合类型 DataFrame 对象中设置值（GH 135)
添加了新的 DataFrame 方法 get_dtype_counts 和属性 dtypes（ENHdc)
在 DataFrame.append 中添加了 ignore_index 选项以堆叠 DataFrames（ENH1b)
read_csv 尝试使用 csv.Sniffer 来嗅探分隔符（GH 146)
read_csv 可以读取多列到 MultiIndex；DataFrame 的 to_csv 方法写出相应的 MultiIndex（GH 151)
DataFrame.rename 有一个新的 copy 参数，可以重命名一个 DataFrame（ENHed)
启用按名称展开（GH 142)
启用 sortlevel 按级别工作（GH 141)

性能增强

修改了不同索引 SparseSeries 对象的二进制操作，使用了基于整数的（稠密）对齐逻辑，这样在有更多块时速度更快（GH 205)
编写了更快的 Cython 数据对齐/合并例程，导致速度大幅提升
改进了 isnull 和 notnull 的性能，这是从 v0.3.0 中的一个回归（GH 187)
重构了与 DataFrame.join 相关的代码，使得每个 DataFrame 参数中的数据的中间对齐副本不需要被创建。性能显著提高 (GH 176)
大幅提高了通用 Index.intersection 和 Index.union 的性能
实现了 BlockManager.take，从而显著提高了混合类型 DataFrame 对象上的 take 性能 (GH 104)
改进了 Series.sort_index 的性能
重要的groupby性能增强：在减少DataFrame内部不必要的完整性检查，以加快检索组的切片操作速度。
优化了 _ensure_index 函数，从而在类型检查索引对象时节省了性能。
在 Cython 中编写了快速的时间序列合并/连接方法。将稍后集成到 DataFrame.join 和相关函数中。

贡献者

总共有 2 人为这个版本贡献了补丁。名字旁边带有“+”符号的人是第一次贡献补丁。

Thomas Kluyver +
Wes McKinney

新功能

添加了使用 2to3 的 Python 3 支持 (GH 200)
添加 name 属性到 Series，现在作为 Series.__repr__ 的一部分打印出来。
Series.isnull()和Series.notnull()` (GH 209, GH 203)
添加 Series.align 方法，用于对齐两个系列并选择连接方法 (ENH56)
添加 get_level_values 方法到 MultiIndex (GH 188)
通过 .ix 索引属性在混合类型 DataFrame 对象中设置值 (GH 135)
添加了新的 DataFrame 方法 get_dtype_counts 和属性 dtypes (ENHdc)
在 DataFrame.append 中添加了 ignore_index 选项以堆叠数据帧 (ENH1b)
read_csv 尝试使用 csv.Sniffer 来嗅探分隔符 (GH 146)
read_csv 可以读取多列到 MultiIndex；DataFrame 的 to_csv 方法写出相应的 MultiIndex (GH 151)
DataFrame.rename现在有一个新的copy参数，可以在原地重命名一个 DataFrame（ENHed）
启用按名称进行 unstack 操作（GH 142）
启用按级别进行sortlevel操作（GH 141）

性能增强

修改了对不同索引的稀疏系列对象的二进制操作，使用了基于整数的（密集）对齐逻辑，这对于具有更多块的情况更快速（GH 205）
使用 Cython 编写了更快的数据对齐/合并例程，大幅提高了速度
改进了isnull和notnull的性能，这是从 v0.3.0 版本中的一个回归（GH 187）
重构了与DataFrame.join相关的代码，使得每个DataFrame参数中的数据不需要创建中间对齐的副本。显著提高了性能（GH 176）
大幅提高了通用Index.intersection和Index.union的性能
实现了BlockManager.take，显著提高了混合类型DataFrame对象的take性能（GH 104）
改进了Series.sort_index的性能
显著改进了 groupby 性能：删除了 DataFrame 内部不必要的完整性检查，这些检查减慢了检索组的切片操作
优化了_ensure_index函数，节省了在类型检查 Index 对象中的性能开销
使用 Cython 编写了快速的时间序列合并/连接方法。稍后将集成到 DataFrame.join 和相关函数中

贡献者

本次发布共有 2 人贡献了补丁。名字旁边带有“+”符号的人是第一次贡献补丁。

Thomas Kluyver +
Wes McKinney

posted @ 2024-06-24 16:30 绝不原创的飞龙阅读(28) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈

Pandas-2-2-中文文档-六十二-

Pandas 2.2 中文文档（六十二）

版本 0.5.0（2011 年 10 月 24 日）

新功能

性能增强

贡献者

新功能

性能增强

贡献者

版本 0.4.1 到 0.4.3（2011 年 9 月 25 日 - 10 月 9 日）

新功能

性能增强

贡献者

新功能

性能增强

贡献者

公告