Pandas-2-2-中文文档-六十二-

Pandas 2.2 中文文档(六十二)

原文:pandas.pydata.org/docs/

版本 0.5.0(2011 年 10 月 24 日)

原文:pandas.pydata.org/docs/whatsnew/v0.5.0.html

新功能

  • 添加 DataFrame.align 方法与标准连接选项

  • 添加 parse_dates 选项到 read_csvread_table 方法以尝试在索引列中解析日期

  • 添加 nrowschunksizeiterator 参数到 read_csvread_table。最后两个返回一个新的 TextParser 类,能够惰性地迭代一个平面文件的块(GH 242

  • 添加 在 DataFrame.join 中多列连接的能力(GH 214

  • 添加私有 _get_duplicates 函数到 Index 用于更容易地识别重复值(ENH5c

  • 添加 DataFrame 的列属性访问。

  • 添加 DataFrame 列的 Python tab 补全钩子。(GH 233, GH 230

  • 实现 Series.describe 用于包含对象的 Series(GH 241

  • 添加 在键上连接时 DataFrame.join 的内部连接选项(GH 248

  • 实现 通过传递列表到 __getitem__ 选择 DataFrame 列(GH 253

  • 实现 & 和 | 分别用于交集 / 并集 Index 对象(GH 261

  • 添加 pivot_table 方便函数到 pandas 命名空间(GH 234

  • 实现 Panel.rename_axis 函数(GH 243

  • DataFrame 将在控制台输出中显示索引级别名称(GH 334

  • 实现 Panel.take

  • 添加 set_eng_float_format 用于备选 DataFrame 浮点字符串格式化(ENH61

  • 添加 方便的 set_index 函数用于从现有列创建 DataFrame 索引

  • 实现了 groupby 分层索引级别名称 (GH 223)

  • DataFrame.to_csv 添加 对不同分隔符的支持 (GH 244)

性能增强

  • VBENCH 在文件解析函数 read_csvread_table 中进行了重大性能改进

  • VBENCH 添加了将元组转换为 ndarray 的 Cython 函数,速度非常快。加快了许多与 MultiIndex 相关的操作

  • VBENCH 重构了合并/连接代码到一个整洁的类,并在浮点数/对象情况下禁用了不必要的计算,从而获得了约 10% 的性能提升 (GH 211)

  • VBENCH 将混合类型 DataFrame 对象上的 DataFrame.xs 的速度提高了约 5 倍,与 0.3.0 版本相比有所回归 (GH 215)

  • VBENCH 使用新的 DataFrame.align 方法,将不同索引的 DataFrame 对象之间的二进制操作加快了 10-25%。

  • VBENCH 显著加快了将嵌套字典转换为 DataFrame 的速度 (GH 212)

  • VBENCH 在大型混合类型 DataFrame 对象的 __repr__count 上显著提速

贡献者

总共有 9 人为这个版本贡献了补丁。在他们的名字旁边带有“+”号的人是首次贡献补丁的。

  • Aman Thakral +

  • Luca Beltrame +

  • Nick Pentreath +

  • Skipper Seabold

  • Thomas Kluyver +

  • Wes McKinney

  • Yaroslav Halchenko +

  • lodagro +

  • 未知 +

新功能

  • 添加 DataFrame.align 方法,具有标准的连接选项

  • read_csvread_table 方法添加了 parse_dates 选项,可选择尝试解析索引列中的日期

  • read_csvread_table 添加了 nrowschunksizeiterator 参数。最后两个返回一个新的 TextParser 类,能够惰性地迭代扁平文件的块 (GH 242)

  • DataFrame.join 添加了 在多个列上连接的功能 (GH 214)

  • Index 添加了私有的 _get_duplicates 函数,更容易识别重复值 (ENH5c)

  • 为 DataFrame 添加了 列属性访问。

  • 为 DataFrame 列添加 Python 补全钩子。 (GH 233, GH 230)

  • 为包含对象的 Series 实现了 Series.describe (GH 241)

  • 在 在关键词上连接时,为 DataFrame.join 添加了内连接选项(GH 248

  • 实现了 通过将列表传递给 __getitem__ 来选择 DataFrame 列(GH 253

  • 实现了 & 和 | 以分别交集 / 并集索引对象,对应于 (GH 261)

  • 添加了 pivot_table 便捷函数到 pandas 命名空间(GH 234

  • 实现了 Panel.rename_axis 函数(GH 243

  • DataFrame 将在控制台输出中显示索引级别名称(GH 334

  • 实现了 Panel.take

  • 添加了 set_eng_float_format 以备用 DataFrame 浮点字符串格式化(ENH61

  • 添加了 用于从现有列创建 DataFrame 索引的便捷 set_index 函数

  • 实现了 groupby 分层索引级别名称(GH 223

  • 添加了 对 DataFrame.to_csv 中的不同分隔符的支持(GH 244

性能增强

  • VBENCH 在文件解析函数 read_csvread_table 中进行了主要性能改进

  • VBENCH 添加了 Cython 函数,用于将元组快速转换为 ndarray。加快了许多 MultiIndex 相关的操作的速度

  • VBENCH 重构了合并 / 连接代码为一个整洁的类,并在 float/object 情况下禁用了不必要的计算,从而使性能提高了约 10%(GH 211

  • VBENCH 对混合类型 DataFrame 对象上的 DataFrame.xs 的速度提升了约 5 倍,从 0.3.0 版本开始出现的回归(GH 215

  • VBENCH 使用新的 DataFrame.align 方法,将不同索引的 DataFrame 对象之间的二进制操作加速了 10-25%。

  • VBENCH 大大加快了将嵌套字典转换为 DataFrame 的速度(GH 212

  • VBENCH 大幅加快了大型混合类型 DataFrame 对象上的 __repr__count 的速度

贡献者

总共有 9 人为此版本贡献了补丁。带有 “+” 的人第一次为此贡献了补丁。

  • 阿曼·塔克拉尔 +

  • 卢卡·贝尔特拉梅 +

  • 尼克·彭特里斯 +

  • 斯基普·西波尔德

  • 托马斯·克鲁伊弗 +

  • 韦斯·麦金尼

  • 亚罗斯拉夫·哈尔琴科 +

  • 洛达格罗 +

  • 未知 +

版本 0.4.1 到 0.4.3(2011 年 9 月 25 日 - 10 月 9 日)

原文:pandas.pydata.org/docs/whatsnew/v0.4.x.html

新功能

  • 使用 2to3 添加了 Python 3 支持(GH 200)

  • 添加了 Seriesname 属性,现在作为 Series.__repr__ 的一部分打印出来

  • Series.isnull()Series.notnull()`(GH 209, GH 203)

  • 添加了 Series.align 方法,用于对齐两个系列并选择连接方法(ENH56)

  • 添加 get_level_values 方法到 MultiIndexGH 188)

  • 通过 .ix 索引属性在混合类型 DataFrame 对象中设置值(GH 135)

  • 添加了新的 DataFrame 方法 get_dtype_counts 和属性 dtypesENHdc)

  • DataFrame.append 中添加了 ignore_index 选项以堆叠 DataFrames(ENH1b)

  • read_csv 尝试使用 csv.Sniffer 来嗅探分隔符(GH 146)

  • read_csv 可以读取多列到 MultiIndex;DataFrame 的 to_csv 方法写出相应的 MultiIndexGH 151)

  • DataFrame.rename 有一个新的 copy 参数,可以重命名一个 DataFrame(ENHed)

  • 启用 按名称展开(GH 142)

  • 启用 sortlevel 按级别工作(GH 141)

性能增强

  • 修改了不同索引 SparseSeries 对象的二进制操作,使用了基于整数的(稠密)对齐逻辑,这样在有更多块时速度更快(GH 205)

  • 编写了更快的 Cython 数据对齐/合并例程,导致速度大幅提升

  • 改进了 isnullnotnull 的性能,这是从 v0.3.0 中的一个回归(GH 187)

  • 重构了与 DataFrame.join 相关的代码,使得每个 DataFrame 参数中的数据的中间对齐副本不需要被创建。性能显著提高 (GH 176)

  • 大幅提高了通用 Index.intersectionIndex.union 的性能

  • 实现了 BlockManager.take,从而显著提高了混合类型 DataFrame 对象上的 take 性能 (GH 104)

  • 改进了 Series.sort_index 的性能

  • 重要的groupby性能增强:在减少DataFrame内部不必要的完整性检查,以加快检索组的切片操作速度。

  • 优化了 _ensure_index 函数,从而在类型检查索引对象时节省了性能。

  • 在 Cython 中编写了快速的时间序列合并/连接方法。将稍后集成到 DataFrame.join 和相关函数中。

贡献者

总共有 2 人为这个版本贡献了补丁。名字旁边带有“+”符号的人是第一次贡献补丁。

  • Thomas Kluyver +

  • Wes McKinney

新功能

  • 添加了使用 2to3 的 Python 3 支持 (GH 200)

  • 添加 name 属性到 Series,现在作为 Series.__repr__ 的一部分打印出来。

  • Series.isnull()Series.notnull()` (GH 209, GH 203)

  • 添加 Series.align 方法,用于对齐两个系列并选择连接方法 (ENH56)

  • 添加 get_level_values 方法到 MultiIndex (GH 188)

  • 通过 .ix 索引属性在混合类型 DataFrame 对象中设置值 (GH 135)

  • 添加了新的 DataFrame 方法 get_dtype_counts 和属性 dtypes (ENHdc)

  • DataFrame.append 中添加了 ignore_index 选项以堆叠数据帧 (ENH1b)

  • read_csv 尝试使用 csv.Sniffer 来嗅探分隔符 (GH 146)

  • read_csv 可以读取多列到 MultiIndex;DataFrame 的 to_csv 方法写出相应的 MultiIndex (GH 151)

  • DataFrame.rename现在有一个新的copy参数,可以在原地重命名一个 DataFrame(ENHed

  • 启用按名称进行 unstack 操作(GH 142

  • 启用按级别进行sortlevel操作(GH 141

性能增强

  • 修改了对不同索引的稀疏系列对象的二进制操作,使用了基于整数的(密集)对齐逻辑,这对于具有更多块的情况更快速(GH 205

  • 使用 Cython 编写了更快的数据对齐/合并例程,大幅提高了速度

  • 改进了isnullnotnull的性能,这是从 v0.3.0 版本中的一个回归(GH 187

  • 重构了与DataFrame.join相关的代码,使得每个DataFrame参数中的数据不需要创建中间对齐的副本。显著提高了性能(GH 176

  • 大幅提高了通用Index.intersectionIndex.union的性能

  • 实现了BlockManager.take,显著提高了混合类型DataFrame对象的take性能(GH 104

  • 改进了Series.sort_index的性能

  • 显著改进了 groupby 性能:删除了 DataFrame 内部不必要的完整性检查,这些检查减慢了检索组的切片操作

  • 优化了_ensure_index函数,节省了在类型检查 Index 对象中的性能开销

  • 使用 Cython 编写了快速的时间序列合并/连接方法。稍后将集成到 DataFrame.join 和相关函数中

贡献者

本次发布共有 2 人贡献了补丁。名字旁边带有“+”符号的人是第一次贡献补丁。

  • Thomas Kluyver +

  • Wes McKinney

posted @ 2024-06-24 16:30  绝不原创的飞龙  阅读(4)  评论(0编辑  收藏  举报