Pandas-2-2-中文文档-六十二-
Pandas 2.2 中文文档(六十二)
版本 0.5.0(2011 年 10 月 24 日)
新功能
-
添加
DataFrame.align
方法与标准连接选项 -
添加
parse_dates
选项到read_csv
和read_table
方法以尝试在索引列中解析日期 -
添加
nrows
,chunksize
和iterator
参数到read_csv
和read_table
。最后两个返回一个新的TextParser
类,能够惰性地迭代一个平面文件的块(GH 242) -
添加 在
DataFrame.join
中多列连接的能力(GH 214) -
添加私有
_get_duplicates
函数到Index
用于更容易地识别重复值(ENH5c) -
添加 DataFrame 的列属性访问。
-
实现
Series.describe
用于包含对象的 Series(GH 241) -
添加 在键上连接时
DataFrame.join
的内部连接选项(GH 248) -
实现 通过传递列表到
__getitem__
选择 DataFrame 列(GH 253) -
实现 & 和 | 分别用于交集 / 并集 Index 对象(GH 261)
-
添加
pivot_table
方便函数到 pandas 命名空间(GH 234) -
实现
Panel.rename_axis
函数(GH 243) -
DataFrame 将在控制台输出中显示索引级别名称(GH 334)
-
实现
Panel.take
-
添加
set_eng_float_format
用于备选 DataFrame 浮点字符串格式化(ENH61) -
添加 方便的
set_index
函数用于从现有列创建 DataFrame 索引 -
实现了
groupby
分层索引级别名称 (GH 223) -
为
DataFrame.to_csv
添加 对不同分隔符的支持 (GH 244)
性能增强
-
VBENCH 在文件解析函数
read_csv
和read_table
中进行了重大性能改进 -
VBENCH 添加了将元组转换为 ndarray 的 Cython 函数,速度非常快。加快了许多与 MultiIndex 相关的操作
-
VBENCH 重构了合并/连接代码到一个整洁的类,并在浮点数/对象情况下禁用了不必要的计算,从而获得了约 10% 的性能提升 (GH 211)
-
VBENCH 将混合类型 DataFrame 对象上的
DataFrame.xs
的速度提高了约 5 倍,与 0.3.0 版本相比有所回归 (GH 215) -
VBENCH 使用新的
DataFrame.align
方法,将不同索引的 DataFrame 对象之间的二进制操作加快了 10-25%。 -
VBENCH 显著加快了将嵌套字典转换为 DataFrame 的速度 (GH 212)
-
VBENCH 在大型混合类型 DataFrame 对象的
__repr__
和count
上显著提速
贡献者
总共有 9 人为这个版本贡献了补丁。在他们的名字旁边带有“+”号的人是首次贡献补丁的。
-
Aman Thakral +
-
Luca Beltrame +
-
Nick Pentreath +
-
Skipper Seabold
-
Thomas Kluyver +
-
Wes McKinney
-
Yaroslav Halchenko +
-
lodagro +
-
未知 +
新功能
-
添加
DataFrame.align
方法,具有标准的连接选项 -
为
read_csv
和read_table
方法添加了parse_dates
选项,可选择尝试解析索引列中的日期 -
为
read_csv
和read_table
添加了nrows
、chunksize
和iterator
参数。最后两个返回一个新的TextParser
类,能够惰性地迭代扁平文件的块 (GH 242) -
为
DataFrame.join
添加了 在多个列上连接的功能 (GH 214) -
为
Index
添加了私有的_get_duplicates
函数,更容易识别重复值 (ENH5c) -
为 DataFrame 添加了 列属性访问。
-
为包含对象的 Series 实现了
Series.describe
(GH 241) -
在 在关键词上连接时,为
DataFrame.join
添加了内连接选项(GH 248) -
实现了 通过将列表传递给
__getitem__
来选择 DataFrame 列(GH 253) -
实现了 & 和 | 以分别交集 / 并集索引对象,对应于 (GH 261)
-
添加了
pivot_table
便捷函数到 pandas 命名空间(GH 234) -
实现了
Panel.rename_axis
函数(GH 243) -
DataFrame 将在控制台输出中显示索引级别名称(GH 334)
-
实现了
Panel.take
-
添加了
set_eng_float_format
以备用 DataFrame 浮点字符串格式化(ENH61) -
添加了 用于从现有列创建 DataFrame 索引的便捷
set_index
函数 -
实现了
groupby
分层索引级别名称(GH 223) -
添加了 对
DataFrame.to_csv
中的不同分隔符的支持(GH 244)
性能增强
-
VBENCH 在文件解析函数
read_csv
和read_table
中进行了主要性能改进 -
VBENCH 添加了 Cython 函数,用于将元组快速转换为 ndarray。加快了许多 MultiIndex 相关的操作的速度
-
VBENCH 重构了合并 / 连接代码为一个整洁的类,并在 float/object 情况下禁用了不必要的计算,从而使性能提高了约 10%(GH 211)
-
VBENCH 对混合类型 DataFrame 对象上的
DataFrame.xs
的速度提升了约 5 倍,从 0.3.0 版本开始出现的回归(GH 215) -
VBENCH 使用新的
DataFrame.align
方法,将不同索引的 DataFrame 对象之间的二进制操作加速了 10-25%。 -
VBENCH 大大加快了将嵌套字典转换为 DataFrame 的速度(GH 212)
-
VBENCH 大幅加快了大型混合类型 DataFrame 对象上的
__repr__
和count
的速度
贡献者
总共有 9 人为此版本贡献了补丁。带有 “+” 的人第一次为此贡献了补丁。
-
阿曼·塔克拉尔 +
-
卢卡·贝尔特拉梅 +
-
尼克·彭特里斯 +
-
斯基普·西波尔德
-
托马斯·克鲁伊弗 +
-
韦斯·麦金尼
-
亚罗斯拉夫·哈尔琴科 +
-
洛达格罗 +
-
未知 +
版本 0.4.1 到 0.4.3(2011 年 9 月 25 日 - 10 月 9 日)
新功能
-
使用 2to3 添加了 Python 3 支持(GH 200)
-
添加了
Series
的name
属性,现在作为Series.__repr__
的一部分打印出来 -
添加了
Series.align
方法,用于对齐两个系列并选择连接方法(ENH56) -
添加
get_level_values
方法到MultiIndex
(GH 188) -
通过
.ix
索引属性在混合类型DataFrame
对象中设置值(GH 135) -
添加了新的
DataFrame
方法get_dtype_counts
和属性dtypes
(ENHdc) -
在
DataFrame.append
中添加了 ignore_index 选项以堆叠 DataFrames(ENH1b) -
read_csv
尝试使用csv.Sniffer
来嗅探分隔符(GH 146) -
read_csv
可以读取多列到MultiIndex
;DataFrame 的to_csv
方法写出相应的MultiIndex
(GH 151) -
DataFrame.rename
有一个新的copy
参数,可以重命名一个 DataFrame(ENHed) -
启用 按名称展开(GH 142)
-
启用
sortlevel
按级别工作(GH 141)
性能增强
-
修改了不同索引 SparseSeries 对象的二进制操作,使用了基于整数的(稠密)对齐逻辑,这样在有更多块时速度更快(GH 205)
-
编写了更快的 Cython 数据对齐/合并例程,导致速度大幅提升
-
改进了
isnull
和notnull
的性能,这是从 v0.3.0 中的一个回归(GH 187) -
重构了与
DataFrame.join
相关的代码,使得每个DataFrame
参数中的数据的中间对齐副本不需要被创建。性能显著提高 (GH 176) -
大幅提高了通用
Index.intersection
和Index.union
的性能 -
实现了
BlockManager.take
,从而显著提高了混合类型DataFrame
对象上的take
性能 (GH 104) -
改进了
Series.sort_index
的性能 -
重要的
groupby
性能增强:在减少DataFrame
内部不必要的完整性检查,以加快检索组的切片操作速度。 -
优化了
_ensure_index
函数,从而在类型检查索引对象时节省了性能。 -
在 Cython 中编写了快速的时间序列合并/连接方法。将稍后集成到
DataFrame.join
和相关函数中。
贡献者
总共有 2 人为这个版本贡献了补丁。名字旁边带有“+”符号的人是第一次贡献补丁。
-
Thomas Kluyver +
-
Wes McKinney
新功能
-
添加了使用 2to3 的 Python 3 支持 (GH 200)
-
添加
name
属性到Series
,现在作为Series.__repr__
的一部分打印出来。 -
添加
Series.align
方法,用于对齐两个系列并选择连接方法 (ENH56) -
添加
get_level_values
方法到MultiIndex
(GH 188) -
通过
.ix
索引属性在混合类型DataFrame
对象中设置值 (GH 135) -
添加了新的
DataFrame
方法get_dtype_counts
和属性dtypes
(ENHdc) -
在
DataFrame.append
中添加了 ignore_index 选项以堆叠数据帧 (ENH1b) -
read_csv
尝试使用csv.Sniffer
来嗅探分隔符 (GH 146) -
read_csv
可以读取多列到MultiIndex
;DataFrame 的to_csv
方法写出相应的MultiIndex
(GH 151) -
DataFrame.rename
现在有一个新的copy
参数,可以在原地重命名一个 DataFrame(ENHed) -
启用按名称进行 unstack 操作(GH 142)
-
启用按级别进行
sortlevel
操作(GH 141)
性能增强
-
修改了对不同索引的稀疏系列对象的二进制操作,使用了基于整数的(密集)对齐逻辑,这对于具有更多块的情况更快速(GH 205)
-
使用 Cython 编写了更快的数据对齐/合并例程,大幅提高了速度
-
改进了
isnull
和notnull
的性能,这是从 v0.3.0 版本中的一个回归(GH 187) -
重构了与
DataFrame.join
相关的代码,使得每个DataFrame
参数中的数据不需要创建中间对齐的副本。显著提高了性能(GH 176) -
大幅提高了通用
Index.intersection
和Index.union
的性能 -
实现了
BlockManager.take
,显著提高了混合类型DataFrame
对象的take
性能(GH 104) -
改进了
Series.sort_index
的性能 -
显著改进了 groupby 性能:删除了 DataFrame 内部不必要的完整性检查,这些检查减慢了检索组的切片操作
-
优化了
_ensure_index
函数,节省了在类型检查 Index 对象中的性能开销 -
使用 Cython 编写了快速的时间序列合并/连接方法。稍后将集成到 DataFrame.join 和相关函数中
贡献者
本次发布共有 2 人贡献了补丁。名字旁边带有“+”符号的人是第一次贡献补丁。
-
Thomas Kluyver +
-
Wes McKinney