令狐葱

大漠孤烟直,长河落日圆。

博客园 首页 订阅 管理

(1)系列对象( Series)基本功能

编号

属性或方法

描述

1

axes

返回行轴标签列表。

2

dtype

返回对象的数据类型(dtype)。

3

empty

如果系列为空,则返回True。

4

ndim

返回底层数据的维数,默认定义:1。

5

size

返回基础数据中的元素数。

6

values

将系列作为ndarray返回。

7

head()

返回前n行。

8

tail()

返回最后n行。

(2) DataFrame基本功能

编号

属性或方法

描述

1

T

转置行和列。

2

axes

返回一个列,行轴标签和列轴标签作为唯一的成员。

3

dtypes

返回此对象中的数据类型(dtypes)。

4

empty

如果NDFrame完全为空[无项目],则返回为True; 如果任何轴的长度为0。

5

ndim

轴/数组维度大小。

6

shape

返回表示DataFrame的维度的元组。

7

size

NDFrame中的元素数。

8

values

NDFrame的Numpy表示。

9

head()

返回开头前n行。

10

tail()

返回最后n行。

(3) Pandas统计函数

下表列出了重要函数 -

编号      函数      描述

1     count()  非空观测数量

2     sum()    所有值之和

3     mean()  所有值的平均值

4     median()     所有值的中位数

5     mode()  值的模值

6     std()      值的标准偏差

7     min()     所有值中的最小值

8     max()    所有值中的最大值

9     abs()     绝对值

10   prod()    数组元素的乘积

11   cumsum()    累计总和

12   cumprod()   累计乘积

13 describe()   DataFrame列的统计信息的摘要。该函数给出了平均值,标准差和IQR值。 而且,函数排除字符列,并给出关于数字列的摘要。 include是用于传递关于什么列需要考虑用于总结的必要信息的参数。获取值列表; 默认情况下是”数字值”。object - 汇总字符串列number - 汇总数字列all - 将所有列汇总在一起(不应将其作为列表值传递)

14 pipe 表格函数应用

15 apply行或列智能函数应用

16 applymap() 元素智能应用函数

(4) 重新索引

会更改DataFrame的行标签和列标签。重新索引意味着符合数据以匹配特定轴上的一组给定的标签。可以通过索引来实现多个操作 -重新排序现有数据以匹配一组新的标签。在没有标签数据的标签位置插入缺失值(NA)标记。

reindex()采用可选参数方法,它是一个填充方法,其值如下:pad/ffill - 向前填充值bfill/backfill - 向后填充值nearest - 从最近的索引值填充

(5)重命名

rename()方法允许基于一些映射(字典或者系列)或任意函数来重新标记一个轴。

rename()方法提供了一个inplace命名参数,默认为False并复制底层数据。 指定传递inplace = True则表示将数据重命名

(6)pandas 迭代

iteritems() - 迭代(key,value)

对iterrows() - 将行迭代为(索引,系列)

对itertuples() - 以namedtuples的形式迭代行

(7)pandas 排序

Pandas有两种排序方式,它们分别是 - 按标签\按实际值

sort_index()方法,通过传递axis参数和排序顺序,可以对DataFrame进行排序。 默认情况下,按照升序对行标签进行排序。

 

sort_values()是按值排序的方法。它接受一个by参数,它将使用要与其排序值的DataFrame的列名称。

 

sort_values()提供了从mergeesort,heapsort和quicksort中选择算法的一个配置。Mergesort是唯一稳定的算法。

sorted_df = unsorted_df.sort_values(by='col1' ,kind='mergesort')

(8)Pandas字符串

Pandas提供了一组字符串函数,可以方便地对字符串数据进行操作。 最重要的是,这些函数忽略(或排除)丢失/NaN值。

编号

函数

描述

1

lower()

将Series/Index中的字符串转换为小写。

2

upper()

将Series/Index中的字符串转换为大写。

3

len()

计算字符串长度。

4

strip()

帮助从两侧的系列/索引中的每个字符串中删除空格(包括换行符)。

5

split(' ')

用给定的模式拆分每个字符串。

6

cat(sep=' ')

使用给定的分隔符连接系列/索引元素。

7

get_dummies()

返回具有单热编码值的数据帧(DataFrame)。

8

contains(pattern)

如果元素中包含子字符串,则返回每个元素的布尔值True,否则为False。

9

replace(a,b)

将值a替换为值b。

10

repeat(value)

重复每个元素指定的次数。

11

count(pattern)

返回模式中每个元素的出现总数。

12

startswith(pattern)

如果系列/索引中的元素以模式开始,则返回true。

13

endswith(pattern)

如果系列/索引中的元素以模式结束,则返回true。

14

find(pattern)

返回模式第一次出现的位置。

15

findall(pattern)

返回模式的所有出现的列表。

16

swapcase

变换字母大小写。

17

islower()

检查系列/索引中每个字符串中的所有字符是否小写,返回布尔值

18

isupper()

检查系列/索引中每个字符串中的所有字符是否大写,返回布尔值

19

isnumeric()

检查系列/索引中每个字符串中的所有字符是否为数字,返回布尔值。

posted on 2018-10-23 09:38  livermorium116  阅读(536)  评论(0编辑  收藏  举报