03pandas

一.pandas简述

1）pandas是一个开源的，BSD许可的库，为Python编程语言提供高性能，易于使用的数据结构和数据分析工具。

2）numpy能够帮助我们处理数值，但是pandas除了处理数值之外(基于numpy)，还能够帮助我们处理其他类型的数据

二.pandas的数据类型

1.Series

1)Series是一种类似于一维数组的对象，由一组数据（各种NumPy数据类型）以及一组与之对应的索引（数据标签）组成。

l 类似一维数组的对象

l 由数据和索引组成

² 索引(index)在左，数据(values)在右

² 索引是自动创建的

2)创建

ser_obj = pd.Series(np.arange(10),index=list(string.ascii_uppercase[:10]))

3)切片和索引

切片：直接传入strat end或步长即可

索引：一个的时候直接传入序号或者index，多个的时候传入序号或者index的列表

4）索引和值

l 获取索引 t.index

l 获取值 t.values

2.DataFrame

2.1简介

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同类型的值。DataFrame既有行索引也有列索引，它可以被看做是由Series组成的字典（共用同一个索引），数据是以二维结构存放的。

l 类似多维数组/表格数据 (如，excel, R中的data.frame)

l 每列数据可以是不同的类型

l 索引包括列索引和行索引

2.2操作

通过ndarray构建DataFrame

代码：

import numpy as np


# 通过ndarray构建DataFrame

array = np.random.randn(5,4)

print(array)


df_obj = pd.DataFrame(array)

print(df_obj.head())

输出：

[[ 0.83500594 -1.49290138 -0.53120106 -0.11313932]

 [ 0.64629762 -0.36779941  0.08011084  0.60080495]

 [-1.23458522  0.33409674 -0.58778195 -0.73610573]

 [-1.47651414  0.99400187  0.21001995 -0.90515656]

 [ 0.56669419  1.38238348 -0.49099007  1.94484598]]

          0         1         2         3

0  0.835006 -1.492901 -0.531201 -0.113139

1  0.646298 -0.367799  0.080111  0.600805

2 -1.234585  0.334097 -0.587782 -0.736106

3 -1.476514  0.994002  0.210020 -0.905157

4  0.566694  1.382383 -0.490990  1.944846

2.通过dict构建dataframe

代码：

# 通过dict构建DataFrame
dict_data = {'A': 1, 
             'B': pd.Timestamp('20170426'),
             'C': pd.Series(1, index=list(range(4)),dtype='float32'),
             'D': np.array([3] * 4,dtype='int32'),
             'E': ["Python","Java","C++","C"],
             'F': 'ITCast' }
#print dict_data
df_obj2 = pd.DataFrame(dict_data)
print(df_obj2)

输出：

   A          B    C  D       E       F

0  1 2017-04-26  1.0  3  Python  ITCast

1  1 2017-04-26  1.0  3    Java  ITCast

2  1 2017-04-26  1.0  3     C++  ITCast

3  1 2017-04-26  1.0  3       C  ITCas

3.通过列索引获取列数据（Series类型）

df_obj[col_idx] 或 df_obj.col_idx

4.增加列数据

df_obj[new_col_idx] = data

5.删除列

del df_obj[col_idx]

2.3基础属性

2.4整体情况查询

2.5排序

df.sort_values(by="Count_AnimalName",ascending=False)

ascending参数默认为true，即升序排列

2.6取行、取列

1）取某一列df[" Count_AnimalName "]

2）取行取列df[:100][" Count_AnimalName "]

2.7 loc取行取列

1) df.loc 通过标签索引行数据

2) df.iloc 通过位置获取行数据

赋值更改数据：

2.8布尔索引

2.9字符串方法

三.数据处理

1) 判断数据是否为NaN：pd.isnull(df),pd.notnull(df)

2) 处理缺失数据

l 方式1：删除NaN所在的行列dropna (axis=0, how='any', inplace=False)

l 方式2：填充数据，t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)

3) 处理为0的数据：t[t==0]=np.nan

当然并不是每次为0的数据都需要处理

计算平均值等情况，nan是不参与计算的，但是0会

四.数据合并

1.join

默认情况下他是把行索引相同的数据合并到一起

2.merge

按照指定的列把数据按照一定的方式合并到一起

1) 默认的合并方式inner，并集

2) merge outer，交集，NaN补全

3) merge left，左边为准，NaN补全

4) merge right，右边为准，NaN补全

五.分组和聚合

1）groupby方法

grouped = df.groupby(by="columns_name")

grouped是一个DataFrameGroupBy对象，是可迭代的

grouped中的每一个元素是一个元组

元组里面是（索引(分组的值)，分组之后的DataFrame）

2）DataFrameGroupBy对象有很多经过优化的方法

六.索引和复合索引

简单的索引操作：

l 获取index：df.index

l 指定index ：df.index = ['x','y']

l 重新设置index : df.reindex(list("abcedf"))

l 指定某一列作为index ：df.set_index("Country",drop=False)

l 返回index的唯一值：df.set_index("Country").index.unique()

七.时间序列

1.使用

pd.date_range(start=起始时间, end=“”, periods=生成个数, freq='D')

start和end以及freq配合能够生成start和end范围内以频率freq的一组时间索引

start和periods以及freq配合能够生成从start开始的频率为freq的periods个时间索引

2.关于freq频率的更多缩写

3. 使用pandas提供的方法把时间字符串转化为时间序列

df["timeStamp"] = pd.to_datetime(df["timeStamp"],format="")

format参数大部分情况下可以不用写，但是对于pandas无法格式化的时间字符串，我们可以使用该参数，比如包含中文

4.重采样

重采样：指的是将时间序列从一个频率转化为另一个频率进行处理的过程，将高频率数据转化为低频率数据为降采样，低频率转化为高频率为升采样

pandas提供了一个resample的方法来帮助我们实现频率转化

5.periodIndex

periods=pd.PeriodIndex(year=data["year"],month=data["month"],day=data["day"],hour=data["hour"],freq="H")

之前所学习的DatetimeIndex可以理解为时间戳，那么现在我们要学习的PeriodIndex可以理解为时间段。

七.数据重构

1.stack

l 将行索引转换为列索引，完成层级索引

l DataFrame->Seriees

示例代码：

import numpy as np

import pandas as pd

 

df_obj = pd.DataFrame(np.random.randint(0,10, (5,2)), columns=['data1', 'data2'])

print(df_obj)

 

stacked = df_obj.stack()

print(stacked)

运行结果：

# print(df_obj)

   data1  data2

0      7      9

1      7      8

2      8      9

3      4      1

4      1      2

 

# print(stacked)

0  data1    7

   data2    9

1  data1    7

   data2    8

2  data1    8

   data2    9

3  data1    4

   data2    1

4  data1    1

   data2    2

dtype: int64

2. unstack

l 将层级索引展开

l Series->DataFrame

l 认操作内层索引，即level=-1

示例代码：

# 默认操作内层索引
print(stacked.unstack())
 
# 通过level指定操作索引的级别
print(stacked.unstack(level=0))

运行结果：

# print(stacked.unstack())
   data1  data2
0      7      9
1      7      8
2      8      9
3      4      1
4      1      2
 
# print(stacked.unstack(level=0))
       0  1  2  3  4
data1  7  7  8  4  1
data2  9  8  9  1  2

八.数据转换

1.处理重复数据

1） duplicated() 返回布尔型Series表示每行是否为重复行

2） drop_duplicates() 过滤重复行

l 默认判断全部列 df_obj.drop_duplicates()

l 可指定按某些列判断 df_obj.drop_duplicates('data2')

2.数据替换

replace根据值的内容进行替换

示例代码：

# 单个值替换单个值
print(ser_obj.replace(1, -100))
 
# 多个值替换一个值
print(ser_obj.replace([6, 8], -100))
 
# 多个值替换多个值
print(ser_obj.replace([4, 7], [-100, -200]))

posted @ 2019-04-14 21:43 菜白小系瓦阅读(227) 评论(0) 收藏举报

刷新页面返回顶部

菜白小系瓦

及时当勉励，岁月不待人

03pandas

一.pandas简述

二.pandas的数据类型

1.Series

2.DataFrame

2.1简介

2.2操作

2.3基础属性

2.4整体情况查询

2.5排序

2.6取行、取列

2.7 loc取行取列

2.8布尔索引

2.9字符串方法

三.数据处理

四.数据合并

1.join

2.merge

五.分组和聚合

六.索引和复合索引

七.时间序列

1.使用

2.关于freq频率的更多缩写

3. 使用pandas提供的方法把时间字符串转化为时间序列

4.重采样

5.periodIndex

七.数据重构

1.stack

2. unstack

八.数据转换

1.处理重复数据

2.数据替换

公告