Pandas 包基础

Series

Series(data,index,name) 其中data可以是array-like, Iterable, dict, or scalar value，index可以是array-like or Index (1d)（ndarray时为1D对象），可以为重复值，未提供时使用默认index（0，1，2，..N），name代表series名称

创建

import pandas as pd
import numpy as np
# 列表 list
series = pd.Series([2,10,20])
'''
0     2
1    10
2    20
'''

# ndarray对象 必须是1D对象
series = pd.Series(np.array([2,20,40,50]))
'''
0     2
1    20
2    40
3    50
'''
# 字典对象 dict key将代替默认的index 0，1，2，...N
series = pd.Series({'A':100,'C':200,'C':300})
'''
A    100
C    300


import pandas as pd
index = ['广东',"湖北",'香港','台湾']
data = {"湖北":100,'广东':300,'香港':500,'北京':2000}

series = pd.Series(data, index) #index中不存在北京标签，台湾标签存在，data中不存在对应的value，默认为Nan，index与字典形式data中key一一对应
print(series)
'''
广东    300.0
湖北    100.0
香港    500.0
台湾      NaN
dtype: float64
'''

Series属性及方法

pandas中统计方法很多都是从numpy中重写而来忽略了无效值：Nan，此处主要关注 Series两个属性：index、values

import pandas as pd
+ 列表 list
series = pd.Series([2,10,20])
print(series.index) # RangeIndex(start=0, stop=3, step=1)
print(series.values) # [ 2 10 20]

Series之间的四则运算

import pandas as pd
index = ['广东',"湖北",'香港','台湾']
data = {"湖北":100,'广东':300,'香港':500}

series1 = pd.Series(data, index) #index中不存在北京标签，台湾标签存在，data中不存在对应的value，默认为Nan
series2 = pd.Series({"湖北":1,'广东':2,'香港':3})
print(series1+series2) # 进行 四则运算 （+ - * /） 会先对应好series的index然后对其values进行计算
'''
台湾      NaN
广东    302.0
湖北    101.0
香港    503.0
dtype: float64
'''

Dataframe

创建

import pandas as pd
import numpy as np
#data为iterable eg:list
df = pd.DataFrame([[2,3,0,90],[10,67,78,45]])
'''
    0   1   2   3
0   2   3   0  90
1  10  67  78  45
index、 columns均默认从0，1，2，...N
'''
# data 为ndarray
df = pd.DataFrame(np.array([[2,3,0,90],[10,67,78,45]]),index=['A','B'],columns=['a','b','c','d'])
'''
    a   b   c   d
A   2   3   0  90
B  10  67  78  45
'''

# data 为dict，key将会作为column标签，index要么使用【0，1，2，...N】或者自定义
df1 = pd.DataFrame({'湖北':100,'广东':200,'北京':300},index=['湖北','北京','广东'])
'''
     湖北   广东   北京
湖北  100  200  300
北京  100  200  300
广东  100  200  300
'''
# data为DataFrame
df2 = pd.DataFrame(df1)

索引、切片、多层索引

合并

连接

重塑

透视

分组、整合

posted @ 2021-02-08 08:04 烦恼1234 阅读(77) 评论(0) 收藏举报

刷新页面返回顶部

烦恼1234

Pandas 包基础

Series

创建

Series属性及方法

Dataframe

创建

索引、切片、多层索引

合并

连接

重塑

透视

分组、整合

公告