4月份大数据学习
四月份大数据学习
Import numpy as np
三维数组:几个二维数组(3个2行5列)
Pandas:
series一维的数据结构
data:传入的数据
Index:索引
Ser = pd.series([1,2,3,4,5])
指定索引:Ser = pd.series([1,2,3,4,5],
Index=[‘a’,’b’,’c’,’d’,’e’])
Ser.index获取索引
Ser.values获取值
运算:ser*2(只会改变值)
Dataframe二维的数据结构(若干个series组成)
Index表示行标签
Columns表示列标签
Type(arr) 查看返回结果类型
#创建数组
demo_arr=np.array([['a', 'b', 'c'],['d', 'e', 'f']])
#基于数组创建DataFrame对象
df_obj = pd.DataFrame(demo_arr)
df_obj [‘No4’]=(‘g’,’h’) 增加No4列的数据
Del df_obj [‘No3’] 删除No3列
重置索引reindex():
method参数:
Ser_obj2 = ser_obbj.reindex([‘a’,’b’,’c’,’d’,’e’,’f’])
Ser_obj2
Out[]:
a 3.0
B 4.0
C 1.0
D 2.0
E 5.0
F NaN
ser_obj.reindex(['a', 'b', 'c', 'd', 'e', 'f'],fill value=6)
向前向后填充:
ser_obj = pd.Series([1,3,5,7],index=[0,2,4,6])
ser_obj.reindex(range(6),method='ffill') 向前填充
ser_obj.reindex(range(6),method='bfill') 向后填充
MultiIndex.from_tuples():将元组列表转换为MultiIndex
MultiIndex.from_arrays():将数组列表转换为MultiIndex
MultiIndex.from_product():从多个集合的笛卡尔乘积中创建一个MultiIndex
Matplotlib基本库——>2D
数据可视化:
常见的图表形式(直方图、折线图、条形图、柱形图、饼图、散点图、箱型图)
pyplot模块
Figure()对象