基于python的大数据分析基本知识
1. 数据科学领域中常用的python库
Numpy库:数据运算的基础库,运行效率高(底层C语言,高效index)
Scipy库:实现了常用的科学计算方法(线性代数,傅里叶变换,信号和图像处理)
Pandas库:分析数据的利器,高级数据结构(Series,DataFrame)
Matplotlib库:绘图功能(散点,曲线,柱形)
2. Anaconda的使用说明
介绍:著名的python数据科学平台,开源,跨平台。包含有流行的python和R的包。
下载地址:https://www.anaconda.com/download/
Jupyter notebook基本使用:
新建一个文件:new 执行代码:Shift + Enter 模式切换:code 和 markdown 查看函数帮助信息: shift + tab 以%开头的为魔法函数:%matplotlib inline
3. Numpy库介绍
3.1 预备知识
数组与矩阵:数组可以是N维的,而矩阵是二维的数组。
向量:1 * N 或 N * 1 的矩阵
标量:1 * 1 的矩阵
3.2 定义数组
import numpy as np list_1 = [1,2,3,4,5] array_1 = np.array(list_1) print(array_1)
import numpy as np list_1 = [1, 2, 3, 4] list_2 = [5, 6, 7, 8] array_2 = np.array([list_1, list_2]) print(array_2)
# arange函数类似于python的range函数 import numpy as np array_3 = np.arange(1, 10, 2) print(array_3)
import numpy as np array_4_1 = np.zeros(5) # 定义一维全零数组 print(array_4_1) array_4_2 = np.zeros([2,3]) # 定义二维全零数组,两行三列 print(array_4_2)
import numpy as np array_5 = np.eye(5) # 定义单位数组: 5*5 print(array_5)
import numpy as np array_6 = np.random.randn(10) print(array_6)
import numpy as np array_7_1 = np.random.randint(10, size=10) # 一维数组: 每个元素都是0-9中的一个数,size表示1行10列 print(array_7_1) array_7_2 = np.random.randint(10, size=(2,3)) # 二维数组: 每个元素都是0-9中的一个数,size表示2行3列 print(array_7_2) array_7_3 = np.random.randint(10, size=20).reshape(4,5) # 二维数组,每个元素都是0-9中的一个数,size表示1行20列,通过reshape函数进行再次切分 print(array_7_3)
3.3 操作数组
import numpy as np array_1 = np.random.randint(10, size=20).reshape(4,5) # 数组的属性 print(array_1.shape) # 数组行列信息:(4, 5) print(array_1.size) # 数组总数量:20 print(array_1.dtype) # 元素数据类型, 如果存在多种类型,则取精度最高的那个 # 数组的访问--操作与切片类似 print(array_1) print(array_1[0][1]) # 行选0,列选1 print(array_1[0,1]) # 行选0,列选1 print(array_1[:2,1:3]) # 行选0和1,列选1和2 # 数组的常用函数 print(np.unique(array_1)) print(np.sum(array_1)) # 返回所有数组元素的和 print(np.sum(array_1[0])) # 返回某一行的和 print(np.sum(array_1[:,0])) # 返回某一列的和 print(array_1.max()) # 返回元素中的最大值 print(array_1[0].max()) # 返回某一行中的最大值 print(array_1[:,0].min()) # 返回某一列中的最小值
3.4 矩阵相关
import numpy as np m = np.mat([[1,2,3, 4],[5,6,7,8]]) print(m)
import numpy as np a = np.random.randint(10, size=20).reshape(4,5) # 定义一个二维数组 m = np.mat(a) print(m)
import numpy as np A = np.mat(np.random.randint(10, size=20).reshape(4,5)) B = np.mat(np.random.randint(10, size=20).reshape(5,4)) print(A * B) # 注意:A*B 其中[A矩阵的行]和[B矩阵的列]需要一样,否则会报错
4. Pandas库介绍
pandas库主要功能是进行数据的分析和处理,它有两个重要的数据结构:Series 和 DataFrame
4.1 关于数据处理过程中的NaN数据
1. np.nan 其数据类型为float 2. 特点:任何数据跟NaN进行运算,都是NaN 3. 删除带有NaN的行或列 s.dropna() df.dropna(axis=1),其中how参数:any(有nan就删)还是all(全是nan才删),thresh参数:可以设置nan的阈值 4. 其他与nan有关的函数 s.isnull(),s.notnull(),df.isnull(),df.notnull() df.fillna(value=1) # nan值全部填充为1 df.fillna(value=(0:0,1:1)) # 0列nan填充0,1列nan填充1
4.2 数据结构Series
Series 类似于 Numpy 中的 array
4.2.1 定义Series
import numpy as np import pandas as pd # 通过list s1 = pd.Series([1,2,3,4,5], index=['a','b','c','d','e']) print(s1) # 通过array s2 = pd.Series(np.arange(10)) print(s2) # 通过dict, 其中dict的key为index s3 = pd.Series({"a":1,"b":2,"c":3,}) print(s3)
s.index
s.name
s.index.name
s.values
4.2.2 Series基本操作
import pandas as pd s2 = pd.Series([1,2,3,4,5], index=['a','b','c','d','e']) print(s2["b"]) # 访问元素:根据索引 print(s2[s2<3]) # 访问元素:给定值范围 print(s2.to_dict()) # 将 Series 转为 dict index_new = ["A","B","C","D","E","F"] s3 = pd.Series(s2, index=index_new) # 改变Series的索引 s2.drop('a') # 删除一个元素 # Series的排序 s2.sort_index() # Series依据index排序 s2.sort_values() # Series依据values排序
4.3 数据结构DataFrame
4.3.1 DataFrame基本知识
DataFrame对象中的某一列,返回的是一个Series对象
import numpy as np import pandas as pd from pandas import Series, DataFrame # 方式1:csv --> DataFrame df1 = pd.read_csv("filePath_csv") # 方式2:Series --> DataFrame df2 = DataFrame([s1, s2], index=["a","b"]) # 方式3:dict --> DataFrame df3 = DataFrame({})
df.shape # 查看df的行数和列数 df.columns # 查看df的列名 df.head() # 查看df的某几行数据 df[['列名1','列名2']] # 查看df的某些列数据, 也可以用 df.列名 的方法 df.T # 对df进行转置
### 过滤功能 # 对原有的DataFrame过滤掉某些列,得到一个新的DataFrame 相当于删除某些列 df_new = DataFrame(df, columns=['第一列', '第三列']) # 如果columns中填写的列在df中不存在,那么该列的value均为NaN # 表示行取10-19,列取0-1 df.iloc[10:20,0:2] # 表示行取10-11,列取从第一个到列名为[列名1]的列 df.loc[10:11,:'列名1'] ### 修改value # 给column中一整列全部value重新赋值 df_new['第N列'] = list | numpy | pandas # 给column中某一个或几个元素赋值 df_new['第十八列'] = pd.Series([100, 200], index=[1, 2]) ### 删除操作 # 删除指定一行 df.drop('A',axis=0) # 删除指定一列 df.drop('c1',axis=1) ### 添加操作 # 方式1:直接新增一列 df["GDP"] = Series([111,222,333]) # 注意此方式有缺点,如果df的index不是默认值,新增时也需要指定 # 方式2:直接新增一列 df["GDP"] = df["城市"].map(gdp_map_dict) # 使用map的优点,不需要关注index的情况
4.3.2 DataFrame相关高级操作
4.3.2.1 运用到DataFrame中的高级函数
# apply可以对一列或一行数据进行处理 # apply可以传入一个函数,这个函数对某一行或某一列进行操作 # apply也可以实现将一列分成多列
# 通过去重进行数据清洗 df.drop_duplicates(['Seqno'], keep='last') 思路:先看某一列不重复的数据有多少:len(df[''].unique()),再通过duplicated判断元素是否重复
# 已知一个[按天采样]的Series,求其[按月采样]或[按时采样] t_range = pd.date_range('2016-01-01', '2016-12-31') s_day = Series(np.random.randn(len(t_range)), index=t_range) # 按月采样 s_month = s_day.resample('M').mean() # 按时采样 s_hour = s_day.resample('H').ffill()
# 数据分箱技术binning score_list = np.random.randint(25, 100, size=20) bins = [0, 59, 70, 80, 100] # 定义区间范围点 score_cat = pd.cut(score_list, bins) # 对score_list做分箱操作 pd.value_counts(score_cat) # 做统计呈现 df = DataFrame() df['score'] = score_list df['student'] = [pd.util.testing.rands(3) for i in range(20)] # 给df添加区间 df['categories'] = pd.cut(df['score'], bins, labels=['r1','r2','r3','r4']) # 注意labels的数量应该等于bins的数量减1 print(df)
# 数据聚合技术Aggregation 基本使用:df.agg("func_name") 其中func_name可以是内置的函数,也可以是自定义函数 内置的如: mean,min,max,describe 自定义的如: def func1(attr): return attr.max() - attr.min() df.agg("func1")
df = DataFrame([[1,2,3],[1,3,9],[7,3,9]], columns=["A","B","C"]) dfgb_one = df.groupby(df['A']) # 按A列分组,求其他列的平均值 dfgb_one.mean() # 按A列分组,求B列的平均值 dfgb_one['B'].mean()
4.3.2.2 DataFrame的排序
df = DataFrame(np.arange(40).reshape(8,5)) # 以A列进行排序,降序方式 df.sort_values('A',ascending=False) # 以index进行排序 df.sort_index()
4.3.2.3 重命名DataFrame的index
df.index = df.index.map(str.lower) # map函数可以自己定义,也可以使用python的内置函数 df.rename(index=str.lower, columns=str.lower) df.rename(index={'A':'a'}, columns={'BJ':'bj'}) # 传入字典,字典中内容为修改的内容
4.3.2.4 DataFrame的merge操作
合并两个df:pd.merge
合并规则:找列名相同,value值相同
on参数默认为None,用来指定用哪一列进行merge
how参数默认为inner,用来指定merge策略。可选取值:left, right, inner,outer
4.3.2.4 DataFrame的多级index
1. 创建1个二级index的Series 2. 如何访问具有二级index的Series 3. 多级index的Series与DataFrame的相互转换 4. 创建1个具有多级index和多级columns的DataFrame
5. Pandas库中Series和DataFrame的关系
1. DataFrame 的每一列为一个 Series
DataFrame的每一行为一个 tuple。df.iterrows() 返回一个generator,遍历generator,每个元素为一个tuple,每个tuple有两个元素:index, Series。
2. Series是一维数据结构。index 创建series时可以指定,values array类型。
DataFrame是二维数据结构。包含有index,columns,values。
3. Series转为字典:{k1:v1,k2:v2}
DataFrame转为字典:{k1:{k11:v11,k12:v12}}
6. 使用pandas过程中的问题记录
1. 当用read_csv读取文件时,若某一列原本有整数和NaN数据,那么读取内容后此列中所有的整数都会变为浮点数。因为NaN数据属于浮点数。
2. 查看某一列中有多少个NaN的方法:.isnull().sum()
3. 统计某列或者某行数据元素的个数.value_counts()
4. 去除df中所有包含NaN的行:df.dropna()
5. 按条件删除某些行:df.drop(df[(df.score < 50) & (df.score > 20)].index)
其中可以使用操作符: | 只需其中一个成立,& 同时成立,~ 表示取反
6. 对列中每个元素做统一操作:df['column_name'].map(len)。其中len也可以是自定义函数
7. 针对某一列取值的唯一性,定义一些必要的映射关系:dict{ zip(df.column_name.unique(), {"a1", "a2", "a3"}) }