pandas基础

1.Pandas数据结构

Series :是一种类似于一维数组的对象，由一组数据以及一组与之相关的数据标签(即索引)组成。
DataFrame :是一个表格型的数据结构，既有行索引又有列索引的一种数据结构.

2.外部导入数据

导入xlsx
导入CVS
导入txt
导入SQL

格式 :

pd.read_excel(r"D:\Data-Science\share\data\pandas_train.xlsx",encoding = "gbk",engine='python',sep = " ")

导入SQL :

import pymysql
sql_cmd = "SELECT * FROM memberinfo"
db = pymysql.connect(host = "X.X.X.X",
                     user = "XXX",
                     password = "*******",
                     db = "XXX" ,
                     charset = "utf8")
# host：数据库地址/本机使用localhost  
# user：用户名  
# password：密码  
# db:数据库名  
# charset：数据库编码，一般为UTF-8
#注：如果用户名或密码中包含特殊符号@、%等符号时，需要修改密码方可链接

df = pd.read_sql(sql_cmd, db)

总结:

　　同样数量的数据，导入excel格式是导入csv格式的10倍,所以尽量将表转为csv以后进行处理

3.数据熟悉

head(N)	输出前N行 , 默认5行
shape	输出(行数, 列数)
info()	输出表相关信息
describe()	输出数值型数据的count,中位数,min,max,mean等

4.数据预处理

4.1.删除缺失值

dropna() 默认删除含有缺失值得行

参数:

how="all" 删除全为缺失值的行

4.2.填充缺失值

fillna()

#fillna()和dropna()默认会返回一个替换后的新对象，不改变源数据，这个时候将替换后的数据赋值给新的表，如果要改变源数据，通过传入inplace=True进行更改

# 以字典的形式指明要填充的列名

5.重复值处理

对于重复值我们一般是进行删除处理,使用的方法是drop_duplicates()

#subset表示按哪列/几列进行去重

#keep=first表示保留保留第一个，=last表示保留最后一个，=False表示删除所有重复值，默认是first

#inplace表示是否更改源数据

6.异常值处理

最常用的处理方式就是删除。
把异常值当作缺失值来填充。
把异常值当作特殊情况，研究异常值出现的原因。

类型	说明
int	整型数,即整数
float	浮点数，即含有小数点
object	python对象类型,用O表示
string_	字符串类型，经常用S表示，S10表示长度为10的字符串
unicode_	固定长度的unicode类型，跟字符串定义方式一样，经常用U表示

7 索引设置

7.1 为无索引表设置索引

df.columns = ["技能","周数"]

df.index = ['第一', '第二', '第三', '第四']

7.2 重新设置索引

#设置单一索引

df112.set_index("用户编号").head()

#设置层次化索引

df64=df112.set_index(["家庭成员","好坏客户"])

7.3 重命名索引

#利用rename的方法对行/列名进行重命名

columns={"用户编号":"用户编号-测试",

"好坏客户":"好坏客户-测试"}

index={0:"zero",

1:"one"}

df112.rename(columns=columns,index=index).head()

7.4 重置索引

reset_index(level=None, drop=False, inplace=False)

level 参数用来指定要将层次化索引的第几级别转化为 columns，第一个索引为 0 级，第二个索引为 1 级，默认为全部索引，即默认把索引全部转化为 columns。

drop参数用来指定是否将原索引删掉，即不作为一个新的columns，默认为False，即不删除原索引。

inplace 参数用来指定是否修改原数据表。

8 数据选择

　　普通索引: 通过传入列名选择数据. (行和列有区别 , 行用到loc)

　　位置索引: iloc 方法

8.1 列选择

#获取某一列，其实就是一个Series

df["家庭成员"].head()

#获取特定的某几列

df[["用户编号","年龄"]].head()

# 选择某几列,如第一列和第三列

df.iloc[:,[0,2]].head()

# 选择连续的某几列,如第一列到第三列

df.iloc[:,[0:2]].head()

8.2 行选择

# 选择某行/某几行

df521.loc[["零","二"]]

#利用位置索引第一行和第三行

df521.iloc[[0,2]]

#利用位置索引第一行到第三行

df521.iloc[0:2]

8.2.1筛选满足条件的行

df112[(df112["用户编号"]>10)|(df112["年龄"]<25)]

8.3 列行同时选择

df[df["QADays"]<5]["GoodsID"]

df521.loc[["零","一"],["用户编号","年龄"]]

df521.iloc[[0,1],[0,2]]

df112[df112["用户编号"]<5][["用户编号","年龄"]]

df521.iloc[0:2,0:3]

#交叉索引用到ix

df521.ix[0:3,["用户编号","年龄"]]

9.数值操作

9.1 数值替换replace()

#针对全表一对一进行替换

import numpy as np

df112.replace(np.NaN,0).head()

#针对全表多对一进行替换

df112.replace([0,1],"替换值").head()

#针对全表多对多替换

df112.replace({1:"是",0:"否"}).head()

#针对某列进行替换,且不更改源数据 ,参数inplace = True/False

df112["好坏客户"].replace({1:"是",0:"否"},inplace=False).head()

9.2数值排序sort_values()

#按某列进行升序, 默认升序即 ascending = True , 按照某一列 by=["年龄"]

#缺失值默认放在后面 , 可改为前面即: na_position="first"

df112.sort_values(by=["年龄"]).head()

#按某几列进行升序排列

#先按第一列进行升序，如果第二列有重复值，则再按第二列进行降序

df112.sort_values(by=["用户编号","年龄"],ascending=[True,False]).head()

9.3数值排名rank()

method	说明
"average"	这种处理方式与Excel中RANK.AVG一致
"first"	按值在所有的待排列数据中出现的先后顺序排名
"min"	这种处理方式与Excel中RANK.EQ一致
"max"	与min相对应，取重复值对应的最大排名

rank(ascending,method)

#默认 method = average

df["成交量"].rank()

9.4 数值删除drop()

#删除一列/多列

df112.drop(columns=["用户编号","年龄"]).head()

#删除一列/多列,对于直接传入列名需要传入参数axis=1 , 而0表示删除行

df112.drop(["用户编号","年龄"],axis=1).head()

#同样需要传入inplace=True才可以改变原始数据

#根据行索引删除行

df112.drop([0,1],axis=0).head()

df112.drop(df112.index[[0,1]]).head()

9.5数值计数value_counts()

#各类别占比 normalize = True

df112["好坏客户"].value_counts(normalize = True)

9.6唯一值获取unique()

df112["年龄"].unique()

9.7数值查找isin()

df112["好坏客户"].isin([0,1])

9.8区间切分cut() 和 qcut()

#自定义切分

bins=[0,100,1000,10000,150000]

pd.cut(df112["用户编号"],bins).unique()

#等量切分如5等分

pd.qcut(df112["用户编号"],5).unique()

9.9 插入新的行或列insert()

df112.insert(3,"插入-测试",data)#表示在第4列插入一列名为"插入-测试"的数据data

#方法二,在最后一列后面插入一列

df112["新插入一列"] = data

9.10行列互换 T

#转置

df12.T.T

9.11索引重塑stack()

9.12长宽表转换

>>df612.melt(id_vars = ["Company","Name"],
           var_name = "Year",
           value_name = "Sale")   
-----------------------
Company    Name    Year    Sale
0    Apple    苹果    Sale2013    5000
1    Google    谷歌    Sale2013    3500
2    Facebook    脸书    Sale2013    2300
3    Apple    苹果    Sale2014    5050
4    Google    谷歌    Sale2014    3800
5    Facebook    脸书    Sale2014    2900
6    Apple    苹果    Sale2015    5050
7    Google    谷歌    Sale2015    3800
8    Facebook    脸书    Sale2015    2900
9    Apple    苹果    Sale2016    5050
10    Google    谷歌    Sale2016    3800
11    Facebook    脸书    Sale2016    2900

id_vars 参数用于指明宽表转换到长表时保持不变的列，

var_name 参数示原来的列索引转化为“行索引”以后对应的列名，

value_name 表示新索引对应的值的列名。

9.13 apply()和applymap() 函数

df611.applymap(lambda x:x*2)

df611["C2"].apply(lambda x:x+2)

10 数据运算

10.1 算术运算

+ - * /

10.2 比较运算

< > = !=

10.3 汇总运算

函数	说明
count	非NA值得数量
mean	平均值
sum	求和
max	求最大值
min	求最小值
median	中位数
mode	求众数
var	方差
std	标准差
quantile	求分位数
corr	相关系数

#两变量的相关系数

df112["年龄"].corr(df112["月收入"])

out : 0.03771565421103959

#相关系数矩阵

df112.corr()

11时间函数

11.1 datetime和time的区别

time是基于系统层面的一些操作，datetime 基于time进行了封装，提供了更多实用的函数。

11.2 datetime

>>from datetime import datetime 
>>now = datetime.now()
#时间元组
out : datetime.datetime(2019, 8, 12, 19, 57, 31, 214668)
# 年,月,日,星期
>> now.year  now.month  now.day  now.weekday()  
# 日期的年份、全年的周数、本周第几天:(2019, 33, 1)
>> now.isocalendar()

11.3 time

>>import time
#获取时间长格式
>>time.localtime()
out:  time.struct_time(tm_year=2019, tm_mon=8, tm_mday=12, tm_hour=20, tm_min=6, tm_sec=46, tm_wday=0, tm_yday=224, tm_isdst=0)
#时间戳
>>time.time()
out:  1565611051.3792284

11.7 格式化时间

strptime()是将时间格式的时间转化为某些自定义的格式，具体的格式有以下：

#字符串转为time
s_time = '2019-01-03 08:57:21'
time.strptime(s_time,"%Y-%m-%d %H:%M:%S")
#字符串转为datetime
datetime.strptime(s_time,"%Y-%m-%d %H:%M:%S")

代码	说明
%H	小时(24小时制)[00,23]
%I	小时(12小时)[01,12]
%M	2位数的分[00,59]
%S	秒[00，61]
%w	用整数表示星期几，从0开始
%U	每年的第几周,周日被认为是每周第一天
%W	每年的第几周,周一被认为是每周第一天
%F	%Y-%m-%d的简写形式,例如2018-04-18
%D	%m/%d/%y的简写形式,例如04/18/2018

strftime是将时间格式的时间转化为某些自定义的格式，具体的格式有以下：

#time转化为字符串
time.strftime("%Y-%m-%d %H:%M:%S",time.localtime())
#datetime转化为字符串
datetime.now().strftime("%Y-%m-%d %H:%M:%S")

代码	说明
%H	小时(24小时制)[00,23]
%I	小时(12小时)[01,12]
%M	2位数的分[00,59]
%S	秒[00，61]
%w	用整数表示星期几，从0开始
%U	每年的第几周,周日被认为是每周第一天
%W	每年的第几周,周一被认为是每周第一天
%F	%Y-%m-%d的简写形式,例如2018-04-18
%D	%m/%d/%y的简写形式,例如04/18/2018

11.4 时间索引

import pandas as pd
import numpy as np
index = pd.DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04', '2018-01-05', '2018-02-06', '2018-02-07', '2018-02-08',
'2018-02-09', '2018-02-10'])
data = pd.DataFrame(np.arange(1,11),columns = ["num"],index = index)


#时间索引pandas.datatimeindex()用处
#获取2018年的数据
data["2018"]
#获取2018年1月1到1月3的数据
data["2018-01-01":"2018-01-03"]

11.5 日期之差

11.6 时间偏移

12 数据分组/透视

12.1 分组键时列名

# 分组键是多个列

groupby(["区域","客户分类"])

#获取某列的分组结果

df2.groupby(["区域","是否省会"])["7月销量"].sum()

12.2 aggregate方法

除了常规的加减乘除计数之外，还可以自定义函数，并通过aggregate或agg方法传入即可。

#不同列做不同的聚合运算

df2.groupby("客户分类").aggregate({"用户ID":"count","7月销量":"sum","8月销量":"sum"})

#针对相同的列做不同的聚合运算

df2.groupby(["区域"])["7月销量"].aggregate(["count","sum"])

#该函数是针对每个分组内的数进行计算的

def zidingyi(arr):

return arr.sum()

df2.groupby(["区域","是否省会"])["7月销量"].agg(zidingyi)

#参数: 以无索引形式返回聚合数据

as_index=False

12.3 数据透视表 pivot_table()

pd.pivot_table(data,values=["7月销量","8月销量"],index=["区域","客户分类"],columns="是否省会",aggfunc="sum", fill_value=0,margins=True,margins_name="总计")

参数:

- 缺失值填充: fill_value 默认为Nan
- 合计: margins 默认关闭
- 合计名: margins_name

13 多表联结

13.1 横向联结(列联结)

merge(table1,table2,...)

参数:

- on # 用on来指定连接键 ,默认以公共列
- how # 联结方式 inner outer right left
- suffixes #重复列名处理

13.2 纵向联结(行联结)

concat()

参数:

- ignore_index #忽略索引
- drop_duplicates() #重置数据处理

14 结果导出

14.1 Excel单个sheet

#无穷值处理

df2.to_excel(excel_writer = r"D:\Data-Science\share\data\测试文档.xlsx",sheet_name = "这是sheet名",index = False,columns = ["学号","班级"],encoding = "utf-8",na_rep = 0,inf_rep = 0)

参数:

- na_rep #缺失值处理
- inf_rep #无穷值处理

14.2 Excel多个sheet

#声明一个读写对象
#excelpath为文件要存放的路径
excelpath = "D:/Data-Science/share/data/多文件报表.xlsx"


writer = pd.ExcelWriter(excelpath,engine = "xlsxwriter")


df1 = t2.reset_index()
df2 = t1.reset_index()
df3 = t11.reset_index()


#分别将表df1、df2、df3写入excel中的sheet1、sheet2、sheet3
#并命名为表1、表2、表3
df1.to_excel(writer,sheet_name = "表1")
df2.to_excel(writer,sheet_name = "表2")
df3.to_excel(writer,sheet_name = "表3")


#保存读写的内容
writer.sav

14.3 导出 CVS

#设置分割符,多列, 编码, 设置索引

df2.to_csv(r"D:\Data-Science\share\data\测试.csv",index = False,columns = ["学号","班级"],encoding = "gbk",sep = ",")

posted @ 2019-08-05 23:10 找工作好爽啊哈哈哈呜阅读(401) 评论(0) 编辑收藏举报

刷新页面返回顶部

厚积薄发

pandas基础