pandas学习笔记

ipython技巧

1、快速查看文档:np.random.randn?;在python中使用python查看:help(np.random.randn)

2、可以直接运行shell命令(pwd、cd等命令)

3、%timeit可以实时查看代码的运行效率

4、ipython notebook(web上的ipython):在web上进行探索性编程,内联图片显示(%matplotlib inline命令设置显示内联图片)

 

numpy简介

1、创建列表的方法:

np.array()  传入列表等参数    np.array([[1,2,3],[4,5,6]]) 

np.arange()   np.arange(10) 

np.zeros() 传入元组参数 创建零数组

np.ones() 传入元组参数 创建元素全为一的数组

np.eye()  np.eye(3)  创建单位数组

2、数组的数学运算

数组可以进行四则运算,运算规则为对应元素相加;其中加法也可以调用np.add(x,y)实现、

np.sqrt():求平方根

x.T:矩阵x的转置

x.dot(y):矩阵x与矩阵y的内积(矩阵的乘积)

3、常用的函数

np.linspace(): np.linspace(1,10,num=100) # 将一到十平均分为100份 

 

pandas快速入门

处理时间问题:

pd.date_range('20180101', period = 100, fre = 's'):以秒为单位生成长度为100的时间序列

df.resample('2Min', how = 'sum'):以每两分钟求和的方式重新采样

pd.period_range('2000Q1', '2018Q1', freq = 'Q'):以一个季度为单位生成10年到18年的时间序列

to_timestamp():将时间序列转化成时间日期的格式

pd.Timestamp('20181020') - pd.Timestamp('20180920'):时间运算

pd.Timestamp('20181020')  + pd.Timedelta(days = 5):加上五天后的时间

category数据:

  df = pd.DataFrame({'id': [1, 2, 3, 4, 5, 6], raw_grade: ['a', 'b', 'b', 'a', 'a', 'd']})

  df['grade'] = df.raw_grade.astype('category')

  df.grade.cat.categories:查看类别

  df.grade.cat.categories = ['very good', 'good', 'bad']

pandas可以直接将数据可视化:s.plot()(s表示为Series结构类型数据)

 

数据的导入写出

df.to_csv('data.csv'):将数据df导入到磁盘上data.csv文件

pd.read_csv('data_csv'):将data.csv读取到ipython notebook当中

posted @ 2018-10-16 20:59  你说的都好  阅读(488)  评论(0编辑  收藏  举报