pandas学习笔记
ipython技巧
1、快速查看文档:np.random.randn?;在python中使用python查看:help(np.random.randn)
2、可以直接运行shell命令(pwd、cd等命令)
3、%timeit可以实时查看代码的运行效率
4、ipython notebook(web上的ipython):在web上进行探索性编程,内联图片显示(%matplotlib inline命令设置显示内联图片)
numpy简介
1、创建列表的方法:
np.array() 传入列表等参数 np.array([[1,2,3],[4,5,6]])
np.arange() np.arange(10)
np.zeros() 传入元组参数 创建零数组
np.ones() 传入元组参数 创建元素全为一的数组
np.eye() np.eye(3) 创建单位数组
2、数组的数学运算
数组可以进行四则运算,运算规则为对应元素相加;其中加法也可以调用np.add(x,y)实现、
np.sqrt():求平方根
x.T:矩阵x的转置
x.dot(y):矩阵x与矩阵y的内积(矩阵的乘积)
3、常用的函数
np.linspace(): np.linspace(1,10,num=100) # 将一到十平均分为100份
pandas快速入门
处理时间问题:
pd.date_range('20180101', period = 100, fre = 's'):以秒为单位生成长度为100的时间序列
df.resample('2Min', how = 'sum'):以每两分钟求和的方式重新采样
pd.period_range('2000Q1', '2018Q1', freq = 'Q'):以一个季度为单位生成10年到18年的时间序列
to_timestamp():将时间序列转化成时间日期的格式
pd.Timestamp('20181020') - pd.Timestamp('20180920'):时间运算
pd.Timestamp('20181020') + pd.Timedelta(days = 5):加上五天后的时间
category数据:
df = pd.DataFrame({'id': [1, 2, 3, 4, 5, 6], raw_grade: ['a', 'b', 'b', 'a', 'a', 'd']})
df['grade'] = df.raw_grade.astype('category')
df.grade.cat.categories:查看类别
df.grade.cat.categories = ['very good', 'good', 'bad']
pandas可以直接将数据可视化:s.plot()(s表示为Series结构类型数据)
数据的导入写出
df.to_csv('data.csv'):将数据df导入到磁盘上data.csv文件
pd.read_csv('data_csv'):将data.csv读取到ipython notebook当中