随笔分类 - Pandas
摘要:五、重采样与频率转换 1. resample方法 2. 降采样 (1)resample将高频率数据聚合到低频率 举例:已知:‘1分钟’数据,想要通过求和的方式将这些数据聚合到“5分钟”块中 left:[0:5)、[5:10)、[10-15) right :(0:5]、(5:10]、(10-15] 传
阅读全文
摘要:一、时间序列基础 1. 时间戳索引DatetimeIndex 生成20个DatetimeIndex 用这20个索引作为ts的索引 不同索引的时间序列之间的算术运算在日期上自动对齐 pandas使用numpy的datetime64数据类型在纳秒级的分辨率下存储时间戳 DatetimeIndex中的标量
阅读全文
摘要:Pandas库是处理时间序列的利器,pandas有着强大的日期数据处理功能,可以按日期筛选数据、按日期显示数据、按日期统计数据。 pandas的实际类型主要分为: timestamp(时间戳) period(时期) timedelta(时间间隔) 常用的日期处理函数有: pd.to_datetime
阅读全文
摘要:1. nunique() DataFrame.nunique(axis = 0,dropna = True ) 功能:计算请求轴上的不同观察结果 参数: axis : {0或'index',1或'columns'},默认为0。0或'index'用于行方式,1或'列'用于列方式。 dropna : b
阅读全文
摘要:1.修改列名字 把Dataframe格式的列名'class1'修改为'class_label' 2.调整列的顺序 3.调整index为从1开始 参考文献: 【1】Python pandas.DataFrame调整列顺序及修改index名
阅读全文
摘要:1. 查询 已知data: 查询概率等于0.4的所有行 问题所在:query后面只支持string形式的值,而"probability"==0.4返回的是一个bool类型,结果不是true就是false,所以需要进行如下操作,才可返回正确结果,正确操作如下 记录满足查找条件的行索引
阅读全文
摘要:pandas的拼接分为两种: 级联:pd.concat, pd.append 合并:pd.merge, pd.join 一.回顾numpy.concatenate 生成1个6*3的矩阵,一个2*3的矩阵,对其分别进行两个维度上的级联 二. concat pandas使用pd.concat函数,与np
阅读全文
摘要:1. 导入csv文件 这三种方法中最后一种最简单,不过花费时间比较长一点,第一种最麻烦,不过用时最短。这个可以通过ipython中的magic函数%%timeit来看。 2. 导入txt文件 数据: 将数据转为DataFrame格式,代码如下: 参考文献: 【1】numpy.loadtxt()
阅读全文
摘要:python pandas判断缺失值一般采用 isnull(),然而生成的却是所有数据的true/false矩阵,对于庞大的数据dataframe,很难一眼看出来哪个数据缺失,一共有多少个缺失数据,缺失数据的位置。 首先对于存在缺失值的数据,如下所示 df.isnull() 会产生如下结果 df.i
阅读全文
摘要:DataFrame中存在重复的行或者几行中某几列的值重复,这时候需要去掉重复行,示例如下: 代码中subset对应的值是列名,表示只考虑这两列,将这两列对应值相同的行进行去重。默认值为subset=None表示考虑所有列。 keep='first'表示保留第一次出现的重复行,是默认值。keep另外两
阅读全文
摘要:1.按列取、按索引/行取、按特定行列取 import numpy as np from pandas import DataFrame import pandas as pd df=DataFrame(np.arange(12).reshape((3,4)),index=['one','two','
阅读全文
摘要:简单的来记就是axis=0代表往跨行(down),而axis=1代表跨列(across) 轴用来为超过一维的数组定义的属性,二维数据拥有两个轴: 第0轴沿着行的垂直往下,第1轴沿着列的方向水平延伸。 换句话说: 使用0值表示沿着每一列或行标签/索引值向下执行方法 使用1值表示沿着每一行或者列标签横向
阅读全文
摘要:一、处理Series对象 通过dropna()滤除缺失数据 结果如下: 通过布尔序列也能滤除: 结果如下: 二、处理DataFrame对象 处理DataFrame对象比较复杂,因为你可能需要丢弃所有的NaN或部分NaN 结果如下: 默认滤除所有包含NaN: 结果如下 传入how=’all’滤除全为N
阅读全文
摘要:Series是带有标签的一维数组,可以保存任何数据类型(整数,字符串,浮点数,python对象) index查看series索引,values查看series值 series相比于ndarray,是一个自带索引index的数组 一维数组 + 对应索引 series和dict相比,series更像是一
阅读全文
摘要:DataFrame常用易混淆方法 apply && map && applymap 1.apply():作用在一维的向量上时,可以使用apply来完成,如下所示 2.map():作用是将函数作用于一个Series的每一个元素 3.applymap():作用于DataFrame中的每一个元素 滤除缺失
阅读全文
摘要:删除表中的某一行或者某一列更明智的方法是使用drop,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据。 (1)清理无效数据 此处:print( data.dropna()) 和 print(data[data.notnull()]) 结果一样 (2)填充无效值 注意:
阅读全文