文章分类 - Pandas
Pandas知识点记录
摘要:EXCEL文件 Pandas支持Excle 2003或更高版本文件的读写。在内部,这需要使用附加包xlrd和openpyxl来分别读取XLS和XLSX文件。如果你的环境中没有这两个包,可能需要使用pip或者conda手动安装一下。 使用很简单,看下面的例子: 或者使用更简洁的语法: 将pandas数
阅读全文
摘要:分块读取: 当我们处理大型文件的时候,读入文件的一个小片段或者按小块遍历文件是比较好的做法。 在这之前,我们最好先对Pandas的显示设置进行调整,使之更为紧凑: 这样,即使是大文件,最多也只会显式10行具体内容。 或者使用nrows参数,指明从文件开头往下只读n行: 或者指定chunksize作为
阅读全文
摘要:文件读取 前面的例子中,我们都是通过手动输入数据来生成 和`DataFrame`对象。在实际工作中,这显然是不可能的。大多数时候,我们都要与外部进行数据交换,输入和输出。有很多的工具可以帮助我们读取和写入各种格式的数据,但是Pandas自己提供的读写工具更方便更适合。 数据交换主要有以下几种类型:
阅读全文
摘要:统计和汇总 Pandas也有一套和Numpy类似的数学、统计学方法。不过在使用中要注意的是,Numpy通常将数组看作一个整体,而Pandas通常对列进行操作。当然,这两者也能单独对行进行操作。另外,Pandas内建了处理缺失值的功能,这一点是numpy不具备的。 下面是主要的统计和汇总方法: | 方
阅读全文
摘要:排序和排名 排序分两种:根据索引排序和根据元素值排序 索引排: 如果要根据某行或某列元素的值的大小进行排序,就要使用sort_values方法: 除了排序,还有排名。Pandas的排名规则不太好理解,其规则如下: 1. 以升序排名为例 2. 所有数中最小的数排为1.0 3. 按数大小依此类推,2.0
阅读全文
摘要:函数和映射 一些Numpy的通用函数对Pandas对象也有效: 当然,你也可以自定义处理函数,然后使用pandas提供的apply方法,将它应用在每一列: apply()是整行整列的操作,applymap()是逐一对每个元素进行操作。 apply()对于Series数据来说是逐一对元素进行操作,与m
阅读全文
摘要:算数和广播: 当对 两个Series或者DataFrame对象进行算术运算的时候 , 返回的结果是两个对象的并集 。如果存在某个 索引不匹配时,将以缺失值NaN的方式体现 ,并对以后的操作产生影响。这 类似数据库的外连接 操作。 Series: DataFrame: 在上述过程中,为了防止NaN对后
阅读全文
摘要:索引和切片: Series的打印效果,让我们感觉它像个二维表格,实际上它还是一维的,其索引和numpy的一维数组比较类似,但还是有点区别的。 Series操作: 注意:如果你的Series是显式的整数索引,那么 这样的取值操作会使用显式索引,而 这样的切片操作却会使用隐式索引。 DataFrame操
阅读全文
摘要:Pandas删除元素: 通过 方法,可以删除Series的一个元素,或者DataFrame的一行或一列。默认情况下 ,drop方法按行删除,且不会修改原数据 ,但指 定axis=1则按列删除 ,指定 inplace=True则修改原数据 。 结果:
阅读全文
摘要:Pandas重建索引 | 方法 | 概述 | | | | | reindex | 重新为Pandas对象设置索引 | 举例: 也可以为缺失值指定填充方式method参数,比如 ffill表示向前填充 , bfill表示向后填充: 对于DataFrame这种二维对象,如果执行 reindex方法时只提
阅读全文
摘要:表合,主键合并 1.表合并 参数含义: :Series,DataFrame或Panel对象的序列或映射。如果传递了dict,则排序的键将用作键参数,除非它被传递,在这种情况下,将选择值(见下文)。任何无对象将被静默删除,除非它们都是无,在这种情况下将引发一个ValueError。 :{0,1,...
阅读全文
摘要:Pandas透视表和交叉表 交叉表就是聚合函数是len个数的透视表 透视表是由聚合函数是mean的分组旋转而成 构建数据 1.透视表 pivot_table 1.参数解析 values=None, 指定要显示列 index=None, 按照指定的行分 columns=None,按照指定的列分 agg
阅读全文
摘要:统计分析: | 方法 | 概述 | | | | | count | 非空数目 | | series | 频数统计 | | mode | 众数 | | describe | 数据的范围。大小、波动趋势等,便于判断后续对数据采取哪类模型更合适。 | | astype | 将数值型转为类别型astype
阅读全文
摘要:Dataframe相关操作: 1.数据索引 1.数据切片,行索引,列索引名称去切 构建数据 1.单列 2.多列 3.行列切片 2.灵活查询 .loc[行索引名称|条件,列索引名称] 前闭后闭区间 .iloc[行位置索引,列位置索引] 条件, 逻辑与操作 & 逻辑或操作 | 3.更改数据 4.添加数据
阅读全文
摘要:Pandas文件操作: 1.文本文件:.csv/.txt .csv 是一种特殊的 文本分隔符,默认分隔符为',' pd.read_csv 2.通用的文本读取方式: pd.read_table 指定文件 指定分隔符 指定 编码方式 3.excel文件: .xls/.xlsx两种格式 sheetname
阅读全文
摘要:Pandas基础 概述: Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。 神器一DataFrame: DataFrame 是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值
阅读全文