摘要:
1.案例数据来自python数据分析手册,github地址:https://github.com/jakevdp/PythonDataScienceHandbook/tree/master/notebooks/data 不克隆项目,怎么在github下载单个文件?:https://www.cnblo 阅读全文
摘要:
1,处理重复数据 使用duplicated检测重复的行,返回一个series,如果不是第一次出现,也就是有重复行的时候,则为True: 对应的,可以使用drop_duplicates来删除重复的行: 以上两个方法,都不能有重复的列! 2.map函数:列处理 map() 是一个Series的函数,Da 阅读全文
摘要:
merge有点类似SQL中的join,可以将不同数据集按照某些字段进行合并,得到新的数据集 1.参数一览表: 2.一对一连接:默认情况下,会按照相同字段的进行连接 例如有相同字段emp的两个df,merge的时候就会根据emp进行连接,且根据参数知道,默认是内连接: 使用默认的不是很明了,通常情况下 阅读全文
摘要:
主要分为:级联:pd.concat、pd.append 合并:pd.merge 一、numpy级联的回顾 详细参考numpy章节 https://www.cnblogs.com/jiangbei/p/11287238.html 二、pd中concat函数 1.简单级联 和numpy的级联类似,默认增 阅读全文
摘要:
一、行多层索引 1.隐式创建 在构造函数中给index、colunms等多个数组实现(datafarme与series都可以) df的多级索引创建方法类似: 2.显式创建pd.MultiIndex 其中.from_arrays为类似上面的参数,推荐使用简单的from_product函数(会自动进行交 阅读全文
摘要:
一、数据丢失分类 1)nd中分为两种:None和np.nan(NaN) 其中,None是python中的对象,是一个object;而nan是一个float类型 两种不同的类型,运算速度也是不同的 2)pandas中两种都视作NaN(np.nan) 二、数据丢失处理 通过控制columns来创建有Na 阅读全文
摘要:
一、介绍 数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列。 可以看作是Series的二维拓展,但是df有行列索引:index、column 推荐参考:https://www.jianshu.com/p/c534e83d2f4b 二、快速入门 1.打开csv 发现报错,原因是 阅读全文
摘要:
一、介绍 Pandas是一个开源的,BSD许可的库(基于numpy),为Python编程语言提供高性能,易于使用的数据结构和数据分析工具。 官方中文文档:https://www.pypandas.cn/docs/ 本次演示使用数据来自github:https://github.com/jakevdp 阅读全文
摘要:
一、什么是numpy Numpy提供了一个在Python中做科学计算的基础库,重在数值计算,主要用于处理多维数组(矩阵)的库。用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。本身是由C语言开发,是个很基础的扩展,Python其余的科学计算扩展大部分都是以此为基础。 二、快速入门n 阅读全文