摘要:
数据转换 删除重复元素 DataFrame对象的duplicated()函数可用来检测重复的行,返回元素为布尔型的Series对象。 每个元素对 应一行,如果该行与其他行重复(也就是说该行不是第一次出现),则元素为True; 如果跟前面不重复,则元 素就为False。 返回元素为布尔值的Series 阅读全文
摘要:
对于合并操作,熟悉SQL的读者可以将其理解为JOIN操作,它使用一个或多个键把多行数据 结合在一起. 事实上,跟关系型数据库打交道的开发人员通常使用SQL的JOIN查询,用几个表共有的引用 值(键)从不同 的表获取数据。以这些键为基础,我们能够获取到列表形式的新数据,这些数据是对几个表中的数据进行组 阅读全文
摘要:
pandas 的读写函数简表 1、多年以来,人们已习惯于文本文件的读写,特别是列表形式的数据。如果文件每一行的多 个元素是用逗号隔开的, 则这种格式叫作CSV,这可能是最广为人知和最受欢迎的格式。 2、其他由空格或制表符分隔的列表数据通常存储在各种类型的文本文件中(扩展名一般 为.txt )。 3、 阅读全文
摘要:
DataFrame的定义 使用index参数可以设置index信息 选取元素 一般我们常需要按列取值,那么DataFrame提供了 loc 和 iloc 供大家选择,但是两者之间是由区别的。 一般取值操作 元素的赋值 赋值补充 Index对象 注意上面的 Series 用 reindex 改变了in 阅读全文
摘要:
pandas在python中的使用: 在python中默认用 import pandas as pd 导入pandas库,你可以用 pd.__version__ 查看你安装的版本。 pandas中主要有两种数据结构:Series 和 DataFrame。下面我们将介绍 Series 。 Series 阅读全文
摘要:
数组的连接: 拆分数组: 数组的广播机制: 示意图如下: 结构化数组: 文件贮存与读写: np.where: np.where实际上是 x if condition else y 的矢量化版本 数组去重: 阅读全文
摘要:
数组的切片索引: 数组的切片索引和列表非常类似,下面用代码简单说明 由于和列表类似,且要符号多维数组的特征,所以这里不过多阐述。有需要参考列表的相关知识。 数组的循环遍历: np.apply_along_axis()方法在我们对矩阵按行按列操作的时候最好用它。注意,第一个参数是方法,方法可以是自己对 阅读全文
摘要:
数组间的加减乘除: 数组与数值相加减乘除,实际是对每个元素都进行加减乘除: print(a + 2, '\n', a - 2, '\n', a * 2, '\n', a / 2) Out[2]: [3 4 5 6] [-1 0 1 2] [2 4 6 8] [0.5 1. 1.5 2. ] 矩阵间的 阅读全文
摘要:
导入Numpy库,约定熟成的导入方式为 import numpy as np: 创建数组: 创建常规数组,测试numpy的属性,如:ndim、shape、itemsize、size、data [1. 2.] 数组的维数: 3 数组的形状: (2, 2, 3) 数组每个元素占几个字节: 8 数组的大小 阅读全文
摘要:
因为Hadoop是Java编写的,所以我们要配置Java环境 下载一个jdk安装包,你可以去官网下载,也可以从百度云下载jdk1.7.0_80 当然你也可以去清华大学开源软件镜像站下载 下载之后将安装包解压到你的虚拟机 /usr/local 目录下,文件可以直接拖拽到虚拟机桌面,解压缩到指定目录: 阅读全文