12 2018 档案
摘要:https://blog.csdn.net/ccnt_2012/article/details/81114920
阅读全文
摘要:协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024 阅读数:5468 协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024 阅读数:5468 协方差矩阵计算方法 协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024
阅读全文
摘要:apply:作用在dataframe的一行或一列上 applymap: 作用在dataframe的每一个元素上 关于apply传入多个参数:
阅读全文
摘要:pandas (loc、iloc、ix)的区别 loc:通过行标签索引数据 iloc:通过行号索引行数据 ix:通过行标签或行号索引数据(基于loc和iloc的混合) 1.使用loc、iloc、ix索引第一行数据: (1) loc (2) iloc (3) ix loc:通过行标签索引数据 iloc
阅读全文
摘要:PySpark之选择特征select、筛选filter、聚合运算、group by、join table、inner join 、left join、right join、full outer join,如下所示: from __future__ import print_function, div
阅读全文
摘要:调研系列第四篇:Hive MetaStore数据库表结构 先来一张整体概述 Hive MetaStore数据库表结构 1. SEQUENCE_TABLE : 对于db、tbl、sds等的SEQUENCE_id ,每次新增的时候取一个 2. DBS:存储hive的DB信息,表结构如下 : 3. DAT
阅读全文
摘要:笔者最近需要使用pyspark进行数据整理,于是乎给自己整理一份使用指南。pyspark.dataframe跟pandas的差别还是挺大的。 1、——– 查 ——– — 1.1 行元素查询操作 — 像SQL那样打印列表前20元素 show函数内可用int类型指定要打印的行数: df.show()df
阅读全文