12 2018 档案

摘要：https://blog.csdn.net/ccnt_2012/article/details/81114920 阅读全文

posted @ 2018-12-26 14:46 天马流欣阅读(306) 评论(0) 推荐(0) 编辑

摘要：协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024 阅读数：5468 协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024 阅读数：5468 协方差矩阵计算方法协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024 阅读全文

posted @ 2018-12-25 11:01 天马流欣阅读(994) 评论(0) 推荐(0) 编辑

apply,applymap和map的应用

摘要：apply：作用在dataframe的一行或一列上 applymap：作用在dataframe的每一个元素上关于apply传入多个参数：阅读全文

posted @ 2018-12-18 15:32 天马流欣阅读(614) 评论(0) 推荐(0) 编辑

pandas (loc、iloc、ix)的区别

摘要：pandas (loc、iloc、ix)的区别 loc：通过行标签索引数据 iloc：通过行号索引行数据 ix：通过行标签或行号索引数据（基于loc和iloc的混合） 1.使用loc、iloc、ix索引第一行数据： (1) loc (2) iloc (3) ix loc：通过行标签索引数据 iloc 阅读全文

posted @ 2018-12-11 11:36 天马流欣阅读(172) 评论(0) 推荐(0) 编辑

PySpark的选择_筛选_聚合_表连接

摘要：PySpark之选择特征select、筛选filter、聚合运算、group by、join table、inner join 、left join、right join、full outer join，如下所示： from __future__ import print_function, div 阅读全文

posted @ 2018-12-06 11:05 天马流欣阅读(4753) 评论(0) 推荐(0) 编辑

调研系列第四篇：Hive MetaStore数据库表结构

摘要：调研系列第四篇：Hive MetaStore数据库表结构先来一张整体概述 Hive MetaStore数据库表结构 1. SEQUENCE_TABLE : 对于db、tbl、sds等的SEQUENCE_id ,每次新增的时候取一个 2. DBS:存储hive的DB信息，表结构如下： 3. DAT 阅读全文

posted @ 2018-12-03 15:54 天马流欣阅读(1002) 评论(0) 推荐(0) 编辑

pyspark 知识点

摘要：笔者最近需要使用pyspark进行数据整理，于是乎给自己整理一份使用指南。pyspark.dataframe跟pandas的差别还是挺大的。 1、——– 查 ——– — 1.1 行元素查询操作 — 像SQL那样打印列表前20元素 show函数内可用int类型指定要打印的行数： df.show()df 阅读全文

posted @ 2018-12-01 11:27 天马流欣阅读(8504) 评论(0) 推荐(0) 编辑

公告

昵称：天马流欣
园龄： 10年2个月
粉丝： 9
关注： 48

+加关注

2025年3月

日

一

二

三

四

五

六

天马流欣

12 2018 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论