天马流欣

2019年1月9日

摘要：总结了一点关于git的使用命令和遇到的问题, 文章中都是我用到过的命令, 一直在不断的添加, 最近一次修改: 2017-09-13 15:04:01 不对的地方欢迎指正一、SVN与Git的最主要的区别？说起git自然想到SVN，我刚接触到的版本控制工具是SVN，SVN是集中式版本控制系统，版本库阅读全文

posted @ 2019-01-09 16:05 天马流欣阅读(251) 评论(0) 推荐(0) 编辑

2019年1月8日

hive 练习

摘要： 1 练习题和sql语句 2 3 基础sql语句 4 5 统计每个学生的总分。 6 统计出学号和总分 7 select s_id , sum(s_score) as zf from score group by s_id 8 9 上表结果和stuent做join连接 10 11 select stu.s_name,zf.ss from... 阅读全文

posted @ 2019-01-08 11:41 天马流欣阅读(590) 评论(0) 推荐(0) 编辑

2018年12月26日

如何通俗理解泊松分布？

摘要： https://blog.csdn.net/ccnt_2012/article/details/81114920 阅读全文

posted @ 2018-12-26 14:46 天马流欣阅读(303) 评论(0) 推荐(0) 编辑

2018年12月25日

协方差矩阵计算方法

摘要：协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024 阅读数：5468 协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024 阅读数：5468 协方差矩阵计算方法协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024 阅读全文

posted @ 2018-12-25 11:01 天马流欣阅读(974) 评论(0) 推荐(0) 编辑

2018年12月18日

apply,applymap和map的应用

摘要： apply：作用在dataframe的一行或一列上 applymap：作用在dataframe的每一个元素上关于apply传入多个参数：阅读全文

posted @ 2018-12-18 15:32 天马流欣阅读(614) 评论(0) 推荐(0) 编辑

2018年12月11日

pandas (loc、iloc、ix)的区别

摘要： pandas (loc、iloc、ix)的区别 loc：通过行标签索引数据 iloc：通过行号索引行数据 ix：通过行标签或行号索引数据（基于loc和iloc的混合） 1.使用loc、iloc、ix索引第一行数据： (1) loc (2) iloc (3) ix loc：通过行标签索引数据 iloc 阅读全文

posted @ 2018-12-11 11:36 天马流欣阅读(172) 评论(0) 推荐(0) 编辑

2018年12月6日

PySpark的选择_筛选_聚合_表连接

摘要： PySpark之选择特征select、筛选filter、聚合运算、group by、join table、inner join 、left join、right join、full outer join，如下所示： from __future__ import print_function, div 阅读全文

posted @ 2018-12-06 11:05 天马流欣阅读(4745) 评论(0) 推荐(0) 编辑

2018年12月3日

调研系列第四篇：Hive MetaStore数据库表结构

摘要：调研系列第四篇：Hive MetaStore数据库表结构先来一张整体概述 Hive MetaStore数据库表结构 1. SEQUENCE_TABLE : 对于db、tbl、sds等的SEQUENCE_id ,每次新增的时候取一个 2. DBS:存储hive的DB信息，表结构如下： 3. DAT 阅读全文

posted @ 2018-12-03 15:54 天马流欣阅读(989) 评论(0) 推荐(0) 编辑

2018年12月1日

pyspark 知识点

摘要：笔者最近需要使用pyspark进行数据整理，于是乎给自己整理一份使用指南。pyspark.dataframe跟pandas的差别还是挺大的。 1、——– 查 ——– — 1.1 行元素查询操作 — 像SQL那样打印列表前20元素 show函数内可用int类型指定要打印的行数： df.show()df 阅读全文

posted @ 2018-12-01 11:27 天马流欣阅读(8493) 评论(0) 推荐(0) 编辑

2018年11月30日

pyspark 读取csv文件创建DataFrame的两种方法

摘要： pyspark 读取csv文件创建DataFrame的两种方法方法一：用pandas辅助 pyspark 读取csv文件创建DataFrame的两种方法方法一：用pandas辅助 from pyspark import SparkContext from pyspark.sql import S 阅读全文

posted @ 2018-11-30 15:36 天马流欣阅读(3198) 评论(0) 推荐(0) 编辑

公告