摘要: 总结了一点关于git的使用命令和遇到的问题, 文章中都是我用到过的命令, 一直在不断的添加, 最近一次修改: 2017-09-13 15:04:01 不对的地方欢迎指正 一、SVN与Git的最主要的区别? 说起git自然想到SVN,我刚接触到的版本控制工具是SVN,SVN是集中式版本控制系统,版本库 阅读全文
posted @ 2019-01-09 16:05 天马流欣 阅读(249) 评论(0) 推荐(0) 编辑
摘要: 1 练习题和sql语句 2 3 基础sql语句 4 5 统计每个学生的总分。 6 统计出学号和总分 7 select s_id , sum(s_score) as zf from score group by s_id 8 9 上表结果和stuent做join连接 10 11 select stu.s_name,zf.ss from... 阅读全文
posted @ 2019-01-08 11:41 天马流欣 阅读(576) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/ccnt_2012/article/details/81114920 阅读全文
posted @ 2018-12-26 14:46 天马流欣 阅读(298) 评论(0) 推荐(0) 编辑
摘要: 协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024 阅读数:5468 协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024 阅读数:5468 协方差矩阵计算方法 协方差矩阵计算方法 2017年11月09日 16:05:51 Rise_1024 阅读全文
posted @ 2018-12-25 11:01 天马流欣 阅读(899) 评论(0) 推荐(0) 编辑
摘要: apply:作用在dataframe的一行或一列上 applymap: 作用在dataframe的每一个元素上 关于apply传入多个参数: 阅读全文
posted @ 2018-12-18 15:32 天马流欣 阅读(610) 评论(0) 推荐(0) 编辑
摘要: pandas (loc、iloc、ix)的区别 loc:通过行标签索引数据 iloc:通过行号索引行数据 ix:通过行标签或行号索引数据(基于loc和iloc的混合) 1.使用loc、iloc、ix索引第一行数据: (1) loc (2) iloc (3) ix loc:通过行标签索引数据 iloc 阅读全文
posted @ 2018-12-11 11:36 天马流欣 阅读(166) 评论(0) 推荐(0) 编辑
摘要: PySpark之选择特征select、筛选filter、聚合运算、group by、join table、inner join 、left join、right join、full outer join,如下所示: from __future__ import print_function, div 阅读全文
posted @ 2018-12-06 11:05 天马流欣 阅读(4729) 评论(0) 推荐(0) 编辑
摘要: 调研系列第四篇:Hive MetaStore数据库表结构 先来一张整体概述 Hive MetaStore数据库表结构 1. SEQUENCE_TABLE : 对于db、tbl、sds等的SEQUENCE_id ,每次新增的时候取一个 2. DBS:存储hive的DB信息,表结构如下 : 3. DAT 阅读全文
posted @ 2018-12-03 15:54 天马流欣 阅读(948) 评论(0) 推荐(0) 编辑
摘要: 笔者最近需要使用pyspark进行数据整理,于是乎给自己整理一份使用指南。pyspark.dataframe跟pandas的差别还是挺大的。 1、——– 查 ——– — 1.1 行元素查询操作 — 像SQL那样打印列表前20元素 show函数内可用int类型指定要打印的行数: df.show()df 阅读全文
posted @ 2018-12-01 11:27 天马流欣 阅读(8457) 评论(0) 推荐(0) 编辑
摘要: pyspark 读取csv文件创建DataFrame的两种方法 方法一:用pandas辅助 pyspark 读取csv文件创建DataFrame的两种方法 方法一:用pandas辅助 from pyspark import SparkContext from pyspark.sql import S 阅读全文
posted @ 2018-11-30 15:36 天马流欣 阅读(3182) 评论(0) 推荐(0) 编辑