08 2020 档案

摘要:1、order by hive中的order by 会对查询结果集执行一个全局排序,这也就是说所有的数据都通过一个reduce进行处理的过程,对于大数据集,这个过程将消耗很大的时间来执行。 2、sort by hive的sort by 也就是执行一个局部排序过程。这可以保证每个reduce的输出数据 阅读全文
posted @ 2020-08-31 17:29 彬在俊 阅读(448) 评论(0) 推荐(0) 编辑
摘要:前言:我们在学习hive窗口函数的时候,一定要先了解窗口函数的结构。而不是直接百度sum() over()、row_number() over()、或者count() over()的用法,如果这样做,永远也掌握不到窗口函数的核心,当然我刚开始的时候也是这样做的。 还好我比较顽强,在HIVE窗口函数问 阅读全文
posted @ 2020-08-31 16:41 彬在俊 阅读(12886) 评论(1) 推荐(7) 编辑
摘要:1.函数说明 主要是配合over()窗口函数来使用的,通过over(partition by order by )来反映统计值的记录。 1. rank() over()是跳跃排序,有两个第二名时接下来就是第四名(同样是在各个分组内) 2. dense_rank() over()是连续排序,有两个第二 阅读全文
posted @ 2020-08-31 11:40 彬在俊 阅读(1317) 评论(0) 推荐(0) 编辑
摘要:Hive注释中文乱码 创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱码 create external table movie( userID int comment '用户ID', movieID int comment '电影ID', rating int co 阅读全文
posted @ 2020-08-29 13:36 彬在俊 阅读(491) 评论(0) 推荐(0) 编辑
摘要:前言: 每一个表或者分区,hive都可以进一步组织成桶,桶是更细粒度的数据划分,他本质不会改变表或分区的目录组织方式,他会改变数据在文件中的分布方式。 分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 桶为表加上额外结构,链接相同列划 阅读全文
posted @ 2020-08-29 13:15 彬在俊 阅读(614) 评论(0) 推荐(0) 编辑
摘要:规范: 1.开发规范 SQL子查询嵌套不宜超过3层。 少用或者不用Hint,hive2.0以后增强HiveSQL对于成本调优(CBO)的支持 避免SQL 代码的复制、粘贴。如果有多处逻辑一致的代码,可以将执行结果存储到临时表中。 尽可能使用SQL 自带的高级命令做操作。在多维统计分析中使用cube、 阅读全文
posted @ 2020-08-29 12:44 彬在俊 阅读(1421) 评论(0) 推荐(1) 编辑
摘要:首先利用python造一些假数据,来进行hive的学习: 代码如下: # coding: utf-8 import random import datetime import sys reload(sys) sys.setdefaultencoding('utf-8') # lastname 和 f 阅读全文
posted @ 2020-08-27 15:44 彬在俊 阅读(234) 评论(0) 推荐(0) 编辑
摘要:GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。 grouping sets根据不同的维度组合进行聚合,等价于将不同维度的group by的结果进行 un 阅读全文
posted @ 2020-08-26 11:40 彬在俊 阅读(3116) 评论(0) 推荐(0) 编辑
摘要:问题原因:之前hive里有数据,后面MySQL数据库坏了,导致hive元数据信息丢失,但是hdfs上hive表的数据并没有丢失,重新建表后查看hive分区没有,数据也没有。需要进行修复。 解决方法:可以使用msck repair table xxxxx命令修复! msck repari table 阅读全文
posted @ 2020-08-25 17:07 彬在俊 阅读(7287) 评论(0) 推荐(1) 编辑
摘要:先安装旧版本npm sudo apt install -y node 1 有些发行版是 sudo apt install -y npm 1 查看当前版本 npm -v 1 我的输出是 3.5.2 1 是非常老的版本 安装最新npm 可以通过旧版本npm直接安装新版npm sudo npm insta 阅读全文
posted @ 2020-08-21 17:45 彬在俊 阅读(1760) 评论(0) 推荐(0) 编辑
摘要:存现这种错误是因为 编写的 shell脚本是在win下编写的,每行结尾是\r\n 的Unix 结果行是\n 所以在Linux下运行脚本 会任务\r 是一个字符,所以运行错误,需要把文件转换下 方法一、 sed -i 's/\r//' 脚本名 方法二、 yum -y install dos2unix 阅读全文
posted @ 2020-08-21 10:34 彬在俊 阅读(409) 评论(0) 推荐(0) 编辑
摘要:安装 jdk (百度) 安装 maven 1、wget https://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz2、sudo tar -zxf apac 阅读全文
posted @ 2020-08-21 10:31 彬在俊 阅读(1045) 评论(0) 推荐(0) 编辑
摘要:1下载 wget http://nodejs.org/dist/v0.10.33/node-v0.10.33-linux-x64.tar.gz 2解压 [root@bigData-02 ~]# tar –zxvf node-v0.10.33-linux-x64.tar.gz mv node-v0.1 阅读全文
posted @ 2020-08-20 15:47 彬在俊 阅读(1075) 评论(0) 推荐(0) 编辑
摘要:Hadoop-daemon.sh:用于启动当前节点的进程 例如Hadoop-daemon.sh start namenode 用于启动当前的名称节点Hadoop-daemons.sh:用于启动所有节点的进程例如:Hadoop-daemons.sh start datanode 用于启动所有节点的数据 阅读全文
posted @ 2020-08-20 09:21 彬在俊 阅读(591) 评论(0) 推荐(0) 编辑
摘要:在clone代码的时候,报错如下: 并且在报错的时候,VPN自动断线,之后自动连接。原本以为是VPN不稳定的缘故。重启之后,还是不行。 经过搜索,发现有人给出了解决方案,我也是在此基础上解决了该问题。 解决方式连接:http://www.manongjc.com/detail/14-ccijrtht 阅读全文
posted @ 2020-08-19 17:22 彬在俊 阅读(1484) 评论(0) 推荐(0) 编辑
摘要:前言 不小心忘记了grafana web界面的密码后,使用官网的方式重置密码http://docs.grafana.org/administration/cli/#reset-admin-password 但是并没有成功。 然后使用google到的另外一个方法重置成功了,现在记录下来: 1. 查找g 阅读全文
posted @ 2020-08-10 14:18 彬在俊 阅读(843) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示