上一页 1 ··· 41 42 43 44 45 46 47 48 49 ··· 51 下一页
摘要: 前言: 每一个表或者分区,hive都可以进一步组织成桶,桶是更细粒度的数据划分,他本质不会改变表或分区的目录组织方式,他会改变数据在文件中的分布方式。 分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 桶为表加上额外结构,链接相同列划 阅读全文
posted @ 2020-08-29 13:15 彬在俊 阅读(602) 评论(0) 推荐(0) 编辑
摘要: 规范: 1.开发规范 SQL子查询嵌套不宜超过3层。 少用或者不用Hint,hive2.0以后增强HiveSQL对于成本调优(CBO)的支持 避免SQL 代码的复制、粘贴。如果有多处逻辑一致的代码,可以将执行结果存储到临时表中。 尽可能使用SQL 自带的高级命令做操作。在多维统计分析中使用cube、 阅读全文
posted @ 2020-08-29 12:44 彬在俊 阅读(1405) 评论(0) 推荐(1) 编辑
摘要: 首先利用python造一些假数据,来进行hive的学习: 代码如下: # coding: utf-8 import random import datetime import sys reload(sys) sys.setdefaultencoding('utf-8') # lastname 和 f 阅读全文
posted @ 2020-08-27 15:44 彬在俊 阅读(232) 评论(0) 推荐(0) 编辑
摘要: GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。 grouping sets根据不同的维度组合进行聚合,等价于将不同维度的group by的结果进行 un 阅读全文
posted @ 2020-08-26 11:40 彬在俊 阅读(3054) 评论(0) 推荐(0) 编辑
摘要: 问题原因:之前hive里有数据,后面MySQL数据库坏了,导致hive元数据信息丢失,但是hdfs上hive表的数据并没有丢失,重新建表后查看hive分区没有,数据也没有。需要进行修复。 解决方法:可以使用msck repair table xxxxx命令修复! msck repari table 阅读全文
posted @ 2020-08-25 17:07 彬在俊 阅读(7065) 评论(0) 推荐(1) 编辑
摘要: 先安装旧版本npm sudo apt install -y node 1 有些发行版是 sudo apt install -y npm 1 查看当前版本 npm -v 1 我的输出是 3.5.2 1 是非常老的版本 安装最新npm 可以通过旧版本npm直接安装新版npm sudo npm insta 阅读全文
posted @ 2020-08-21 17:45 彬在俊 阅读(1753) 评论(0) 推荐(0) 编辑
摘要: 存现这种错误是因为 编写的 shell脚本是在win下编写的,每行结尾是\r\n 的Unix 结果行是\n 所以在Linux下运行脚本 会任务\r 是一个字符,所以运行错误,需要把文件转换下 方法一、 sed -i 's/\r//' 脚本名 方法二、 yum -y install dos2unix 阅读全文
posted @ 2020-08-21 10:34 彬在俊 阅读(408) 评论(0) 推荐(0) 编辑
摘要: 安装 jdk (百度) 安装 maven 1、wget https://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz2、sudo tar -zxf apac 阅读全文
posted @ 2020-08-21 10:31 彬在俊 阅读(1041) 评论(0) 推荐(0) 编辑
摘要: 1下载 wget http://nodejs.org/dist/v0.10.33/node-v0.10.33-linux-x64.tar.gz 2解压 [root@bigData-02 ~]# tar –zxvf node-v0.10.33-linux-x64.tar.gz mv node-v0.1 阅读全文
posted @ 2020-08-20 15:47 彬在俊 阅读(1054) 评论(0) 推荐(0) 编辑
摘要: Hadoop-daemon.sh:用于启动当前节点的进程 例如Hadoop-daemon.sh start namenode 用于启动当前的名称节点Hadoop-daemons.sh:用于启动所有节点的进程例如:Hadoop-daemons.sh start datanode 用于启动所有节点的数据 阅读全文
posted @ 2020-08-20 09:21 彬在俊 阅读(584) 评论(0) 推荐(0) 编辑
上一页 1 ··· 41 42 43 44 45 46 47 48 49 ··· 51 下一页