彬在俊

2020年8月29日

摘要：前言：每一个表或者分区，hive都可以进一步组织成桶，桶是更细粒度的数据划分，他本质不会改变表或分区的目录组织方式，他会改变数据在文件中的分布方式。分桶规则：对分桶字段值进行哈希，哈希值除以桶的个数求余，余数决定了该条记录在哪个桶中，也就是余数相同的在一个桶中。桶为表加上额外结构，链接相同列划阅读全文

posted @ 2020-08-29 13:15 彬在俊阅读(602) 评论(0) 推荐(0) 编辑

hive的调优经验

摘要：规范： 1.开发规范 SQL子查询嵌套不宜超过3层。少用或者不用Hint，hive2.0以后增强HiveSQL对于成本调优（CBO）的支持避免SQL 代码的复制、粘贴。如果有多处逻辑一致的代码，可以将执行结果存储到临时表中。尽可能使用SQL 自带的高级命令做操作。在多维统计分析中使用cube、阅读全文

posted @ 2020-08-29 12:44 彬在俊阅读(1405) 评论(0) 推荐(1) 编辑

2020年8月27日

Hive的学习

摘要：首先利用python造一些假数据，来进行hive的学习：代码如下： # coding: utf-8 import random import datetime import sys reload(sys) sys.setdefaultencoding('utf-8') # lastname 和 f 阅读全文

posted @ 2020-08-27 15:44 彬在俊阅读(232) 评论(0) 推荐(0) 编辑

2020年8月26日

hive grouping sets和GROUPING__ID的用法

摘要： GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。 grouping sets根据不同的维度组合进行聚合，等价于将不同维度的group by的结果进行 un 阅读全文

posted @ 2020-08-26 11:40 彬在俊阅读(3054) 评论(0) 推荐(0) 编辑

2020年8月25日

hive修复分区或修复表以及msck命令的使用

摘要：问题原因：之前hive里有数据，后面MySQL数据库坏了，导致hive元数据信息丢失，但是hdfs上hive表的数据并没有丢失，重新建表后查看hive分区没有，数据也没有。需要进行修复。解决方法：可以使用msck repair table xxxxx命令修复！ msck repari table 阅读全文

posted @ 2020-08-25 17:07 彬在俊阅读(7065) 评论(0) 推荐(1) 编辑

2020年8月21日

linux安装最新版本的npm和node

摘要：先安装旧版本npm sudo apt install -y node 1 有些发行版是 sudo apt install -y npm 1 查看当前版本 npm -v 1 我的输出是 3.5.2 1 是非常老的版本安装最新npm 可以通过旧版本npm直接安装新版npm sudo npm insta 阅读全文

posted @ 2020-08-21 17:45 彬在俊阅读(1753) 评论(0) 推荐(0) 编辑

shell脚本执行错误 $'\r':command not found

摘要：存现这种错误是因为编写的 shell脚本是在win下编写的，每行结尾是\r\n 的Unix 结果行是\n 所以在Linux下运行脚本会任务\r 是一个字符，所以运行错误，需要把文件转换下方法一、 sed -i 's/\r//' 脚本名方法二、 yum -y install dos2unix 阅读全文

posted @ 2020-08-21 10:34 彬在俊阅读(408) 评论(0) 推荐(0) 编辑

编译zeppelin0.9.0

摘要：安装 jdk (百度) 安装 maven 1、wget https://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz2、sudo tar -zxf apac 阅读全文

posted @ 2020-08-21 10:31 彬在俊阅读(1041) 评论(0) 推荐(0) 编辑

2020年8月20日

nodejs 安装到升级排坑之旅

摘要： 1下载 wget http://nodejs.org/dist/v0.10.33/node-v0.10.33-linux-x64.tar.gz 2解压 [root@bigData-02 ~]# tar –zxvf node-v0.10.33-linux-x64.tar.gz mv node-v0.1 阅读全文

posted @ 2020-08-20 15:47 彬在俊阅读(1054) 评论(0) 推荐(0) 编辑

hadoop-daemon.sh 和Hadoop-daemons.sh 的区别

摘要： Hadoop-daemon.sh:用于启动当前节点的进程例如Hadoop-daemon.sh start namenode 用于启动当前的名称节点Hadoop-daemons.sh：用于启动所有节点的进程例如：Hadoop-daemons.sh start datanode 用于启动所有节点的数据阅读全文

posted @ 2020-08-20 09:21 彬在俊阅读(584) 评论(0) 推荐(0) 编辑

公告