上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 14 下一页
摘要: 下载hive源码 解压源码 添加UDF函数类 HelloUDF.java [root@hadoop001 udf]# vim HelloUDF.java 第一行改为:该类的包名为package org.apache.hadoop.hive.ql.udf; 【org/apache/hadoop/hiv 阅读全文
posted @ 2019-04-22 22:23 任重而道远的小蜗牛 阅读(566) 评论(0) 推荐(0) 编辑
摘要: 【为什么要了解hive执行流程】 【分析基于hadoop之上的SQL执行流程】 基本SQL框架 基本SQL框架 【例表:traffic_info】 【例表:TV_info】 解析:这两个简单的sql基本上涵盖了所有的大数据sql的框架,也就是说无论多磨复杂的大数据sql最终都会落到这两个简单的sql 阅读全文
posted @ 2019-04-22 16:08 任重而道远的小蜗牛 阅读(6330) 评论(0) 推荐(0) 编辑
摘要: 【hive中的file_format】 SEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多 TEXTFILE:生产中用的多,行式存储 RCFILE:生产中用的少,行列混合存储,OCR是他得升级版 ORC:生产中最常用,列式存储 PARQUET:生产中最常用,列式存储 A 阅读全文
posted @ 2019-04-21 00:45 任重而道远的小蜗牛 阅读(4194) 评论(0) 推荐(0) 编辑
摘要: 【环境】 【下载依赖##root用户下进行】 [root@hadoop001 ~]#yum -y install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel 阅读全文
posted @ 2019-04-19 14:08 任重而道远的小蜗牛 阅读(1554) 评论(0) 推荐(0) 编辑
摘要: 【简介】 1@LZO本身是不支持分片的,但是我们给LZO压缩的文件加上索引,就支持分片了 2@Linux本身是不支持LZO压缩的,所以我们需要下载安装软件包,其中包括三个:lzo,lzop,hdoop-gpl-packaging. 3@hdoop-gpl-packaging的主要作用就是给压缩的LZ 阅读全文
posted @ 2019-04-18 15:38 任重而道远的小蜗牛 阅读(1888) 评论(0) 推荐(0) 编辑
摘要: 【准备的安装包】 repo.tar.gz 【注意】在配置环境变量的时候,我们用vi /etc/profile,全局的,因为我们在编译的过称中,用的是root用户为了避免权限不够的情况,但是编译出的安装包还要给hadoop用户用,所以为了避免环境问题我们用全局变量 [root@hadoop001 ap 阅读全文
posted @ 2019-04-17 00:42 任重而道远的小蜗牛 阅读(1180) 评论(0) 推荐(0) 编辑
摘要: 【准备工作】 IPtables的使用如下命令:(执行以下以下命令把25和465端口打开) iptables -A INPUT -p tcp --dport 25 -j ACCEPT iptables -A OUTPUT -p tcp --sport 25 -j ACCEPT iptables -A 阅读全文
posted @ 2019-04-14 22:50 任重而道远的小蜗牛 阅读(1943) 评论(0) 推荐(0) 编辑
摘要: 【NN】 NN是namenode的简写,namenode被格式化以后将在/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/tmp/dfs/name/current下产生文件 参数:core-site.xml : hadoop.tmp.dir 指定hadoop运行时产生文件 阅读全文
posted @ 2019-04-12 16:54 任重而道远的小蜗牛 阅读(1918) 评论(0) 推荐(0) 编辑
摘要: 【知识储备】 1.shell脚本文件的后缀业内都默认为sh,所以以后看到以sh结尾的文件名称基本上就是shell脚本。 2.在写shell脚本的时候,标准开头就是 #!/bin/bash 3.shell脚本写完以后要加执行权限 chmod +x shell脚本名称 4.执行shell脚本有很多种方式 阅读全文
posted @ 2019-04-11 09:49 任重而道远的小蜗牛 阅读(2047) 评论(0) 推荐(0) 编辑
摘要: 为什么map端用snappy压缩格式;而reduce用gzip或者bzip2的压缩格式呢?为什么每个reduce端压缩后的数据不要超过一个block的大小呢? 检查Hadoop版本的压缩格式是否可用【我在Hadoop cdh 5.7版本中查看Hadoop压缩格式】 一、在解答上述问题以前,我们先说一 阅读全文
posted @ 2019-04-09 17:00 任重而道远的小蜗牛 阅读(1267) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 14 下一页