2019 年 4月随笔档案 - 任重而道远的小蜗牛

hive的元数据

摘要：简介： hive是建立在hadoop之上的数据仓库，一般用于对大型数据集的读写和管理，存在hive里的数据实际上就是存在HDFS上，都是以文件的形式存在，不能进行读写操作，所以我们需要元数据或者说叫schem来对hdfs上的数据进行管理。那元数据表之间有没有什么关联呢？答案是肯定的。hive默认元数阅读全文

posted @ 2019-04-23 13:50 任重而道远的小蜗牛阅读(10627) 评论(0) 推荐(0) 编辑

hive之UDF函数编程详解

摘要：UDF的定义 UDF（User-Defined Functions）即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求，这时就需要我们自定义函数了 UDF的分类这三类中，我们只对UDF类的函数进行改写这三类中，我们只对UDF类的函数进行改写 pom文件配置 UDF函数编写打j 阅读全文

posted @ 2019-04-23 12:01 任重而道远的小蜗牛阅读(44049) 评论(1) 推荐(3) 编辑

hive之编译源码支持UDF函数

摘要：下载hive源码解压源码添加UDF函数类 HelloUDF.java [root@hadoop001 udf]# vim HelloUDF.java 第一行改为：该类的包名为package org.apache.hadoop.hive.ql.udf; 【org/apache/hadoop/hiv 阅读全文

posted @ 2019-04-22 22:23 任重而道远的小蜗牛阅读(583) 评论(0) 推荐(0) 编辑

Hive SQL的执行流程

摘要：【为什么要了解hive执行流程】【分析基于hadoop之上的SQL执行流程】基本SQL框架基本SQL框架【例表:traffic_info】【例表：TV_info】解析：这两个简单的sql基本上涵盖了所有的大数据sql的框架，也就是说无论多磨复杂的大数据sql最终都会落到这两个简单的sql 阅读全文

posted @ 2019-04-22 16:08 任重而道远的小蜗牛阅读(6393) 评论(0) 推荐(0) 编辑

hive中的文件格式的简介

摘要：【hive中的file_format】 SEQUENCEFILE：生产中绝对不会用，k-v格式，比源文本格式占用磁盘更多 TEXTFILE：生产中用的多，行式存储 RCFILE：生产中用的少，行列混合存储，OCR是他得升级版 ORC：生产中最常用，列式存储 PARQUET：生产中最常用，列式存储 A 阅读全文

posted @ 2019-04-21 00:45 任重而道远的小蜗牛阅读(4235) 评论(0) 推荐(0) 编辑

HUE安装部署

摘要：【环境】【下载依赖##root用户下进行】 [root@hadoop001 ~]#yum -y install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel 阅读全文

posted @ 2019-04-19 14:08 任重而道远的小蜗牛阅读(1571) 评论(0) 推荐(0) 编辑

hadoop配置支持LZO压缩格式并支持分片

摘要：【简介】 1@LZO本身是不支持分片的，但是我们给LZO压缩的文件加上索引，就支持分片了 2@Linux本身是不支持LZO压缩的，所以我们需要下载安装软件包，其中包括三个：lzo,lzop,hdoop-gpl-packaging. 3@hdoop-gpl-packaging的主要作用就是给压缩的LZ 阅读全文

posted @ 2019-04-18 15:38 任重而道远的小蜗牛阅读(1938) 评论(0) 推荐(0) 编辑

CdH版本hadoop编译

摘要：【准备的安装包】 repo.tar.gz 【注意】在配置环境变量的时候，我们用vi /etc/profile，全局的，因为我们在编译的过称中，用的是root用户为了避免权限不够的情况，但是编译出的安装包还要给hadoop用户用，所以为了避免环境问题我们用全局变量 [root@hadoop001 ap 阅读全文

posted @ 2019-04-17 00:42 任重而道远的小蜗牛阅读(1189) 评论(0) 推荐(0) 编辑

使用阿里云服务器写shell脚本发送qq邮件的三个形式

摘要：【准备工作】 IPtables的使用如下命令：（执行以下以下命令把25和465端口打开） iptables -A INPUT -p tcp --dport 25 -j ACCEPT iptables -A OUTPUT -p tcp --sport 25 -j ACCEPT iptables -A 阅读全文

posted @ 2019-04-14 22:50 任重而道远的小蜗牛阅读(2003) 评论(0) 推荐(0) 编辑

HDFS的NN、DN、SNN的知识点积累

摘要：【NN】 NN是namenode的简写，namenode被格式化以后将在/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/tmp/dfs/name/current下产生文件参数：core-site.xml ： hadoop.tmp.dir 指定hadoop运行时产生文件阅读全文

posted @ 2019-04-12 16:54 任重而道远的小蜗牛阅读(2083) 评论(0) 推荐(0) 编辑

shell编程学习的9个编程案例及基础知识

摘要：【知识储备】 1.shell脚本文件的后缀业内都默认为sh，所以以后看到以sh结尾的文件名称基本上就是shell脚本。 2.在写shell脚本的时候，标准开头就是 #!/bin/bash 3.shell脚本写完以后要加执行权限 chmod +x shell脚本名称 4.执行shell脚本有很多种方式阅读全文

posted @ 2019-04-11 09:49 任重而道远的小蜗牛阅读(2087) 评论(0) 推荐(0) 编辑

大数据的压缩格式

摘要：为什么map端用snappy压缩格式；而reduce用gzip或者bzip2的压缩格式呢？为什么每个reduce端压缩后的数据不要超过一个block的大小呢？检查Hadoop版本的压缩格式是否可用【我在Hadoop cdh 5.7版本中查看Hadoop压缩格式】一、在解答上述问题以前，我们先说一阅读全文

posted @ 2019-04-09 17:00 任重而道远的小蜗牛阅读(1294) 评论(0) 推荐(0) 编辑

hadoop运行案例

摘要：运行一个example [hadoop@hadoop01 hadoop]$ hadoop jar ./share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar pi 5 10 运行的过程中报错然后去查看jobhisto 阅读全文

posted @ 2019-04-09 14:13 任重而道远的小蜗牛阅读(1329) 评论(0) 推荐(0) 编辑

hadoop集群部署

摘要：HADOOP集群搭建环境准备 3台云主机centos6.9 64位hadoop-2.6.0-cdh5.7.0.tar.gzjdk-8u45-linux-x64.gzzookeeper-3.4.6.tar.gz 本地搭建虚拟机；我们采用.net内网模式hadoop01 172.16.202.238ha 阅读全文

posted @ 2019-04-08 17:23 任重而道远的小蜗牛阅读(5957) 评论(0) 推荐(1) 编辑

hadoop集群无法启动namenode： ERROR namenode.NameNode: Failed to start namenode.

摘要：我查看了网上的原因，把core.site.xml里的以下配置复制到了hdfs.site.xml里，三台机器都要复制，复制完以后在重新启动hadoop集群，嗯~~~启动了一个nn，还有一个nn没有起来，然后如果你也另一个namenode没有起来请看我另一篇文章吧！！！https://www.cnblo 阅读全文

posted @ 2019-04-07 14:12 任重而道远的小蜗牛阅读(8333) 评论(0) 推荐(0) 编辑

启动hadoop集群的时候只能启动一个namenode，另一个报错There appears to be a gap in the edit log. We expected txid 6, but got txid 10.

摘要：背景：昨晚11点40几分，终于各个集群组件都启动成功了，然后心满意足的去睡觉了，但是今早再起来再去启动的时候就出现了namenode的问题，然后就开始了查找原因的艰辛历程。查看报错的log日志： 2019-04-07 13:22:57,746 WARN org.apache.hadoop.hdfs 阅读全文

posted @ 2019-04-07 14:03 任重而道远的小蜗牛阅读(3497) 评论(0) 推荐(0) 编辑

YARN的HA

摘要：拓展：线程与进程的区别进程是由一个以上的的线程组成的 ps -ef 能出现的就是进程。 YARN HA hadoop001：zk rm(zkfc) nmhadoop002：zk rm(zkfc) nmhadoop003：zk nm ZKFC: 线程只作为RM进程的一个线程而非独立的进程存在 RM 阅读全文

posted @ 2019-04-05 14:16 任重而道远的小蜗牛阅读(625) 评论(0) 推荐(0) 编辑

HDFS的HA

摘要：为什么要用集群在企业中主要使用集群在学习的过程中使用伪分布式即可，就是单点 HDFS中的 NN SNN DN YARN 的 RM 老大 NM 每个组件只有一个即可如果nn挂了就不能再继续对外提供服务，例如客户端请求的读写，put get那些。为了解决这个问题，企业一般都会准备两台nn，对外提阅读全文

posted @ 2019-04-05 11:43 任重而道远的小蜗牛阅读(499) 评论(0) 推荐(0) 编辑

sqoop部署

摘要：- 下载在hadoop家目录下创建一个app目录 [hadoop@hadoop001 ~]$ mkdir app [hadoop@hadoop001 app]$ pwd/home/hadoop/app [hadoop@hadoop001 app]$ wget http://archive.clou 阅读全文

posted @ 2019-04-04 20:40 任重而道远的小蜗牛阅读(390) 评论(0) 推荐(0) 编辑

hive启动报错 java.lang.ClassNotFoundException: org.apache.hadoop.mapred.MRVersion

摘要：[hadoop@hadoop001 hive-1.1.0-cdh5.7.0]$ hivewhich: no hbase in (/home/hadoop/app/hive-1.1.0-cdh5.7.0/bin:/home/hadoop/app/hadoop-2.8.1/bin:/usr/java/j 阅读全文

posted @ 2019-04-04 08:59 任重而道远的小蜗牛阅读(7658) 评论(2) 推荐(0) 编辑

hive复杂数据类型：如何存如何取

摘要：目前所学的复杂数据类型有三种array，map，struct。复杂数据类型：如何存如何取(*****) 1.array(用这种数据类型的特点就是集合里的每一个字段都是一个具体的信息，不会是那种key与values的关系) load数据如上所示，一共两个字段，ruoze 和他们工作的城市也就是阅读全文

posted @ 2019-04-02 11:03 任重而道远的小蜗牛阅读(2423) 评论(0) 推荐(1) 编辑

IT界的小十七

04 2019 档案

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论