04 2019 档案
摘要:简介: hive是建立在hadoop之上的数据仓库,一般用于对大型数据集的读写和管理,存在hive里的数据实际上就是存在HDFS上,都是以文件的形式存在,不能进行读写操作,所以我们需要元数据或者说叫schem来对hdfs上的数据进行管理。那元数据表之间有没有什么关联呢?答案是肯定的。hive默认元数
阅读全文
摘要:UDF的定义 UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了 UDF的分类 这三类中,我们只对UDF类的函数进行改写 这三类中,我们只对UDF类的函数进行改写 pom文件配置 UDF函数编写 打j
阅读全文
摘要:下载hive源码 解压源码 添加UDF函数类 HelloUDF.java [root@hadoop001 udf]# vim HelloUDF.java 第一行改为:该类的包名为package org.apache.hadoop.hive.ql.udf; 【org/apache/hadoop/hiv
阅读全文
摘要:【为什么要了解hive执行流程】 【分析基于hadoop之上的SQL执行流程】 基本SQL框架 基本SQL框架 【例表:traffic_info】 【例表:TV_info】 解析:这两个简单的sql基本上涵盖了所有的大数据sql的框架,也就是说无论多磨复杂的大数据sql最终都会落到这两个简单的sql
阅读全文
摘要:【hive中的file_format】 SEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多 TEXTFILE:生产中用的多,行式存储 RCFILE:生产中用的少,行列混合存储,OCR是他得升级版 ORC:生产中最常用,列式存储 PARQUET:生产中最常用,列式存储 A
阅读全文
摘要:【环境】 【下载依赖##root用户下进行】 [root@hadoop001 ~]#yum -y install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel
阅读全文
摘要:【简介】 1@LZO本身是不支持分片的,但是我们给LZO压缩的文件加上索引,就支持分片了 2@Linux本身是不支持LZO压缩的,所以我们需要下载安装软件包,其中包括三个:lzo,lzop,hdoop-gpl-packaging. 3@hdoop-gpl-packaging的主要作用就是给压缩的LZ
阅读全文
摘要:【准备的安装包】 repo.tar.gz 【注意】在配置环境变量的时候,我们用vi /etc/profile,全局的,因为我们在编译的过称中,用的是root用户为了避免权限不够的情况,但是编译出的安装包还要给hadoop用户用,所以为了避免环境问题我们用全局变量 [root@hadoop001 ap
阅读全文
摘要:【准备工作】 IPtables的使用如下命令:(执行以下以下命令把25和465端口打开) iptables -A INPUT -p tcp --dport 25 -j ACCEPT iptables -A OUTPUT -p tcp --sport 25 -j ACCEPT iptables -A
阅读全文
摘要:【NN】 NN是namenode的简写,namenode被格式化以后将在/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/tmp/dfs/name/current下产生文件 参数:core-site.xml : hadoop.tmp.dir 指定hadoop运行时产生文件
阅读全文
摘要:【知识储备】 1.shell脚本文件的后缀业内都默认为sh,所以以后看到以sh结尾的文件名称基本上就是shell脚本。 2.在写shell脚本的时候,标准开头就是 #!/bin/bash 3.shell脚本写完以后要加执行权限 chmod +x shell脚本名称 4.执行shell脚本有很多种方式
阅读全文
摘要:为什么map端用snappy压缩格式;而reduce用gzip或者bzip2的压缩格式呢?为什么每个reduce端压缩后的数据不要超过一个block的大小呢? 检查Hadoop版本的压缩格式是否可用【我在Hadoop cdh 5.7版本中查看Hadoop压缩格式】 一、在解答上述问题以前,我们先说一
阅读全文
摘要:运行一个example [hadoop@hadoop01 hadoop]$ hadoop jar ./share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar pi 5 10 运行的过程中报错 然后去查看jobhisto
阅读全文
摘要:HADOOP集群搭建环境准备 3台云主机centos6.9 64位hadoop-2.6.0-cdh5.7.0.tar.gzjdk-8u45-linux-x64.gzzookeeper-3.4.6.tar.gz 本地搭建虚拟机;我们采用.net内网模式hadoop01 172.16.202.238ha
阅读全文
摘要:我查看了网上的原因,把core.site.xml里的以下配置复制到了hdfs.site.xml里,三台机器都要复制,复制完以后在重新启动hadoop集群,嗯~~~启动了一个nn,还有一个nn没有起来,然后如果你也另一个namenode没有起来请看我另一篇文章吧!!!https://www.cnblo
阅读全文
摘要:背景:昨晚11点40几分,终于各个集群组件都启动成功了,然后心满意足的去睡觉了,但是今早再起来再去启动的时候就出现了namenode的问题,然后就开始了查找原因的艰辛历程。 查看报错的log日志: 2019-04-07 13:22:57,746 WARN org.apache.hadoop.hdfs
阅读全文
摘要:拓展:线程与进程的区别 进程是由一个以上的的线程组成的 ps -ef 能出现的就是进程。 YARN HA hadoop001:zk rm(zkfc) nmhadoop002:zk rm(zkfc) nmhadoop003:zk nm ZKFC: 线程 只作为RM进程的一个线程而非独立的进程存在 RM
阅读全文
摘要:为什么要用集群 在企业中主要使用集群 在学习的过程中使用伪分布式即可,就是单点 HDFS中的 NN SNN DN YARN 的 RM 老大 NM 每个组件只有一个即可 如果nn挂了就不能再继续对外提供服务,例如客户端请求的读写,put get那些。 为了解决这个问题,企业一般都会准备两台nn,对外提
阅读全文
摘要:- 下载 在hadoop家目录下创建一个app目录 [hadoop@hadoop001 ~]$ mkdir app [hadoop@hadoop001 app]$ pwd/home/hadoop/app [hadoop@hadoop001 app]$ wget http://archive.clou
阅读全文
摘要:[hadoop@hadoop001 hive-1.1.0-cdh5.7.0]$ hivewhich: no hbase in (/home/hadoop/app/hive-1.1.0-cdh5.7.0/bin:/home/hadoop/app/hadoop-2.8.1/bin:/usr/java/j
阅读全文
摘要:目前所学的复杂数据类型有三种array,map,struct。 复杂数据类型: 如何存 如何取(*****) 1.array(用这种数据类型的特点就是集合里的每一个字段都是一个具体的信息,不会是那种key与values的关系) load数据如上所示,一共两个字段,ruoze 和他们工作的城市 也就是
阅读全文