摘要: 1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是 阅读全文
posted @ 2023-12-13 10:10 SIKeborn 阅读(50) 评论(0) 推荐(0) 编辑
摘要: SQL练习 1、count(*)、count(1) 、count('字段名') 区别 从执行结果来看 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL 最快的 co 阅读全文
posted @ 2023-12-13 09:40 SIKeborn 阅读(739) 评论(0) 推荐(0) 编辑
摘要: 1、Hive分区(十分重要!!) 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了 阅读全文
posted @ 2023-12-08 19:38 SIKeborn 阅读(71) 评论(0) 推荐(0) 编辑
摘要: 1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 思考:计算文件user.txt中 阅读全文
posted @ 2023-12-08 19:26 SIKeborn 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 优化1:Combiner 使用之前 使用之后 减少的了reduce 从map拉取数据的过程,提高计算效率。 hadoop 的计算特点:将计算任务向数据靠拢,而不是将数据向计算靠拢。 特点:数据本地化,减少网络io。 首先需要知道,hadoop数据本地化是指的map任务,reduce任务并不具备数据本 阅读全文
posted @ 2023-12-04 20:48 SIKeborn 阅读(76) 评论(0) 推荐(0) 编辑
摘要: 一、MapReduce设计理念 map >映射 reduce >归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架 在线:实时数据处理 离线:数据处理时效性没有在线那么强,但是相对也需要很快得到结果 mapreduce不会马上得到结果,他会有一定的延时(磁盘IO) 如果数据量小, 阅读全文
posted @ 2023-12-04 20:43 SIKeborn 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 一、zookeeper搭建 1、上传安装包到master并解压 tar -xvf zookeeper-3.5.7.tar.gz 2、配置环境变量 vim /etc/profile export ZOOKEEPER_HOME=/usr/local/soft/zookeeper-3.5.7 export 阅读全文
posted @ 2023-11-29 11:05 SIKeborn 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop-HA 1.1 Hadoop1.x带来的问题 1、单点故障 a. 每个群集同一时刻只能有一个NameNode,NameNode存在单点故障(SPOF)。 ​ b. 如果该计算机或进程不可用,则整个群集在整个NameNode重新启动或在另一台计算机上启动之前将不可用 ​ c. 如果发生 阅读全文
posted @ 2023-11-29 10:38 SIKeborn 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 一、写数据(宏观) 写数据就是将客户端上的数据上传到HDFS 1.客户端向HDFS发送写数据请求 hdfs dfs -put students.txt /shujia/ 2. Filesystem通过rpc调用namenode的put方法 a. nn首先检查是否有足够的空间权限等条件创建这个文件,或 阅读全文
posted @ 2023-11-29 10:19 SIKeborn 阅读(51) 评论(0) 推荐(0) 编辑
摘要: Hadoop集群搭建(完全分布式版本) 一、准备工作 三台虚拟机:master、node1、node2 时间同步(3.x版本不用做) ntpdate ntp.aliyun.com 调整时区 3.x版本不用做) cp /usr/share/zoneinfo/Asia/Shanghai /etc/loc 阅读全文
posted @ 2023-11-29 09:03 SIKeborn 阅读(54) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示