2021年12月16日

实操2:使用sparkStreaming处理kafka的消息队列

摘要: 实操1中,已经实现了将数据传进kafka中,这里我们用sparkStreaming对数据进行处理 举个例子: 原来数据: A,甲 乙 丙 (这里为空) 丁 处理过后: A,甲 A,乙 A,丙 A,丁将一行数据"炸开",并将空值处理掉 import java.util import org.apach 阅读全文

posted @ 2021-12-16 17:19 理想三旬_z 阅读(120) 评论(0) 推荐(0) 编辑

2021年12月1日

HBase的RowKey设计原则以及预分区操作(避免热点问题)

摘要: 但凡使用到HBase,数据量绝对不会少,这时候就需要考虑到查询的效率问题,以及可能出现的数据倾斜问题(热点问题)。我们可以同过对rowkey进行设计,规划一个合理的预分区,让数据散列的分布在各个分区上。 因此:rowkey设计时就要考虑到一个预分区的问题;同样,预分区也不可背离开rowkey而随意设 阅读全文

posted @ 2021-12-01 00:31 理想三旬_z 阅读(484) 评论(1) 推荐(1) 编辑

2021年11月24日

6.Hive中内部表和外部表的区别

摘要: 有external标志的是外部表,无则内部表; 内部表由Hive自身管理,而外部表由HDFS管理,数据在HDFS上,外部表可以理解成只是存了条建表语句映射到HDFS上的数据文件,并没有产生数的复制或者迁移; 内部表存储位置:默认情况下/hive/warehouse,外部表如果用户没指定,则在/hiv 阅读全文

posted @ 2021-11-24 22:40 理想三旬_z 阅读(732) 评论(0) 推荐(0) 编辑

5.HBase与Hive进行表关联

摘要: HBase与Hive的对比: Hive: 数据仓库; Hive的本质其实就相当于将HDFS中已经存储的文件在MySQL中做了一个双射关系,以方便使用HQL去管理查询。 2. 用于数据分析、清洗; Hive适用于离线的数据分析和清洗,延迟较高 3. 基于HDFS,MR; Hive中真实存储的数据依旧在 阅读全文

posted @ 2021-11-24 22:01 理想三旬_z 阅读(544) 评论(0) 推荐(0) 编辑

2021年11月21日

4.HBase-API

摘要: 准备工作: 导包:hbase-client / hbase-common / hbase-server <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-common</artifactId> <version>1. 阅读全文

posted @ 2021-11-21 16:30 理想三旬_z 阅读(61) 评论(0) 推荐(0) 编辑

2021年11月9日

实操1:使用Flume连接kafka并传入数据

摘要: 这里数据源存放在hdfs上 启动项:【hadoop(主要用hdfs),zookeeper,kafka,flume】 start-all.sh zkServer.sh start kafka-server-start.sh /opt/soft/kafka200/config/server.proper 阅读全文

posted @ 2021-11-09 22:40 理想三旬_z 阅读(594) 评论(0) 推荐(0) 编辑

2021年11月4日

2.Kafka的工作原理及数据丢失、数据重复问题

摘要: 一、概述 一个分布式消息中间件,基于zookeeper的分布式日志系统。(最新的3.0版本摆脱了对zookeeper的依赖,游标改为记录在一个单独的队列里) 简单来讲,就是一个存储系统,起一个缓冲作用。 所谓的消息系统,就是将数据从一个地方传递到另一个地方。消息传递模式有两种:点对点传递模式,发布- 阅读全文

posted @ 2021-11-04 22:53 理想三旬_z 阅读(491) 评论(0) 推荐(0) 编辑

2021年11月3日

2.Hbase的读写流程

摘要: Hbase框架不同于一般框架,一般框架都是读快写慢,而Hbase恰恰相反,他的写要更快些。 写数据流程: 1.发出请求: (第一次交互)客户端通过Zookeeper的调度,通过它上面的meta表,找到meta表所在的HregionServer位置信息,返回给客户端; (第二次交互)客户端再次交互上面 阅读全文

posted @ 2021-11-03 23:40 理想三旬_z 阅读(503) 评论(0) 推荐(0) 编辑

1.初识Hbase

摘要: 一、Hbase介绍: (HBase的默认端口号:60010) 一个分布式、可扩展的支持海量数据存储的NoSQL数据库,基于HDFS分布式文件系统,利用zookeeper作为协同服务去构建的。他的数据是存储在HDFS之上。主要用来存储非结构化和半结构化的松散数据。(所以启动的时候先启动HDFS和zoo 阅读全文

posted @ 2021-11-03 23:02 理想三旬_z 阅读(348) 评论(0) 推荐(0) 编辑

1.Kafka的搭建以及常用命令

摘要: 这里我使用的是Kafka 2.11-2.0.0. 首先确保已经安装好zookeeper (kafka只负责数据的传输,而每次传输数据的位置会有一个游标来记录,下次传输数据直接找到游标的位置。而负责记录这个游标位置的是:zookeeper) 1.搭建 上传并解压压缩包 ,进入到config目录下, v 阅读全文

posted @ 2021-11-03 22:16 理想三旬_z 阅读(134) 评论(0) 推荐(0) 编辑

导航