理想三旬_z - 博客园

实操2：使用sparkStreaming处理kafka的消息队列

摘要：实操1中，已经实现了将数据传进kafka中，这里我们用sparkStreaming对数据进行处理举个例子：原来数据： A,甲乙丙（这里为空）丁处理过后： A,甲 A,乙 A,丙 A,丁将一行数据"炸开",并将空值处理掉 import java.util import org.apach 阅读全文

posted @ 2021-12-16 17:19 理想三旬_z 阅读(120) 评论(0) 推荐(0) 编辑

HBase的RowKey设计原则以及预分区操作（避免热点问题）

摘要：但凡使用到HBase，数据量绝对不会少，这时候就需要考虑到查询的效率问题，以及可能出现的数据倾斜问题（热点问题）。我们可以同过对rowkey进行设计，规划一个合理的预分区，让数据散列的分布在各个分区上。因此：rowkey设计时就要考虑到一个预分区的问题；同样，预分区也不可背离开rowkey而随意设阅读全文

posted @ 2021-12-01 00:31 理想三旬_z 阅读(484) 评论(1) 推荐(1) 编辑

6.Hive中内部表和外部表的区别

摘要：有external标志的是外部表，无则内部表；内部表由Hive自身管理，而外部表由HDFS管理，数据在HDFS上，外部表可以理解成只是存了条建表语句映射到HDFS上的数据文件，并没有产生数的复制或者迁移；内部表存储位置：默认情况下/hive/warehouse，外部表如果用户没指定，则在/hiv 阅读全文

posted @ 2021-11-24 22:40 理想三旬_z 阅读(732) 评论(0) 推荐(0) 编辑

5.HBase与Hive进行表关联

摘要： HBase与Hive的对比： Hive：数据仓库； Hive的本质其实就相当于将HDFS中已经存储的文件在MySQL中做了一个双射关系，以方便使用HQL去管理查询。 2. 用于数据分析、清洗； Hive适用于离线的数据分析和清洗，延迟较高 3. 基于HDFS，MR； Hive中真实存储的数据依旧在阅读全文

posted @ 2021-11-24 22:01 理想三旬_z 阅读(544) 评论(0) 推荐(0) 编辑

4.HBase-API

摘要：准备工作：导包：hbase-client / hbase-common / hbase-server <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-common</artifactId> <version>1. 阅读全文

posted @ 2021-11-21 16:30 理想三旬_z 阅读(61) 评论(0) 推荐(0) 编辑

实操1：使用Flume连接kafka并传入数据

摘要：这里数据源存放在hdfs上启动项：【hadoop(主要用hdfs)，zookeeper，kafka，flume】 start-all.sh zkServer.sh start kafka-server-start.sh /opt/soft/kafka200/config/server.proper 阅读全文

posted @ 2021-11-09 22:40 理想三旬_z 阅读(594) 评论(0) 推荐(0) 编辑

2.Kafka的工作原理及数据丢失、数据重复问题

摘要：一、概述一个分布式消息中间件，基于zookeeper的分布式日志系统。（最新的3.0版本摆脱了对zookeeper的依赖，游标改为记录在一个单独的队列里）简单来讲，就是一个存储系统，起一个缓冲作用。所谓的消息系统，就是将数据从一个地方传递到另一个地方。消息传递模式有两种：点对点传递模式，发布- 阅读全文

posted @ 2021-11-04 22:53 理想三旬_z 阅读(491) 评论(0) 推荐(0) 编辑

2.Hbase的读写流程

摘要： Hbase框架不同于一般框架，一般框架都是读快写慢，而Hbase恰恰相反，他的写要更快些。写数据流程： 1.发出请求：（第一次交互）客户端通过Zookeeper的调度，通过它上面的meta表，找到meta表所在的HregionServer位置信息，返回给客户端；（第二次交互）客户端再次交互上面阅读全文

posted @ 2021-11-03 23:40 理想三旬_z 阅读(503) 评论(0) 推荐(0) 编辑

1.初识Hbase

摘要：一、Hbase介绍：（HBase的默认端口号：60010）一个分布式、可扩展的支持海量数据存储的NoSQL数据库，基于HDFS分布式文件系统，利用zookeeper作为协同服务去构建的。他的数据是存储在HDFS之上。主要用来存储非结构化和半结构化的松散数据。（所以启动的时候先启动HDFS和zoo 阅读全文

posted @ 2021-11-03 23:02 理想三旬_z 阅读(348) 评论(0) 推荐(0) 编辑

1.Kafka的搭建以及常用命令

摘要：这里我使用的是Kafka 2.11-2.0.0. 首先确保已经安装好zookeeper （kafka只负责数据的传输，而每次传输数据的位置会有一个游标来记录，下次传输数据直接找到游标的位置。而负责记录这个游标位置的是：zookeeper） 1.搭建上传并解压压缩包，进入到config目录下， v 阅读全文

posted @ 2021-11-03 22:16 理想三旬_z 阅读(134) 评论(0) 推荐(0) 编辑