wqy1027

eeee

 

2022年10月4日

Flume 配置,安装,使用,案例

摘要: 分布式日志采集系统Flume学习 1、Flume架构 1).Hadoop业务开发流程 2)Flume概述 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 支持在日志系统中定制各类数据发送方,用于收集数据; 同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文 阅读全文

posted @ 2022-10-04 15:53 不想写代码的小玉 阅读(432) 评论(0) 推荐(0) 编辑

2022年9月21日

Phoenix使用及搭建 bulkLoad实现批量导入

摘要: Phoenix Phoenix和hbase共用一个zookeeper,但是在刚建好Phoenix的时候是读不到hbase中的表的,在Phoenix中建过表之后在hbase中可以看到,在hbase中建过表Phoenix中看不到 Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设 阅读全文

posted @ 2022-09-21 20:51 不想写代码的小玉 阅读(497) 评论(0) 推荐(0) 编辑

HBase读写流程,分裂策略,Compaction操作,可快速查询百亿数据原因,hbase和hive的集成

摘要: HBase的读写流程 架构图 1)、HBase读流程 Hbase读取数据的流程: 1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接 2)从zookeeper中获取一个hbase:meta表位置信息,被哪一个regionserver所管理着 hbase:meta表:hbase的元数 阅读全文

posted @ 2022-09-21 17:03 不想写代码的小玉 阅读(159) 评论(0) 推荐(0) 编辑

2022年9月19日

HBase在idea中(JAVA API)、过滤器

摘要: JAVA API pom文件 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> <dependency> <groupId>org.ap 阅读全文

posted @ 2022-09-19 21:19 不想写代码的小玉 阅读(166) 评论(0) 推荐(0) 编辑

2022年9月15日

HBase-day1-day2内容理解

摘要: HBase图 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的) HBase是Hadoop的生态系统之一,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通过利用Hado 阅读全文

posted @ 2022-09-15 19:24 不想写代码的小玉 阅读(68) 评论(0) 推荐(0) 编辑

2022年9月12日

HBase搭建及命令

摘要: HBase搭建 1、hbase下载 官网下载地址:https://www.apache.org/dyn/closer.lua/hbase/1.4.6/hbase-1.4.6-bin.tar.gz 2 前期准备(Hadoop,zookeeper,jdk) 启动hadoop start-all.sh 验 阅读全文

posted @ 2022-09-12 19:53 不想写代码的小玉 阅读(75) 评论(0) 推荐(0) 编辑

2022年9月8日

Hive优化-重要

摘要: Hiv优化 1.hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字 阅读全文

posted @ 2022-09-08 20:47 不想写代码的小玉 阅读(95) 评论(0) 推荐(0) 编辑

Hive-day4

摘要: HiveSQL书写 1.count(*)、count(1)、count('字段名') 区别 从执行结果来看 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL 最快的 阅读全文

posted @ 2022-09-08 17:44 不想写代码的小玉 阅读(33) 评论(0) 推荐(0) 编辑

2022年9月6日

Hive-day3

摘要: Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了。 假如现在我们公司 阅读全文

posted @ 2022-09-06 19:54 不想写代码的小玉 阅读(24) 评论(0) 推荐(0) 编辑

2022年9月5日

Hive-day2

摘要: Hive的基本操作 Hive库操作 1.创建数据库 1)创建一个数据库,数据库在**HDFS上的默认存储路径是/hive/warehouse/\*.db**。 create database testdb; 2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) cre 阅读全文

posted @ 2022-09-05 16:30 不想写代码的小玉 阅读(85) 评论(0) 推荐(0) 编辑

导航