不想写代码的小玉

Flume 配置，安装，使用，案例

摘要：分布式日志采集系统Flume学习 1、Flume架构 1).Hadoop业务开发流程 2）Flume概述 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据; 同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文阅读全文

posted @ 2022-10-04 15:53 不想写代码的小玉阅读(432) 评论(0) 推荐(0) 编辑

Phoenix使用及搭建 bulkLoad实现批量导入

摘要： Phoenix Phoenix和hbase共用一个zookeeper，但是在刚建好Phoenix的时候是读不到hbase中的表的，在Phoenix中建过表之后在hbase中可以看到，在hbase中建过表Phoenix中看不到 Hbase适合存储大量的对关系运算要求低的NOSQL数据，受Hbase 设阅读全文

posted @ 2022-09-21 20:51 不想写代码的小玉阅读(497) 评论(0) 推荐(0) 编辑

HBase读写流程，分裂策略，Compaction操作，可快速查询百亿数据原因，hbase和hive的集成

摘要： HBase的读写流程架构图 1）、HBase读流程 Hbase读取数据的流程： 1）是由客户端发起读取数据的请求，首先会与zookeeper建立连接 2）从zookeeper中获取一个hbase:meta表位置信息，被哪一个regionserver所管理着 hbase:meta表：hbase的元数阅读全文

posted @ 2022-09-21 17:03 不想写代码的小玉阅读(159) 评论(0) 推荐(0) 编辑

HBase在idea中（JAVA API）、过滤器

摘要： JAVA API pom文件 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> <dependency> <groupId>org.ap 阅读全文

posted @ 2022-09-19 21:19 不想写代码的小玉阅读(166) 评论(0) 推荐(0) 编辑

HBase-day1-day2内容理解

摘要： HBase图 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据（底层是字节数组做存储的） HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hado 阅读全文

posted @ 2022-09-15 19:24 不想写代码的小玉阅读(68) 评论(0) 推荐(0) 编辑

HBase搭建及命令

摘要： HBase搭建 1、hbase下载官网下载地址：https://www.apache.org/dyn/closer.lua/hbase/1.4.6/hbase-1.4.6-bin.tar.gz 2 前期准备（Hadoop,zookeeper,jdk）启动hadoop start-all.sh 验阅读全文

posted @ 2022-09-12 19:53 不想写代码的小玉阅读(75) 评论(0) 推荐(0) 编辑

Hive优化-重要

摘要： Hiv优化 1.hive的随机抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置，select字阅读全文

posted @ 2022-09-08 20:47 不想写代码的小玉阅读(95) 评论(0) 推荐(0) 编辑

Hive-day4

摘要： HiveSQL书写 1.count(*)、count(1)、count('字段名') 区别从执行结果来看 count(*)包括了所有的列，相当于行数，在统计结果的时候，不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列，用1代表代码行，在统计结果的时候，不会忽略列值为NULL 最快的阅读全文

posted @ 2022-09-08 17:44 不想写代码的小玉阅读(33) 评论(0) 推荐(0) 编辑

Hive-day3

摘要： Hive分区在大数据中，最常见的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天或者每小时切分成一个个小的文件，这样去操作小的文件就会容易很多了。假如现在我们公司阅读全文

posted @ 2022-09-06 19:54 不想写代码的小玉阅读(24) 评论(0) 推荐(0) 编辑

Hive-day2

摘要： Hive的基本操作 Hive库操作 1.创建数据库 1）创建一个数据库，数据库在**HDFS上的默认存储路径是/hive/warehouse/\*.db**。 create database testdb; 2）避免要创建的数据库已经存在错误，增加if not exists判断。（标准写法） cre 阅读全文

posted @ 2022-09-05 16:30 不想写代码的小玉阅读(85) 评论(0) 推荐(0) 编辑

wqy1027