2021 年 12月随笔档案 - 追こするれい的人

HBase 简介

摘要：HBase 是什么 Apache HBase 是 Hadoop 数据库，一个分布式的，可扩展的，大数据存储。 HBase 集群可以托管非常大的表——数十亿行X数百万列（真正意义的大数据存储数据库） HBase 数据的最终持久化存储是基于 HDFS，存储容量可以随时在线扩容，而且数据存储的安全性、可靠阅读全文

posted @ 2021-12-22 23:29 追こするれい的人阅读(272) 评论(0) 推荐(0) 编辑

Hive 性能优化

摘要：影响 Hive 效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job 或 I/O 过多、MapReduce 分配不合理等等。对 Hive 的调优主要包括三方面： HQL 语句调优 Hive 配置项调优 MapReduce 调优 1. 列裁剪和分区裁剪所谓列裁剪就是在查询时只读取需要的列，分阅读全文

posted @ 2021-12-19 22:59 追こするれい的人阅读(180) 评论(0) 推荐(0) 编辑

Hive 函数使用

摘要：内置函数介绍查看 Hive 所有内置函数 show functions; Hive 测试函数的方法 # 通过常量值测试函数的使用 select substr("abcdefg",1,3); Hive 的所有函数手册 https://cwiki.apache.org/confluence/displ 阅读全文

posted @ 2021-12-19 22:26 追こするれい的人阅读(85) 评论(0) 推荐(0) 编辑

Hive 数据类型

摘要：Hive 数据类型操作符算术操作符运算符作用 + 加法 - 减法 * 乘法 / 或 DIV 除法 % 或 MOD 取余比较操作符符号描述备注 = 等于 <>, != 不等于 > 大于 < 小于 <= 小于等于 >= 大于等于 BETWEEN 在两值之间 >=min&&<=max NOT B 阅读全文

posted @ 2021-12-14 20:32 追こするれい的人阅读(81) 评论(0) 推荐(0) 编辑

Hive 查询语句

摘要：查询语法结构 SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLU 阅读全文

posted @ 2021-12-14 18:01 追こするれい的人阅读(185) 评论(0) 推荐(0) 编辑

Hive 数据导入/导出

摘要：Hive 支持的文件格式 Text File（文本格式文件） Sequence File（hadoop 专用序列格式二进制文件） Hadoop 提供的 Sequence File 文件格式提供一对 Key-Value 形式的不可变的数据结构。同时，HDFS 和 MapReduce 使用Sequenc 阅读全文

posted @ 2021-12-14 17:50 追こするれい的人阅读(558) 评论(0) 推荐(0) 编辑

Hive 建表

摘要：内部表与外部表内部表（默认）内部表（MANAGED_TABLE)：表目录按照 Hive 的规范来部署默认情况下，Hive 创建内部表，其中的表数据、元数据和统计数据由内部 Hive 进程管理内部表数据存储在 Hive 仓库的 /user/hive/warehouse/database_nam 阅读全文

posted @ 2021-12-14 14:55 追こするれい的人阅读(376) 评论(0) 推荐(0) 编辑

Hive 基本使用

摘要：Hive 交互式客户端 [root@node-01 ~]# hive 执行 HQL 语句 hive (default)> show databases; 操作 HDFS 文件系统 hive (default)> dfs -ls /; 操作 Linux 本地文件系统 hive (default)> ! 阅读全文

posted @ 2021-12-14 14:18 追こするれい的人阅读(235) 评论(0) 推荐(0) 编辑

Hive 简介

摘要：Hive 概念 Hive 由 Facebook 实现并开源是基于 Hadoop 的一个数据仓库工具可以将结构化的数据映射为一张数据库表并提供 HQL(Hive SQL)查询功能底层数据是存储在 HDFS 上 Hive 的本质是将 SQL 语句转换为 MapReduce/Spark 任务运行阅读全文

posted @ 2021-12-14 09:49 追こするれい的人阅读(516) 评论(0) 推荐(0) 编辑

数据仓库简介

摘要：数据仓库概念数据仓库，英文名称为 Data Warehouse ，可简写为 DW 或 DWH，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析报告和决策支持目的而创建。数据仓库是数据库概念的升级。从逻辑上理解，数据库和数据仓库没有区别，都是通过数据库软件实现的存放阅读全文

posted @ 2021-12-11 00:05 追こするれい的人阅读(354) 评论(0) 推荐(0) 编辑

Yarn 资源调度器

摘要：什么是资源调度器理想情况下，我们应用对 Yarn 资源的请求应该立刻得到满足，但现实情况资源往往是有限的，特别是在一个很繁忙的集群，一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在 Yarn 中，负责给应用分配资源的就是 Scheduler（资源调度器）。其实调度本身就是一个难题，很阅读全文

posted @ 2021-12-09 18:18 追こするれい的人阅读(63) 评论(0) 推荐(0) 编辑

Yarn 工作机制

摘要：Yarn 工作机制客户端向 ResourceManager 申请运行程序 ResourceManager 检查是否有运行权限，如果有就会返回 jobid 和程序提交的资源路径客户端根据 ResourceManager 返回的信息，然后执行提交程序的资源到 /tmp/.../job_id目录下（阅读全文

posted @ 2021-12-09 18:00 追こするれい的人阅读(46) 评论(0) 推荐(0) 编辑

Yarn 架构介绍

摘要：基本概念 Yarn 是 Hadoop 三大核心组件之一，是一个分布式程序的运行调度平台 Yarn 中有两大核心角色： Resource Manager 接受用户提交的分布式计算程序，并为其划分资源管理、监控各个 Node Manager 上的资源情况，以便于均衡负载 Node Manager 管理阅读全文

posted @ 2021-12-09 17:53 追こするれい的人阅读(157) 评论(0) 推荐(0) 编辑

MapReduce 内部核心工作机制

摘要：MapReduce 内部核心工作机制用户编写的 MapReduce 程序提交给 Yarn 集群运行，首先 Job 客户端会根据程序中的输入文件目录去扫描所有文件，并按照文件切片大小（BlockSize，默认 128M）进行切片，切片完成后会将切片信息写入到 ArrayList 集合中，然后进行序列阅读全文

posted @ 2021-12-09 16:58 追こするれい的人阅读(48) 评论(0) 推荐(0) 编辑

MapReduce Combiner 组件（局部聚合）

摘要：Combiner 组件的作用 MapReduce 中的 Combiner 组件就是为了避免 MapTask 任务和 ReduceTask 任务之间的过多的数据传输而设置的 MapReduce 程序可以在 MapTask 阶段自定义一个 Combiner 组件进行聚合 Combiner 的工作机制类似阅读全文

posted @ 2021-12-05 20:23 追こするれい的人阅读(150) 评论(0) 推荐(0) 编辑

MapReduce 排序

摘要：MapReduce 默认排序 MapReduce 中Mapper 和 Reducer 中的 <Key，Value> 键值对，Key 值是基本类型，那么将按照基本类型对应的 Key 进行排序（如 int类型的 IntWritable，long 类型的 LongWritable，以及 String类型的阅读全文

posted @ 2021-12-05 20:00 追こするれい的人阅读(224) 评论(0) 推荐(0) 编辑

MapReduce 分组

摘要：MapReduce 默认分组 MapReduce 程序的 Map 阶段将按行读取数据，然后 MapTask 任务输出 <Key,Value> 键值对 MapReduce 程序的 Reduce 阶段先按照分区器将 <Key，Value> 键值对划分到不同的分区中（即 ReduceTask） MapRe 阅读全文

posted @ 2021-12-03 17:51 追こするれい的人阅读(188) 评论(0) 推荐(0) 编辑

MapReduce ReduceTask 并行度和分区（Partition）

摘要：ReduceTask 并行度 MapTask 并行度的数量由切片数决定 ResuceTask 并行度的数量是需要用户手动设置（如果不设置默认为 1） MapReduce 程序最终生成的结果文件 (part-r-xxxxx) 数量由 ReduceTask 并行度的数量决定 ReduceTask 并行度阅读全文

posted @ 2021-12-03 17:15 追こするれい的人阅读(526) 评论(0) 推荐(0) 编辑

MapReduce 输入&输出数据组件

摘要：MapReduce 输入数据组件 MapReduce 提供的全部输入数据组件（Map 读入文件）都继承于 FileInputFormat 抽象类 MapReduce 内置常用输入数据组件 TextInputFormat（默认） TextInputFormat 读取文件得到 InputSplit，然后阅读全文

posted @ 2021-12-02 22:49 追こするれい的人阅读(90) 评论(0) 推荐(0) 编辑

MapReduce 数据切片与 MapTask 并行度

摘要：MapReduce 核心组件 MapTask ：执行 Map 端计算任务 ReduceTask ：执行 Reduce 端计算任务 MRAppMaster ：负责监控、管理所有 Task 计算任务数据切片原理计算切片块大小 computeSplitSize(Math.max(minSize,M 阅读全文

posted @ 2021-12-02 22:06 追こするれい的人阅读(80) 评论(0) 推荐(0) 编辑

编写第一个 MapReduce 程序

摘要：MapReduce 框架实现单词计数（WC）整体流程图 MapReduce 编程步骤编写一个 MapReduce 程序包括编写 Mapper 类、编写 Reducer 类和编写 Job 客户端 MapReduce 中无论 Mapper 类还是 Reducer 类，操作的都是 <Key，Valu 阅读全文

posted @ 2021-12-02 20:41 追こするれい的人阅读(39) 评论(0) 推荐(0) 编辑

MapReduce 编程模型

摘要：MapReduce 简介 MapReduce 本身是一种支持并行运算的编程模型（思想），这个编程模型分为两个阶段：Map 阶段和 Reduce 阶段。 Hadoop 的 MapReduce 框架 Hadoop 的 MapReduce 是实现 MapReduce 编程模型的一个分布式计算框架，这个框架阅读全文

posted @ 2021-12-02 20:11 追こするれい的人阅读(154) 评论(0) 推荐(0) 编辑

ZooKeeper 命令行客户端

摘要：ZooKeeper 命令行客户端启动客户端启动本地 zookeeper 客户端：./zkCli.sh [root@node-02 bin]# ./zkCli.sh Connecting to localhost:2181 # 2181 是客户端监听端口 ... [zk: localhost:21 阅读全文

posted @ 2021-12-02 19:55 追こするれい的人阅读(108) 评论(0) 推荐(0) 编辑

ZooKeeper 数据模型

摘要：ZooKeeper 数据模型数据存储形式 ZooKeeper 中对用户的数据采用 Key-Value 形式存储 ZooKeeper 的 key 是以目录树路径的形式表示（根目录 /) ZooKeeper 的 key 之间存在父子关系 ZooKeeper 中的 Key-Value 称为目录树的 zn 阅读全文

posted @ 2021-12-02 19:35 追こするれい的人阅读(51) 评论(0) 推荐(0) 编辑

ZooKeeper 集群运行机制

摘要：运行机制 ZooKeeper 集群安装时所有 zk 节点不分主/从节点 ZooKeeper 集群运行时会选举一个节点作为主节点（ Leader ），其他节点作为从节点（ Follower ） ZooKeeper 集群中只有主节点（Leader）对外提供服务，从节点（Follower）仅作为备份节点阅读全文

posted @ 2021-12-02 19:14 追こするれい的人阅读(129) 评论(0) 推荐(0) 编辑

12 2021 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论