12 2021 档案

摘要:HBase 是什么 Apache HBase 是 Hadoop 数据库,一个分布式的,可扩展的,大数据存储。 HBase 集群可以托管非常大的表——数十亿行X数百万列(真正意义的大数据存储数据库) HBase 数据的最终持久化存储是基于 HDFS,存储容量可以随时在线扩容,而且数据存储的安全性、可靠 阅读全文
posted @ 2021-12-22 23:29 追こするれい的人 阅读(272) 评论(0) 推荐(0) 编辑
摘要:影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job 或 I/O 过多、MapReduce 分配不合理等等。 对 Hive 的调优主要包括三方面: HQL 语句调优 Hive 配置项调优 MapReduce 调优 1. 列裁剪和分区裁剪 所谓列裁剪就是在查询时只读取需要的列,分 阅读全文
posted @ 2021-12-19 22:59 追こするれい的人 阅读(180) 评论(0) 推荐(0) 编辑
摘要:内置函数介绍 查看 Hive 所有内置函数 show functions; Hive 测试函数的方法 # 通过常量值测试函数的使用 select substr("abcdefg",1,3); Hive 的所有函数手册 https://cwiki.apache.org/confluence/displ 阅读全文
posted @ 2021-12-19 22:26 追こするれい的人 阅读(85) 评论(0) 推荐(0) 编辑
摘要:Hive 数据类型 操作符 算术操作符 运算符作用 + 加法 - 减法 * 乘法 / 或 DIV 除法 % 或 MOD 取余 比较操作符 符号描述备注 = 等于 <>, != 不等于 > 大于 < 小于 <= 小于等于 >= 大于等于 BETWEEN 在两值之间 >=min&&<=max NOT B 阅读全文
posted @ 2021-12-14 20:32 追こするれい的人 阅读(81) 评论(0) 推荐(0) 编辑
摘要:查询语法结构 SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLU 阅读全文
posted @ 2021-12-14 18:01 追こするれい的人 阅读(185) 评论(0) 推荐(0) 编辑
摘要:Hive 支持的文件格式 Text File(文本格式文件) Sequence File(hadoop 专用序列格式二进制文件) Hadoop 提供的 Sequence File 文件格式提供一对 Key-Value 形式的不可变的数据结构。同时,HDFS 和 MapReduce 使用Sequenc 阅读全文
posted @ 2021-12-14 17:50 追こするれい的人 阅读(558) 评论(0) 推荐(0) 编辑
摘要:内部表与外部表 内部表(默认) 内部表(MANAGED_TABLE):表目录按照 Hive 的规范来部署 默认情况下,Hive 创建内部表,其中的表数据、元数据和统计数据由内部 Hive 进程管理 内部表数据存储在 Hive 仓库的 /user/hive/warehouse/database_nam 阅读全文
posted @ 2021-12-14 14:55 追こするれい的人 阅读(376) 评论(0) 推荐(0) 编辑
摘要:Hive 交互式客户端 [root@node-01 ~]# hive 执行 HQL 语句 hive (default)> show databases; 操作 HDFS 文件系统 hive (default)> dfs -ls /; 操作 Linux 本地文件系统 hive (default)> ! 阅读全文
posted @ 2021-12-14 14:18 追こするれい的人 阅读(235) 评论(0) 推荐(0) 编辑
摘要:Hive 概念 Hive 由 Facebook 实现并开源 是基于 Hadoop 的一个数据仓库工具 可以将结构化的数据映射为一张数据库表 并提供 HQL(Hive SQL)查询功能 底层数据是存储在 HDFS 上 Hive 的本质是将 SQL 语句转换为 MapReduce/Spark 任务运行 阅读全文
posted @ 2021-12-14 09:49 追こするれい的人 阅读(516) 评论(0) 推荐(0) 编辑
摘要:数据仓库概念 数据仓库,英文名称为 Data Warehouse ,可简写为 DW 或 DWH,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析报告和决策支持目的而创建。 数据仓库是数据库概念的升级。 从逻辑上理解, 数据库和数据仓库没有区别, 都是通过数据库软件实现的存放 阅读全文
posted @ 2021-12-11 00:05 追こするれい的人 阅读(354) 评论(0) 推荐(0) 编辑
摘要:什么是资源调度器 理想情况下,我们应用对 Yarn 资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。 在 Yarn 中,负责给应用分配资源的就是 Scheduler(资源调度器)。其实调度本身就是一个难题,很 阅读全文
posted @ 2021-12-09 18:18 追こするれい的人 阅读(63) 评论(0) 推荐(0) 编辑
摘要:Yarn 工作机制 客户端向 ResourceManager 申请运行程序 ResourceManager 检查是否有运行权限,如果有就会返回 jobid 和程序提交的资源路径 客户端根据 ResourceManager 返回的信息,然后执行提交程序的资源到 /tmp/.../job_id目录下( 阅读全文
posted @ 2021-12-09 18:00 追こするれい的人 阅读(46) 评论(0) 推荐(0) 编辑
摘要:基本概念 Yarn 是 Hadoop 三大核心组件之一,是一个分布式程序的运行调度平台 Yarn 中有两大核心角色: Resource Manager 接受用户提交的分布式计算程序,并为其划分资源 管理、监控各个 Node Manager 上的资源情况,以便于均衡负载 Node Manager 管理 阅读全文
posted @ 2021-12-09 17:53 追こするれい的人 阅读(157) 评论(0) 推荐(0) 编辑
摘要:MapReduce 内部核心工作机制 用户编写的 MapReduce 程序提交给 Yarn 集群运行,首先 Job 客户端会根据程序中的输入文件目录去扫描所有文件,并按照文件切片大小(BlockSize,默认 128M)进行切片,切片完成后会将切片信息写入到 ArrayList 集合中,然后进行序列 阅读全文
posted @ 2021-12-09 16:58 追こするれい的人 阅读(48) 评论(0) 推荐(0) 编辑
摘要:Combiner 组件的作用 MapReduce 中的 Combiner 组件就是为了避免 MapTask 任务和 ReduceTask 任务之间的过多的数据传输而设置的 MapReduce 程序可以在 MapTask 阶段自定义一个 Combiner 组件进行聚合 Combiner 的工作机制类似 阅读全文
posted @ 2021-12-05 20:23 追こするれい的人 阅读(150) 评论(0) 推荐(0) 编辑
摘要:MapReduce 默认排序 MapReduce 中Mapper 和 Reducer 中的 <Key,Value> 键值对,Key 值是基本类型,那么将按照基本类型对应的 Key 进行排序(如 int类型的 IntWritable,long 类型的 LongWritable,以及 String类型的 阅读全文
posted @ 2021-12-05 20:00 追こするれい的人 阅读(224) 评论(0) 推荐(0) 编辑
摘要:MapReduce 默认分组 MapReduce 程序的 Map 阶段将按行读取数据,然后 MapTask 任务输出 <Key,Value> 键值对 MapReduce 程序的 Reduce 阶段先按照分区器将 <Key,Value> 键值对划分到不同的分区中(即 ReduceTask) MapRe 阅读全文
posted @ 2021-12-03 17:51 追こするれい的人 阅读(188) 评论(0) 推荐(0) 编辑
摘要:ReduceTask 并行度 MapTask 并行度的数量由切片数决定 ResuceTask 并行度的数量是需要用户手动设置(如果不设置默认为 1) MapReduce 程序最终生成的结果文件 (part-r-xxxxx) 数量由 ReduceTask 并行度的数量决定 ReduceTask 并行度 阅读全文
posted @ 2021-12-03 17:15 追こするれい的人 阅读(526) 评论(0) 推荐(0) 编辑
摘要:MapReduce 输入数据组件 MapReduce 提供的全部输入数据组件(Map 读入文件)都继承于 FileInputFormat 抽象类 MapReduce 内置常用输入数据组件 TextInputFormat(默认) TextInputFormat 读取文件得到 InputSplit,然后 阅读全文
posted @ 2021-12-02 22:49 追こするれい的人 阅读(90) 评论(0) 推荐(0) 编辑
摘要:MapReduce 核心组件 MapTask :执行 Map 端计算任务 ReduceTask : 执行 Reduce 端计算任务 MRAppMaster : 负责监控、管理所有 Task 计算任务 数据切片原理 计算切片块大小 computeSplitSize(Math.max(minSize,M 阅读全文
posted @ 2021-12-02 22:06 追こするれい的人 阅读(80) 评论(0) 推荐(0) 编辑
摘要:MapReduce 框架实现单词计数(WC)整体流程图 MapReduce 编程步骤 编写一个 MapReduce 程序包括编写 Mapper 类、编写 Reducer 类和编写 Job 客户端 MapReduce 中无论 Mapper 类 还是 Reducer 类, 操作的都是 <Key,Valu 阅读全文
posted @ 2021-12-02 20:41 追こするれい的人 阅读(39) 评论(0) 推荐(0) 编辑
摘要:MapReduce 简介 MapReduce 本身是一种支持并行运算的编程模型(思想),这个编程模型分为两个阶段:Map 阶段和 Reduce 阶段。 Hadoop 的 MapReduce 框架 Hadoop 的 MapReduce 是实现 MapReduce 编程模型的一个分布式计算框架,这个框架 阅读全文
posted @ 2021-12-02 20:11 追こするれい的人 阅读(154) 评论(0) 推荐(0) 编辑
摘要:ZooKeeper 命令行客户端 启动客户端 启动本地 zookeeper 客户端:./zkCli.sh [root@node-02 bin]# ./zkCli.sh Connecting to localhost:2181 # 2181 是客户端监听端口 ... [zk: localhost:21 阅读全文
posted @ 2021-12-02 19:55 追こするれい的人 阅读(108) 评论(0) 推荐(0) 编辑
摘要:ZooKeeper 数据模型 数据存储形式 ZooKeeper 中对用户的数据采用 Key-Value 形式存储 ZooKeeper 的 key 是以目录树路径的形式表示(根目录 /) ZooKeeper 的 key 之间存在父子关系 ZooKeeper 中的 Key-Value 称为目录树的 zn 阅读全文
posted @ 2021-12-02 19:35 追こするれい的人 阅读(51) 评论(0) 推荐(0) 编辑
摘要:运行机制 ZooKeeper 集群安装时所有 zk 节点不分主/从节点 ZooKeeper 集群运行时会选举一个节点作为主节点( Leader ),其他节点作为从节点( Follower ) ZooKeeper 集群中只有主节点(Leader) 对外提供服务,从节点(Follower)仅作为备份节点 阅读全文
posted @ 2021-12-02 19:14 追こするれい的人 阅读(129) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示