随笔分类 - Hadoop
摘要:Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)官方参考 https://cwiki.apache.org/
阅读全文
摘要:1、Phoenix 简介 Phoenix 是 Hbase 的开源的 SQL 皮肤,可以使用标准的JDBC API 代替HBase 客户端 API来创建表,插入和查询Hbase数据. Phoenix 特点: 易集成:如 Spark,Hive,Pig,Flume 等 操作进度:DML/DDL 支持和SQ
阅读全文
摘要:1、引入依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>2.4.11</version> </dependency> <dependency> <gr
阅读全文
摘要:1、架构原理 StoreFile:保存实际数据的物理文件,StoreFile以HFile的形式存储在HDFS上。每个Store会有一个或多个StoreFile(HFile),数据在每个StoreFile中都是有序的。 MemStore:写缓存,由于HFile中的数据要求是有序的,所以数据是先存储在M
阅读全文
摘要:1、数据库操作 1、进入 hbase 客户端、帮助命令 [hui@hadoop201 conf]$ hbase shell help 2、查看所有库 namespace 也称之为 命名空间 hbase:008:0> list_namespace NAMESPACE default hbase hba
阅读全文
摘要:1、部署说明 1.1、Java 版本 集群安装的jdk 版本是 [hui@hadoop201 ~]$ chkall.sh echo $JAVA_HOME hadoop201 /opt/module/jdk1.8 hadoop202 /opt/module/jdk1.8 hadoop203 /opt/
阅读全文
摘要:1、Hbase 简介 1.1、Hbase 定义 hbase 是一种基于 HDFS 存储的 分布式、可扩展、支持海量数据存储的NoSQL数据库。可以实现,对海量数据的增删改查、 NoSQL = Not Only SQL,Hbase 源于 谷歌的 Bigtable 的开源,依赖于 Hadoop 的 hd
阅读全文
摘要:问题场景 今天刚装完hbase,启动后,主节点的 HMaster 直接挂了,但是 backup-masters 启动了,查看了 主节点的 master 的日志如下: 2022-05-09 15:51:16,355 INFO [Thread-14] wal.ProcedureWALFile: Arch
阅读全文
摘要:问题描述 不知怎得最近在启动测试环境的时候 hdfs 总是进入安全模式,无奈手动离开此模式才能进行正常操作 [hui@hadoop201 ~]$ hdfs dfsadmin -safemode get Safe mode is ON [hui@hadoop201 ~]$ hdfs dfsadmin
阅读全文
摘要:第一次启动集群之前需要格式化 格式化 hdfs 报错了 我的 Hadoop 安装在了 /opt/modile/下了,当前用户是 hui[hui@hadoop302 /]$ sudo -R hui opt/ 再次格式化正常了
阅读全文
摘要:1、Combiner 简介 Combiner是MR程序中Mapper和Reducer之外的一种组件。 Combiner组件的父类就是Reducer。 Combiner和Reducer的区别在于运行的位置; Combiner是在每一个MapTask所在的节点运行; Reducer是接收全局所有Mapp
阅读全文
摘要:1、基本介绍 排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。对于MapTask,它会将
阅读全文
摘要:1、Shuffle机制定义 Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle; 2、Partition 2.1、问题引入 要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区) 2.2、默认分区 public class
阅读全文
摘要:1、Map Reduce 结构 一个完整的mapreduce程序在分布式运行时有三类实例进程: MRAppMaster:负责整个程序的过程调度及状态协调; MapTask:负责map阶段的整个数据处理流程; ReduceTask:负责reduce阶段的整个数据处理流程; 2、Map Reduce 工
阅读全文
摘要:1、Hadoop 序列化简介 序列化:将内存中的对象转换成字节序列(或其它支持网络传输的数据),以便于存储到磁盘或网络传输, 反序列化:将收到的字节序列或者持久化在磁盘中的数据转换成内存中的对象; Hadoop 序列化特点: 紧凑:高效使用存储空间; 高效:读写数据额外开销小 可扩展:随着通信协议的
阅读全文
摘要:MapReduce定义 Map Reduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析” 应用的核心框架 ,Map Reduce 的核心功能是将用户编写的业务逻辑代码和自带的默认组件,整合成完整的分布式应用程序,并发运行在 Hadoop 集群上。 为什么要引入 Ma
阅读全文
摘要:问题场景:最近在学习 MapReduce,今天在 Win10 系统练习 WordCount 案例,启动 Driver 程序报错: 2020-10-14 22:15:44,142 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to lo
阅读全文
摘要:一、集群安全模式 概述 语法: 集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。 (1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态) (2)bin/hdfs dfsadmin -safemode enter (功能描述
阅读全文
摘要:一、NameNode & SecondaryNameNode 工作机制 1. 第一阶段:NameNode启动 (1)第一次启动NameNode格式化后,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 (2)客户端对元数据进行增删改的请求。 (3)NameN
阅读全文
摘要:一、HDFS 的写数据操作 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 NameNode返回是否可以上传。 客户端请求第一个 Block上传到哪几个DataNode服务器上。 NameNode返回
阅读全文