Hadoop - 随笔分类 - 晓枫的春天

Hive 自定义函数

摘要：Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）官方参考 https://cwiki.apache.org/ 阅读全文

posted @ 2022-12-27 12:34 晓枫的春天阅读(171) 评论(0) 推荐(0) 编辑

Hbase 整合Phoenix

摘要：1、Phoenix 简介 Phoenix 是 Hbase 的开源的 SQL 皮肤，可以使用标准的JDBC API 代替HBase 客户端 API来创建表，插入和查询Hbase数据. Phoenix 特点：易集成：如 Spark,Hive，Pig,Flume 等操作进度：DML/DDL 支持和SQ 阅读全文

posted @ 2022-05-21 20:53 晓枫的春天阅读(345) 评论(0) 推荐(0) 编辑

Hbase APi

摘要：1、引入依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>2.4.11</version> </dependency> <dependency> <gr 阅读全文

posted @ 2022-05-20 11:26 晓枫的春天阅读(65) 评论(0) 推荐(0) 编辑

Hbase 运行原理

摘要：1、架构原理 StoreFile:保存实际数据的物理文件，StoreFile以HFile的形式存储在HDFS上。每个Store会有一个或多个StoreFile（HFile），数据在每个StoreFile中都是有序的。 MemStore:写缓存，由于HFile中的数据要求是有序的，所以数据是先存储在M 阅读全文

posted @ 2022-05-19 21:00 晓枫的春天阅读(140) 评论(0) 推荐(1) 编辑

Hbase shell 基本操作

摘要：1、数据库操作 1、进入 hbase 客户端、帮助命令 [hui@hadoop201 conf]$ hbase shell help 2、查看所有库 namespace 也称之为命名空间 hbase:008:0> list_namespace NAMESPACE default hbase hba 阅读全文

posted @ 2022-05-16 21:25 晓枫的春天阅读(352) 评论(0) 推荐(0) 编辑

Hbase 集群部署

摘要：1、部署说明 1.1、Java 版本集群安装的jdk 版本是 [hui@hadoop201 ~]$ chkall.sh echo $JAVA_HOME hadoop201 /opt/module/jdk1.8 hadoop202 /opt/module/jdk1.8 hadoop203 /opt/ 阅读全文

posted @ 2022-05-11 17:28 晓枫的春天阅读(97) 评论(0) 推荐(0) 编辑

Hbase 简介

摘要：1、Hbase 简介 1.1、Hbase 定义 hbase 是一种基于 HDFS 存储的分布式、可扩展、支持海量数据存储的NoSQL数据库。可以实现，对海量数据的增删改查、 NoSQL = Not Only SQL,Hbase 源于谷歌的 Bigtable 的开源，依赖于 Hadoop 的 hd 阅读全文

posted @ 2022-05-10 12:06 晓枫的春天阅读(514) 评论(0) 推荐(0) 编辑

hbase 启动 java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for proper operation during component failures, but the underlying filesystem does not support doing so.

摘要：问题场景今天刚装完hbase,启动后，主节点的 HMaster 直接挂了，但是 backup-masters 启动了，查看了主节点的 master 的日志如下： 2022-05-09 15:51:16,355 INFO [Thread-14] wal.ProcedureWALFile: Arch 阅读全文

posted @ 2022-05-09 08:13 晓枫的春天阅读(193) 评论(0) 推荐(0) 编辑

HDFS 提示 There are 6 missing blocks. The following files may be corrupted:

摘要：问题描述不知怎得最近在启动测试环境的时候 hdfs 总是进入安全模式，无奈手动离开此模式才能进行正常操作 [hui@hadoop201 ~]$ hdfs dfsadmin -safemode get Safe mode is ON [hui@hadoop201 ~]$ hdfs dfsadmin 阅读全文

posted @ 2022-03-05 16:56 晓枫的春天阅读(806) 评论(0) 推荐(1) 编辑

格式化HDFS 出现 java.io.IOException: Cannot create directory /opt/hdfs/name/current 错误

摘要：第一次启动集群之前需要格式化格式化 hdfs 报错了我的 Hadoop 安装在了 /opt/modile/下了，当前用户是 hui[hui@hadoop302 /]$ sudo -R hui opt/ 再次格式化正常了阅读全文

posted @ 2021-10-31 14:05 晓枫的春天阅读(227) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（十六）Combiner 合并和 GroupingComparator辅助排序

摘要：1、Combiner 简介 Combiner是MR程序中Mapper和Reducer之外的一种组件。 Combiner组件的父类就是Reducer。 Combiner和Reducer的区别在于运行的位置; Combiner是在每一个MapTask所在的节点运行; Reducer是接收全局所有Mapp 阅读全文

posted @ 2020-11-03 00:10 晓枫的春天阅读(177) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（十五）WritableComparable 排序

摘要：1、基本介绍排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。对于MapTask，它会将阅读全文

posted @ 2020-11-02 23:49 晓枫的春天阅读(361) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（十四）Partition 分区

摘要：1、Shuffle机制定义 Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle； 2、Partition 2.1、问题引入要求将统计结果按照条件输出到不同文件中（分区）。比如：将统计结果按照手机归属地不同省份输出到不同文件中（分区） 2.2、默认分区 public class 阅读全文

posted @ 2020-11-02 23:24 晓枫的春天阅读(258) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（十三）Map Reduce 运行机制简述

摘要：1、Map Reduce 结构一个完整的mapreduce程序在分布式运行时有三类实例进程： MRAppMaster：负责整个程序的过程调度及状态协调; MapTask：负责map阶段的整个数据处理流程; ReduceTask：负责reduce阶段的整个数据处理流程; 2、Map Reduce 工阅读全文

posted @ 2020-10-18 10:53 晓枫的春天阅读(311) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（十二）Hadoop序列化

摘要：1、Hadoop 序列化简介序列化：将内存中的对象转换成字节序列(或其它支持网络传输的数据)，以便于存储到磁盘或网络传输，反序列化：将收到的字节序列或者持久化在磁盘中的数据转换成内存中的对象； Hadoop 序列化特点：紧凑:高效使用存储空间；高效：读写数据额外开销小可扩展：随着通信协议的阅读全文

posted @ 2020-10-17 17:16 晓枫的春天阅读(244) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（十一）MapReduce 简介

摘要：MapReduce定义 Map Reduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析” 应用的核心框架，Map Reduce 的核心功能是将用户编写的业务逻辑代码和自带的默认组件，整合成完整的分布式应用程序，并发运行在 Hadoop 集群上。为什么要引入 Ma 阅读全文

posted @ 2020-10-15 00:08 晓枫的春天阅读(537) 评论(0) 推荐(0) 编辑

MapReduce报错Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio

摘要：问题场景：最近在学习 MapReduce,今天在 Win10 系统练习 WordCount 案例，启动 Driver 程序报错： 2020-10-14 22:15:44,142 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to lo 阅读全文

posted @ 2020-10-14 22:23 晓枫的春天阅读(603) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（十）HDFS 之集群安全模式 & DateaNode

摘要：一、集群安全模式概述语法：集群处于安全模式，不能执行重要操作（写操作）。集群启动完成后，自动退出安全模式。（1）bin/hdfs dfsadmin -safemode get （功能描述：查看安全模式状态）（2）bin/hdfs dfsadmin -safemode enter （功能描述阅读全文

posted @ 2020-10-13 22:36 晓枫的春天阅读(247) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（九）HDFS 之 NameNode & SecondaryNameNode

摘要：一、NameNode & SecondaryNameNode 工作机制 1. 第一阶段：NameNode启动（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。（2）客户端对元数据进行增删改的请求。（3）NameN 阅读全文

posted @ 2020-10-13 21:51 晓枫的春天阅读(606) 评论(0) 推荐(0) 编辑

Hadoop 学习笔记（八）HDFS 数据的读写

摘要：一、HDFS 的写数据操作客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 NameNode返回是否可以上传。客户端请求第一个 Block上传到哪几个DataNode服务器上。 NameNode返回阅读全文

posted @ 2020-10-12 22:38 晓枫的春天阅读(95) 评论(0) 推荐(0) 编辑

滴水穿石不是靠力，而是因为不舍昼夜。

随笔分类 - Hadoop

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论