晓枫的春天 - 博客园

2020年12月6日

摘要： 1、什么是Hive 1、hive简介 Hive：由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。 2 Hive本质：将HQL转化成MapReduce程序（1）Hive处理的数据存阅读全文

posted @ 2020-12-06 22:03 晓枫的春天阅读(154) 评论(0) 推荐(0)

2020年11月30日

Zookeeper 学习（三）Zookeeper 分布式应用

摘要： 1、分布式安装部署 1、集群规划在虚拟 hadoop103、hadoop104、hadoop105 三个节点上部署 Zookeeper； 2、解压安装解压安装文件到指定路径 [hui@hadoop103 software]$ tar -zxvf zookeeper-3.4.10.tar.gz - 阅读全文

posted @ 2020-11-30 21:15 晓枫的春天阅读(129) 评论(0) 推荐(0)

2020年11月15日

Zookeeper 学习（二）Zookeeper 原理概述

摘要： 1、Zookeeper 内部选举机制半数机制：集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。 Zookeeper虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader是通阅读全文

posted @ 2020-11-15 23:16 晓枫的春天阅读(161) 评论(0) 推荐(0)

2020年11月5日

Zookeeper 学习（一）Zookeeper 概述及安装

摘要：一、Zookeeper 概述 Zookeeper 是一个开源的分布式的，为分布式应用提供协调服务的 Apache 项目； 1.1、工作机制 Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态阅读全文

posted @ 2020-11-05 22:40 晓枫的春天阅读(258) 评论(0) 推荐(0)

2020年11月3日

ORA-01031: insufficient privileges

摘要：如题：平台侧今天把新主机和经分库的网络打通了，下班前测试下数据出入是否正常；测试数据出库时，一切正常，但是测试入库时报错了，发现是，当前登录用户和目标表不是同一用户，无权写入数据；解决方法： GRANT update,select,insert,delete ON scott.temp_info 阅读全文

posted @ 2020-11-03 21:50 晓枫的春天阅读(131) 评论(0) 推荐(0)

Hadoop 学习笔记（十六）Combiner 合并和 GroupingComparator辅助排序

摘要： 1、Combiner 简介 Combiner是MR程序中Mapper和Reducer之外的一种组件。 Combiner组件的父类就是Reducer。 Combiner和Reducer的区别在于运行的位置; Combiner是在每一个MapTask所在的节点运行; Reducer是接收全局所有Mapp 阅读全文

posted @ 2020-11-03 00:10 晓枫的春天阅读(202) 评论(0) 推荐(0)

2020年11月2日

Hadoop 学习笔记（十五）WritableComparable 排序

摘要： 1、基本介绍排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。对于MapTask，它会将阅读全文

posted @ 2020-11-02 23:49 晓枫的春天阅读(402) 评论(0) 推荐(0)

Hadoop 学习笔记（十四）Partition 分区

摘要： 1、Shuffle机制定义 Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle； 2、Partition 2.1、问题引入要求将统计结果按照条件输出到不同文件中（分区）。比如：将统计结果按照手机归属地不同省份输出到不同文件中（分区） 2.2、默认分区 public class 阅读全文

posted @ 2020-11-02 23:24 晓枫的春天阅读(298) 评论(0) 推荐(0)

2020年10月18日

Hadoop 学习笔记（十三）Map Reduce 运行机制简述

摘要： 1、Map Reduce 结构一个完整的mapreduce程序在分布式运行时有三类实例进程： MRAppMaster：负责整个程序的过程调度及状态协调; MapTask：负责map阶段的整个数据处理流程; ReduceTask：负责reduce阶段的整个数据处理流程; 2、Map Reduce 工阅读全文

posted @ 2020-10-18 10:53 晓枫的春天阅读(350) 评论(0) 推荐(0)

2020年10月17日

Hadoop 学习笔记（十二）Hadoop序列化

摘要： 1、Hadoop 序列化简介序列化：将内存中的对象转换成字节序列(或其它支持网络传输的数据)，以便于存储到磁盘或网络传输，反序列化：将收到的字节序列或者持久化在磁盘中的数据转换成内存中的对象； Hadoop 序列化特点：紧凑:高效使用存储空间；高效：读写数据额外开销小可扩展：随着通信协议的阅读全文

posted @ 2020-10-17 17:16 晓枫的春天阅读(289) 评论(0) 推荐(0)

滴水穿石不是靠力，而是因为不舍昼夜。

公告