摘要: 1. Hbase与hive的对比 A. Hive(数据仓库):Hive的本质其实就相当于将HDFS中已经存储的文件在mysql中做了一个双射关系,以便使用HSQL查询。hive适用于离线数据的分析和清洗,延迟较高。hive基于hdfs和mapreduce。 B. HBase(数据库):列式存储的非关 阅读全文
posted @ 2019-10-15 09:59 单词计数程序大牛 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 1. HBase基本介绍 a. 介绍 Hbase是一个nosql的列式存储的数据库。实际来源于Google发表的论文bigtable。构建在hdfs基础之上。 b. Hbase的特点 2. Hbase和hadoop的关系 a. hdfs b. Hbase 总结:紧耦合关系,Hbase依赖于hdfs 阅读全文
posted @ 2019-10-14 00:36 单词计数程序大牛 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 1. Apache Oozie Oozie是一个工作流调度系统。Oozie是运行于Java Servlet容器上的一个java web应用。Oozie是按照有向无权图(DAG)调度方式,使用xml文件配置工作流。最初是由Cloudear公司开发,后来贡献给Apache a. apache Oozie 阅读全文
posted @ 2019-10-13 08:30 单词计数程序大牛 阅读(546) 评论(0) 推荐(0) 编辑
摘要: 1. MapReduce的思想 MapReduce的思想就是“分而治之”,他适用于大量复杂的任务场景(大规模数据的处理场景)。MapReduce是一款分布式运算框架,核心功能是将用户编写的业务代码和自带的默认组件整合成一个完整的分布式计算程序,并发在hadoop集群上。 Map负责“分”,就是把复杂 阅读全文
posted @ 2019-10-10 08:36 单词计数程序大牛 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 1. MapReduce执行流程详解 首先读取数据的组件InputFormat(默认是TextInputFormat)会通过getSplits方法对输入目录中的文件进行逻辑切片得到splits,默认有多少个splits就有多少个maptask,split默认是与block块一对一关系。 输入文件切成 阅读全文
posted @ 2019-10-10 08:36 单词计数程序大牛 阅读(213) 评论(0) 推荐(0) 编辑
摘要: Flume是Cloudera提供的一个高可用的,高可靠的,分布式海量日志采集,聚合的传输软件 2. Flume架构 3.Flume的运行机制 Flume的核心角色是agent,本身是一个java进程,一般运行在日志收集节点,每个agent有以下三个组件 source:采集源数据,跟数据源对接,获取数 阅读全文
posted @ 2019-10-10 08:34 单词计数程序大牛 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 1. HDFS的元数据管理 按照类型分为:文件,目录自身属性的信息。文件记录的信息,储存相关的信息。datanode的信息。 按照形式分为:内存元数据,元数据文件,分别存在内存和磁盘上面。 HDFS磁盘上元数据分为两类,用于持久化存储: fsimage镜像文件:是元数据的一个持久化的检查点,包含ha 阅读全文
posted @ 2019-10-10 08:34 单词计数程序大牛 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 1. yarn白话介绍 hadoop yarn是一种新的hadoop资源管理器,它是一个通用的资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。 可以吧yarn理解为一个分布式操作系统平台,而mapreduce等运算程序相当于运行于操作系统之上的应用程序,yarn为这些程序提供运算所需要 阅读全文
posted @ 2019-10-10 08:33 单词计数程序大牛 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 牛客网连接:https://www.nowcoder.com/practice/8ee967e43c2c4ec193b040ea7fbb10b8?tpId=13&tqId=11164&tPage=1&rp=1&ru=/ta/coding-interviews&qru=/ta/coding-inter 阅读全文
posted @ 2019-10-09 00:16 单词计数程序大牛 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 题目描述: 输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历的结果。如果是则输出Yes,否则输出No。假设输入的数组的任意两个数字都互不相同。 思路: 采用分治法,先找到根节点,再根据根节点找到左右子树序列,在判断左右子树序列是否满足二叉树的后序遍历。 由题意可知,后序遍历序列最后一个元数就 阅读全文
posted @ 2019-10-05 18:21 单词计数程序大牛 阅读(142) 评论(0) 推荐(0) 编辑