Striver。 - 博客园

2019年3月19日

摘要： Hive Hive概述 Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现MapReduce统计，不必开发专门的MapReduce应用，十阅读全文

posted @ 2019-03-19 12:35 Striver。阅读(231) 评论(0) 推荐(0)

Zookeeper

摘要： Zookeeper 概述 Zookeeper是一个分布式的协调服务框架 Zookeeper可以解决分布式环境常见的问题集群管理、统一命名服务信息配置管理分布式锁 Zookeeper要解决的问题 zookeeper旨在在分布式应用中，提供可靠的、可扩展的、分布式的、可配置的协调机制来管理整个集群阅读全文

posted @ 2019-03-19 12:31 Striver。阅读(246) 评论(0) 推荐(0)

数据调优与压缩机制

摘要： MR调优策略 1.减少数据的传输量 2.尽量使用内存 3.减少磁盘I/O的次数 4.增大任务并行数 5.除此之外还有根据自己集群及网络的实际情况来调优。 Map Side Join--解决join时数据倾斜问题如何解决数据倾斜是一个常谈的话题，不同的框架有不同的处理方案，如果是MR框架的话，我们可阅读全文

posted @ 2019-03-19 12:28 Striver。阅读(210) 评论(0) 推荐(0)

Shuffle（洗牌）

摘要： Shuffle（洗牌）图 map 1.Map Task的输出k v，一开始会进入溢写缓冲区中，对数据做处理，比如分区、排序等操作。 2.有几个Map Task，就有几个对应的溢写缓冲区(分区) 3.溢写缓冲区默认是100MB，溢写阈值：0.8。（都可通过配置文件调节） 4.当缓冲区中的数据达到溢写阅读全文

posted @ 2019-03-19 12:27 Striver。阅读(483) 评论(0) 推荐(0)

job任务执行流程与分区机制

摘要： job任务执行流程 1.run job阶段 ①收集整个job的环境信息（比如通过conf设定的参数，还有mapperClass,reducerClass,以及输出kv类型） ②会计算当前job的切片数量（切片不同等切块，用FileSplit：path start length） ③检测环境信息的合法阅读全文

posted @ 2019-03-19 12:26 Striver。阅读(836) 评论(0) 推荐(0)

Yarn 资源调度框架

摘要： Yarn 资源调度框架实现对资源的细粒度封装（cpu，内存，带宽）此外，还可以通过yarn协调多种不同计算框架（MR，Spark）概述 Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器阅读全文

posted @ 2019-03-19 12:25 Striver。阅读(315) 评论(0) 推荐(0)

2019年2月19日

MapReducer

摘要： MapReducer 概述是一个分布式的计算框架（编程模型），最初由由谷歌的工程师开发，基于GFS的分布式计算框架。后来Cutting根据《Google Mapreduce》,设计了基于HDFS的Mapreduce分布式计算框架。 MR框架对于程序员的最大意义在于，不需要掌握分布式计算编程，不需要阅读全文

posted @ 2019-02-19 12:25 Striver。阅读(182) 评论(0) 推荐(0)

2019年1月22日

java基础-2

摘要： java基础-2 面向对象定义面向对象是一种思维方式，相对于面向过程面向过程注重流程中的每一步，清楚流程中的每一个细节面向对象注重的是对象，有了对象就有对象的一届自己动手做--面向过程，找其他人做面向对象面向对象和面向过程各有优劣，复杂事务面向对象，简单事务面向过程面向对象基于面向过程阅读全文

posted @ 2019-01-22 20:36 Striver。阅读(281) 评论(0) 推荐(0)

2019年1月11日

java基础-1

摘要： <!doctype html>java基础1 java基础 1995由SUN公司提供的，互联网首选的语言，是大数据的基本语言。简单/安全/完全面向对象/跨平台跨平台基于JVM。针对不同的操作系统开发了不同的虚拟机，将java程序交给虚拟机，虚拟机转化为当前操作系统所能理解的指令，然后操作系统再阅读全文

posted @ 2019-01-11 11:13 Striver。阅读(196) 评论(0) 推荐(0)

2018年12月20日

Hadoop--HDFS

摘要： Hadoop--HDFS Edits和Fsimage机制详解概述 fsimage镜像文件包含了整个HDFS文件系统的所有目录和文件的indoe（节点）信息，比如：/node01/node，会记录每个节点nodeid，以及节点之间父子路径。以及文件名，文件大小，文件被切成几块，每个数据块描述信息、阅读全文

posted @ 2018-12-20 13:48 Striver。阅读(485) 评论(0) 推荐(0)

木南。

独学而无友，则孤陋而寡闻。

公告