2019 年 12月 26 日随笔档案 - jimshi

2019年12月26日

摘要：其实我们可以从word count这个实例来理解MapReduce。 MapReduce大体上分为六个步骤： input, split, map, shuffle, reduce, output。细节描述如下：输入(input)：如给定一个文档，包含如下四行： Hello Java Hello 阅读全文

posted @ 2019-12-26 15:24 jimshi 阅读(743) 评论(0) 推荐(0) 编辑

Spark和Hadoop的区别和比较

摘要：一、两者的各方面比较二、Spark相对Hadoop的优越性三、三大分布式计算系统 Spark，是分布式计算平台，是一个用scala语言编写的计算框架，基于内存的快速、通用、可扩展的大数据分析引擎 Hadoop，是分布式管理、存储、计算的生态系统；包括HDFS（存储）、MapReduce（计算）阅读全文

posted @ 2019-12-26 14:40 jimshi 阅读(5094) 评论(0) 推荐(0) 编辑

用通俗易懂的大白话讲解MapReduce原理

摘要： Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce，分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等.这阅读全文

posted @ 2019-12-26 13:55 jimshi 阅读(8073) 评论(0) 推荐(0) 编辑

YARN资源管理器(Resource Manager、Node Manager、Application Master 、Container)

摘要： HADOOP 1.0存在的问题HDFS1.0存在的问题： Namenode单点故障：集群的文件都是以“块(block)”的形式存储，并且为了容错，每个block有多个副本。namenode需要记录整个集群所有block及其副本的元数据信息（fsimage：文件目录结构，block和文件的映射关系等）阅读全文

posted @ 2019-12-26 13:40 jimshi 阅读(1113) 评论(0) 推荐(0) 编辑

MapReduce介绍

摘要：场景：比如有海量的文本文件，如订单，页面点击事件的记录，量特别大，单机版很难搞定。怎样解决海量数据的计算？求和： 1 + 5 +7 + 3 +4 +9 +3 + 5 +6 MapReduce产生背景如果让你统计日志里面的出现的某个URL的总次数，让你自己去写个单机版的程序，写个逻辑：无非就是读这阅读全文

posted @ 2019-12-26 09:58 jimshi 阅读(209) 评论(0) 推荐(0) 编辑

逆水行舟，不进则退

公告