04 2016 档案

摘要:前面我们所写mr程序的输入都是文本文件,但真正工作中我们难免会碰到需要处理其它格式的情况,下面以处理excel数据为例 1、项目需求 有刘超与家庭成员之间的通话记录一份,存储在Excel文件中,如下面的数据集所示。我们需要基于这份数据,统计每个月每个家庭成员给自己打电话的次数,并按月份输出到不同文件 阅读全文
posted @ 2016-04-28 19:40 刘超★ljc 阅读(2031) 评论(1) 推荐(2) 编辑
摘要:文件是 MapReduce 任务数据的初始存储地。正常情况下,输入文件一般是存储在 HDFS 里面。这些文件的格式可以是任意的:我们可以使用基于行的日志文件, 也可以使用二进制格式,多行输入记录或者其它一些格式。这些文件一般会很大,达到数十GB,甚至更大。那么 MapReduce 是如何读取这些数据 阅读全文
posted @ 2016-04-22 21:52 刘超★ljc 阅读(1573) 评论(0) 推荐(2) 编辑
摘要:随着 MapReduce 的流行,其开源实现 Hadoop 也变得越来越受推崇。在 Hadoop 系统中,有一个组件非常重要,那就是调度器。调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器 1、调度器基本作用 Hadoop调度器的基本作用就是根据节点资源(slot)使用情况和作业的 阅读全文
posted @ 2016-04-21 20:07 刘超★ljc 阅读(6009) 评论(1) 推荐(2) 编辑
摘要:Hadoop中的MapReduce是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个机器组成的大型集群上,并且以一种可靠容错并行处理TB级别的数据集。 一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由Map任务并行处理它们。框架会对map函数的输出先 阅读全文
posted @ 2016-04-20 14:21 刘超★ljc 阅读(2043) 评论(0) 推荐(1) 编辑
摘要:目录 1、MapReduce定义 2、MapReduce来源 3、MapReduce特点 4、MapReduce实例 5、MapReduce编程模型 6、MapReduce 内部逻辑 7、MapReduce架构 8、MapReduce框架的容错性 9、MapReduce资源组织方式 1、MapRed 阅读全文
posted @ 2016-04-19 22:40 刘超★ljc 阅读(12324) 评论(0) 推荐(4) 编辑
摘要:1、背景 在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M), 然而每一个存储在HDFS中的文件、目录和块都映射为一个对象,存储在NameNode服务器内存中,通常占用150个字节。 如果有1千万个文件,就需要消耗大约3G的内存空间。如 阅读全文
posted @ 2016-04-18 22:30 刘超★ljc 阅读(4910) 评论(0) 推荐(3) 编辑
摘要:Hadoop 中,并没有使用Java自带的基本类型类(Integer、Float等),而是使用自己开发的类。Hadoop 自带有很多序列化类型,大致分为以下两种: 实现了WritableComparable接口的类 实现了WritableComparable接口的类 基础:BooleanWritab 阅读全文
posted @ 2016-04-17 10:36 刘超★ljc 阅读(2147) 评论(0) 推荐(1) 编辑
摘要:目录 1、为什么要序列化? 2、什么是序列化? 3、为什么不用Java的序列化? 4、为什么序列化对Hadoop很重要? 5、Hadoop中定义哪些序列化相关的接口呢? 6、Hadoop 自定义Writable 接口 1、为什么要序列化? 一般来说,"活的"对象只存在内存里,关机断电就没有了。而且" 阅读全文
posted @ 2016-04-17 10:01 刘超★ljc 阅读(1718) 评论(0) 推荐(2) 编辑
摘要:在本地文件上传至HDFS过程中,很多情况下一个目录包含很多个文件,而我们需要对这些文件进行筛选,选出符合我们要求的文件,上传至HDFS。这时就需要我们用到文件模式。 在项目开始前,我们先掌握文件模式 1、文件模式 在某个单一操作中处理一系列文件是很常见的。例如一个日志处理的MapReduce作业可能 阅读全文
posted @ 2016-04-16 10:18 刘超★ljc 阅读(3168) 评论(3) 推荐(1) 编辑
摘要:HDFS设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量文件(可以存储TB级的文件)。HDFS将这些文件分割之后,存储在不同的DataNode上, HDFS 提供了两种访问接口:Shell接口和Java API 接口,对HDFS里面的文件进行操作,具体每个Block放在哪台DataN 阅读全文
posted @ 2016-04-15 19:24 刘超★ljc 阅读(12645) 评论(0) 推荐(2) 编辑
摘要:HDFS设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量文件(可以存储TB级的文件)。HDFS将这些文件分割之后,存储在不同的DataNode上, HDFS 提供了两种访问接口:Shell接口和Java API 接口,对HDFS里面的文件进行操作,具体每个Block放在哪台DataN 阅读全文
posted @ 2016-04-13 08:53 刘超★ljc 阅读(6974) 评论(1) 推荐(2) 编辑
摘要:目录 HDFS 是做什么的 HDFS 从何而来 为什么选择 HDFS 存储数据 HDFS 如何存储数据 HDFS 如何读取文件 HDFS 如何写入文件 HDFS 副本存放策略 Hadoop2.x新特性 HDFS 是做什么的 HDFS 从何而来 为什么选择 HDFS 存储数据 HDFS 如何存储数据 阅读全文
posted @ 2016-04-10 20:00 刘超★ljc 阅读(60933) 评论(3) 推荐(21) 编辑
摘要:1、项目需求 一本英文书籍包含成千上万个单词,现在我们需要在大量的单词中,找出相同字母组成的所有单词 2、数据集 下面是一本英文书籍截取的一部分单词内容(书籍内容是随意写的,主要目的是实现这种需求) 3、分析 1、先看如下图 在上图中,cat、act是相同字母组成的单词,tar、rat也是相同字母组 阅读全文
posted @ 2016-04-09 21:54 刘超★ljc 阅读(3569) 评论(1) 推荐(3) 编辑
摘要:1.薪资数据集 我们要写一个薪资统计程序,统计数据来自于互联网招聘hadoop岗位的招聘网站,这些数据是按照记录方式存储的,因此非常适合使用 MapReduce 程序来统计。 2.数据格式 我们使用的数据来自互联网招聘网站,其中每一行是一条记录。 下面我们展示一行数据,其中重要的字段被突出显示。该行 阅读全文
posted @ 2016-04-08 10:56 刘超★ljc 阅读(3558) 评论(3) 推荐(3) 编辑
摘要:气象数据集 我们要写一个气象数据挖掘的程序。气象数据是通过分布在美国各地区的很多气象传感器每隔一小时进行收集,这些数据是半结构化数据且是按照记录方式存储的,因此非常适合使用 MapReduce 程序来统计分析。 数据格式 我们使用的数据来自美国国家气候数据中心、美国国家海洋和大气管理局(简称 NCD 阅读全文
posted @ 2016-04-07 10:33 刘超★ljc 阅读(3213) 评论(0) 推荐(2) 编辑
摘要:在安装JDK之前,请确认系统是32还是64,根据系统版本,选择JDK版本、Hadoop版本 下面是以在CentOS-6.5-x86_64系统上安装为例 安装前准备 防火墙关闭后的效果如下 具体操作,请查看"XX/XX/XX/ notes/防火墙.docx" JDK安装 上传JDK 使用rz命令,进行 阅读全文
posted @ 2016-04-07 10:20 刘超★ljc 阅读(525) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示