随笔分类 - hadoop
摘要:目录 1、MapReduce定义 2、MapReduce来源 3、MapReduce特点 4、MapReduce实例 5、MapReduce编程模型 6、MapReduce 内部逻辑 7、MapReduce架构 8、MapReduce框架的容错性 9、MapReduce资源组织方式 1、MapRed
阅读全文
摘要:1、背景 在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M), 然而每一个存储在HDFS中的文件、目录和块都映射为一个对象,存储在NameNode服务器内存中,通常占用150个字节。 如果有1千万个文件,就需要消耗大约3G的内存空间。如
阅读全文
摘要:Hadoop 中,并没有使用Java自带的基本类型类(Integer、Float等),而是使用自己开发的类。Hadoop 自带有很多序列化类型,大致分为以下两种: 实现了WritableComparable接口的类 实现了WritableComparable接口的类 基础:BooleanWritab
阅读全文
摘要:目录 1、为什么要序列化? 2、什么是序列化? 3、为什么不用Java的序列化? 4、为什么序列化对Hadoop很重要? 5、Hadoop中定义哪些序列化相关的接口呢? 6、Hadoop 自定义Writable 接口 1、为什么要序列化? 一般来说,"活的"对象只存在内存里,关机断电就没有了。而且"
阅读全文
摘要:在本地文件上传至HDFS过程中,很多情况下一个目录包含很多个文件,而我们需要对这些文件进行筛选,选出符合我们要求的文件,上传至HDFS。这时就需要我们用到文件模式。 在项目开始前,我们先掌握文件模式 1、文件模式 在某个单一操作中处理一系列文件是很常见的。例如一个日志处理的MapReduce作业可能
阅读全文
摘要:HDFS设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量文件(可以存储TB级的文件)。HDFS将这些文件分割之后,存储在不同的DataNode上, HDFS 提供了两种访问接口:Shell接口和Java API 接口,对HDFS里面的文件进行操作,具体每个Block放在哪台DataN
阅读全文
摘要:HDFS设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量文件(可以存储TB级的文件)。HDFS将这些文件分割之后,存储在不同的DataNode上, HDFS 提供了两种访问接口:Shell接口和Java API 接口,对HDFS里面的文件进行操作,具体每个Block放在哪台DataN
阅读全文
摘要:目录 HDFS 是做什么的 HDFS 从何而来 为什么选择 HDFS 存储数据 HDFS 如何存储数据 HDFS 如何读取文件 HDFS 如何写入文件 HDFS 副本存放策略 Hadoop2.x新特性 HDFS 是做什么的 HDFS 从何而来 为什么选择 HDFS 存储数据 HDFS 如何存储数据
阅读全文
摘要:1、项目需求 一本英文书籍包含成千上万个单词,现在我们需要在大量的单词中,找出相同字母组成的所有单词 2、数据集 下面是一本英文书籍截取的一部分单词内容(书籍内容是随意写的,主要目的是实现这种需求) 3、分析 1、先看如下图 在上图中,cat、act是相同字母组成的单词,tar、rat也是相同字母组
阅读全文
摘要:1.薪资数据集 我们要写一个薪资统计程序,统计数据来自于互联网招聘hadoop岗位的招聘网站,这些数据是按照记录方式存储的,因此非常适合使用 MapReduce 程序来统计。 2.数据格式 我们使用的数据来自互联网招聘网站,其中每一行是一条记录。 下面我们展示一行数据,其中重要的字段被突出显示。该行
阅读全文
摘要:气象数据集 我们要写一个气象数据挖掘的程序。气象数据是通过分布在美国各地区的很多气象传感器每隔一小时进行收集,这些数据是半结构化数据且是按照记录方式存储的,因此非常适合使用 MapReduce 程序来统计分析。 数据格式 我们使用的数据来自美国国家气候数据中心、美国国家海洋和大气管理局(简称 NCD
阅读全文
摘要:在安装JDK之前,请确认系统是32还是64,根据系统版本,选择JDK版本、Hadoop版本 下面是以在CentOS-6.5-x86_64系统上安装为例 安装前准备 防火墙关闭后的效果如下 具体操作,请查看"XX/XX/XX/ notes/防火墙.docx" JDK安装 上传JDK 使用rz命令,进行
阅读全文