hadoop - 随笔分类(第3页) - 刘超★ljc

初步掌握MapReduce的架构及原理

摘要：目录 1、MapReduce定义 2、MapReduce来源 3、MapReduce特点 4、MapReduce实例 5、MapReduce编程模型 6、MapReduce 内部逻辑 7、MapReduce架构 8、MapReduce框架的容错性 9、MapReduce资源组织方式 1、MapRed 阅读全文

posted @ 2016-04-19 22:40 刘超★ljc 阅读(12502) 评论(0) 推荐(4)

hadoop小文件合并

摘要：1、背景在实际项目中，输入数据往往是由许多小文件组成，这里的小文件是指小于HDFS系统Block大小的文件（默认128M），然而每一个存储在HDFS中的文件、目录和块都映射为一个对象，存储在NameNode服务器内存中，通常占用150个字节。如果有1千万个文件，就需要消耗大约3G的内存空间。如阅读全文

posted @ 2016-04-18 22:30 刘超★ljc 阅读(4965) 评论(0) 推荐(3)

hadoop自带的writable类型

摘要：Hadoop 中，并没有使用Java自带的基本类型类(Integer、Float等)，而是使用自己开发的类。Hadoop 自带有很多序列化类型，大致分为以下两种：实现了WritableComparable接口的类实现了WritableComparable接口的类基础：BooleanWritab 阅读全文

posted @ 2016-04-17 10:36 刘超★ljc 阅读(2180) 评论(0) 推荐(1)

hadoop文件的序列化

摘要：目录 1、为什么要序列化？ 2、什么是序列化？ 3、为什么不用Java的序列化？ 4、为什么序列化对Hadoop很重要？ 5、Hadoop中定义哪些序列化相关的接口呢？ 6、Hadoop 自定义Writable 接口 1、为什么要序列化？一般来说，"活的"对象只存在内存里，关机断电就没有了。而且" 阅读全文

posted @ 2016-04-17 10:01 刘超★ljc 阅读(1758) 评论(0) 推荐(2)

利用Java API通过路径过滤上传多文件至HDFS

摘要：在本地文件上传至HDFS过程中，很多情况下一个目录包含很多个文件，而我们需要对这些文件进行筛选，选出符合我们要求的文件，上传至HDFS。这时就需要我们用到文件模式。在项目开始前，我们先掌握文件模式 1、文件模式在某个单一操作中处理一系列文件是很常见的。例如一个日志处理的MapReduce作业可能阅读全文

posted @ 2016-04-16 10:18 刘超★ljc 阅读(3229) 评论(3) 推荐(1)

熟练掌握HDFS的Java API接口访问

摘要：HDFS设计的主要目的是对海量数据进行存储，也就是说在其上能够存储很大量文件（可以存储TB级的文件）。HDFS将这些文件分割之后，存储在不同的DataNode上， HDFS 提供了两种访问接口：Shell接口和Java API 接口，对HDFS里面的文件进行操作，具体每个Block放在哪台DataN 阅读全文

posted @ 2016-04-15 19:24 刘超★ljc 阅读(12705) 评论(0) 推荐(2)

熟练掌握HDFS的Shell访问

摘要：HDFS设计的主要目的是对海量数据进行存储，也就是说在其上能够存储很大量文件（可以存储TB级的文件）。HDFS将这些文件分割之后，存储在不同的DataNode上， HDFS 提供了两种访问接口：Shell接口和Java API 接口，对HDFS里面的文件进行操作，具体每个Block放在哪台DataN 阅读全文

posted @ 2016-04-13 08:53 刘超★ljc 阅读(7034) 评论(1) 推荐(2)

初步掌握HDFS的架构及原理

摘要：目录 HDFS 是做什么的 HDFS 从何而来为什么选择 HDFS 存储数据 HDFS 如何存储数据 HDFS 如何读取文件 HDFS 如何写入文件 HDFS 副本存放策略 Hadoop2.x新特性 HDFS 是做什么的 HDFS 从何而来为什么选择 HDFS 存储数据 HDFS 如何存储数据阅读全文

posted @ 2016-04-10 20:00 刘超★ljc 阅读(61202) 评论(3) 推荐(21)

MapReduce实战：查找相同字母组成的单词

摘要：1、项目需求一本英文书籍包含成千上万个单词，现在我们需要在大量的单词中，找出相同字母组成的所有单词 2、数据集下面是一本英文书籍截取的一部分单词内容（书籍内容是随意写的，主要目的是实现这种需求） 3、分析 1、先看如下图在上图中，cat、act是相同字母组成的单词，tar、rat也是相同字母组阅读全文

posted @ 2016-04-09 21:54 刘超★ljc 阅读(3641) 评论(1) 推荐(3)

MapReduce实战：统计不同工作年限的薪资水平

摘要：1.薪资数据集我们要写一个薪资统计程序，统计数据来自于互联网招聘hadoop岗位的招聘网站，这些数据是按照记录方式存储的，因此非常适合使用 MapReduce 程序来统计。 2.数据格式我们使用的数据来自互联网招聘网站，其中每一行是一条记录。下面我们展示一行数据，其中重要的字段被突出显示。该行阅读全文

posted @ 2016-04-08 10:56 刘超★ljc 阅读(3601) 评论(3) 推荐(3)

mapreduce实战：统计美国各个气象站30年来的平均气温项目分析

摘要：气象数据集我们要写一个气象数据挖掘的程序。气象数据是通过分布在美国各地区的很多气象传感器每隔一小时进行收集，这些数据是半结构化数据且是按照记录方式存储的，因此非常适合使用 MapReduce 程序来统计分析。数据格式我们使用的数据来自美国国家气候数据中心、美国国家海洋和大气管理局（简称 NCD 阅读全文

posted @ 2016-04-07 10:33 刘超★ljc 阅读(3268) 评论(0) 推荐(2)

hadoop2.2 伪分布式环境

摘要：在安装JDK之前，请确认系统是32还是64，根据系统版本，选择JDK版本、Hadoop版本下面是以在CentOS-6.5-x86_64系统上安装为例安装前准备防火墙关闭后的效果如下具体操作，请查看"XX/XX/XX/ notes/防火墙.docx" JDK安装上传JDK 使用rz命令，进行阅读全文

posted @ 2016-04-07 10:20 刘超★ljc 阅读(542) 评论(0) 推荐(0)

刘超

随笔分类 - hadoop

公告