YouxiBug

2016年3月15日

021_在Eclipse Indigo中安装插件hadoop-eclipse-plugin-1.2.1.jar，直接运行wordcount程序

摘要： Eclipse Idigo、JDK1.7-32bit、hadoop1.2.1、hadoop-eclipse-plugin-1.2.1.jar（自己网上下载） 1）将hadoop-eclipse-plugin-1.2.1.jar放到eclipse安装目录的plugins文件夹中，重新启动eclipse 阅读全文

posted @ 2016-03-15 11:46 YouxiBug 阅读(368) 评论(0) 推荐(0) 编辑

020_自己编写的wordcount程序在hadoop上面运行，不使用插件hadoop-eclipse-plugin-1.2.1.jar

摘要： 1）在Eclipse中编写MapReduce程序 2）打包成jar包 3）使用FTP工具，上传jar到hadoop 集群环境 4）运行说明：该程序运行完被我删除了，具体添加哪些包不太清楚，但是最保险的是把有可能用到的都添加进去，添加情况如下： 1）创建工程、类 2）添加文件夹conf、lib，然后阅读全文

posted @ 2016-03-15 11:02 YouxiBug 阅读(305) 评论(0) 推荐(0) 编辑

019_Map Task数目的确定和Reduce Task数目的指定

摘要：注意标题：Map Task数目的确定和Reduce Task数目的指定————自然得到结论，前者是后者决定的，后者是人为指定的。查看源码可以很容易看懂 1）MapReduce从HDFS中分割读取Split文件，通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计阅读全文

posted @ 2016-03-15 10:21 YouxiBug 阅读(3459) 评论(0) 推荐(0) 编辑

018_Reduce Shuffle Phase详细流程分析

摘要： 1、 Copy过程，简单地拉取数据。Reduce进程启动一些数据copy线程(Fetcher)，通过HTTP方式请求map task所在的TaskTracker获取map task的输出文件。因为map task早已结束，这些文件就归TaskTracker管理在本地磁盘中。 2、Merge阶段。这里阅读全文

posted @ 2016-03-15 10:03 YouxiBug 阅读(253) 评论(0) 推荐(0) 编辑

017_Map Shuffle Phase详细流程分析

摘要：每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘，当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并，生成最终的正式输出文件，然后等待reduce task来拉数据。 1、在map t 阅读全文

posted @ 2016-03-15 09:48 YouxiBug 阅读(246) 评论(0) 推荐(0) 编辑

016_笼统概述MapReduce执行流程结合wordcount程序

摘要：数据传输<key,value> File--> <key,value> -->map(key,value) --> mapResult<key,value> --> partition<key,value> --> sort<key> --> combiner<key 阅读全文

posted @ 2016-03-15 09:28 YouxiBug 阅读(204) 评论(0) 推荐(0) 编辑

015_[小插曲]看黄老师《炼数成金Hadoop应用开发实战案例》笔记

摘要： 1、大数据金字塔结构 Data Source-->Data Warehouses/Data Marts-->data exploration-->Data Mining-->Data Presentations-->Making Decisions2、从业职位业务人员、ETL工程师、数据阅读全文

posted @ 2016-03-15 09:06 YouxiBug 阅读(353) 评论(0) 推荐(0) 编辑

2016年3月8日

014_HDFS存储架构、架构可靠性分析、副本放置策略、各组件之间的关系

摘要： 1.HDFS存储架构 (1)HDFS 架构 —— 文件 1)文件切分成块（默认大小64M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定（默认3）2)NameNode 是主节点，存储文件的元数据如文件名，文件目录结构，文件属性（生成时间,副本数,文件权限），以及每个文件的阅读全文

posted @ 2016-03-08 22:46 YouxiBug 阅读(323) 评论(0) 推荐(0) 编辑

013_HDFS文件合并上传putmarge功能（类似于hadoop fs -getmerge）

摘要：场景合并小文件，存放到HDFS上。例如，当需要分析来自许多服务器的Apache日志时，各个日志文件可能比较小，然而Hadoop更合适处理大文件，效率会更高，此时就需要合并分散的文件。如果先将所有文件合并，在复制上传到HDFS上的话，需要占用本地计算机的大量磁盘空间。采取在向HDFS复制上传文件的过阅读全文

posted @ 2016-03-08 11:59 YouxiBug 阅读(3193) 评论(0) 推荐(0) 编辑

012_Eclipse中使用 HDFS URL API 事例介绍

摘要：本事例其实和使用hdfs FileSystem API差不多，FileSystem API也是通过解释成URL在hdfs上面执行的，性质相同，但是实际中用的fFileSystem会多一点，源码如下： package org.dragon.hadoop.hdfs; import java.io.IO 阅读全文

posted @ 2016-03-08 11:43 YouxiBug 阅读(257) 评论(0) 推荐(0) 编辑

No picture you say J8 a

公告