上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页
摘要: Eclipse Idigo、JDK1.7-32bit、hadoop1.2.1、hadoop-eclipse-plugin-1.2.1.jar(自己网上下载) 1)将hadoop-eclipse-plugin-1.2.1.jar放到eclipse安装目录的plugins文件夹中,重新启动eclipse 阅读全文
posted @ 2016-03-15 11:46 YouxiBug 阅读(368) 评论(0) 推荐(0) 编辑
摘要: 1)在Eclipse中编写MapReduce程序 2)打包成jar包 3)使用FTP工具,上传jar到hadoop 集群环境 4)运行 说明:该程序运行完被我删除了,具体添加哪些包不太清楚,但是最保险的是把有可能用到的都添加进去,添加情况如下: 1)创建工程、类 2)添加文件夹conf、lib,然后 阅读全文
posted @ 2016-03-15 11:02 YouxiBug 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 注意标题:Map Task数目的确定和Reduce Task数目的指定————自然得到结论,前者是后者决定的,后者是人为指定的。查看源码可以很容易看懂 1)MapReduce从HDFS中分割读取Split文件,通过Inputformat交给Mapper来处理。Split是MapReduce中最小的计 阅读全文
posted @ 2016-03-15 10:21 YouxiBug 阅读(3459) 评论(0) 推荐(0) 编辑
摘要: 1、 Copy过程,简单地拉取数据。Reduce进程启动一些数据copy线程(Fetcher),通过HTTP方式请求map task所在的TaskTracker获取map task的输出文件。因为map task早已结束,这些文件就归TaskTracker管理在本地磁盘中。 2、Merge阶段。这里 阅读全文
posted @ 2016-03-15 10:03 YouxiBug 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘,当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并,生成最终的正式输出文件,然后等待reduce task来拉数据。 1、 在map t 阅读全文
posted @ 2016-03-15 09:48 YouxiBug 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 数据传输<key,value>     File-->  <key,value>  -->map(key,value)  --> mapResult<key,value>  -->  partition<key,value>     -->  sort<key>  -->  combiner<key 阅读全文
posted @ 2016-03-15 09:28 YouxiBug 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 1、大数据金字塔结构    Data Source-->Data Warehouses/Data Marts-->data exploration-->Data Mining-->Data Presentations-->Making Decisions2、从业职位   业务人员、ETL工程师、数据 阅读全文
posted @ 2016-03-15 09:06 YouxiBug 阅读(353) 评论(0) 推荐(0) 编辑
摘要: 1.HDFS存储架构 (1)HDFS 架构 —— 文件 1)文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)2)NameNode 是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的 阅读全文
posted @ 2016-03-08 22:46 YouxiBug 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 场景 合并小文件,存放到HDFS上。例如,当需要分析来自许多服务器的Apache日志时,各个日志文件可能比较小,然而Hadoop更合适处理大文件,效率会更高,此时就需要合并分散的文件。如果先将所有文件合并,在复制上传到HDFS上的话,需要占用本地计算机的大量磁盘空间。采取在向HDFS复制上传文件的过 阅读全文
posted @ 2016-03-08 11:59 YouxiBug 阅读(3193) 评论(0) 推荐(0) 编辑
摘要: 本事例其实和使用hdfs FileSystem API差不多,FileSystem API也是通过解释成URL在hdfs上面执行的,性质相同,但是实际中用 的fFileSystem会多一点,源码如下: package org.dragon.hadoop.hdfs; import java.io.IO 阅读全文
posted @ 2016-03-08 11:43 YouxiBug 阅读(257) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 16 下一页