咖啡猫

导航

2014年11月7日 #

MapReduce数据流(一)

摘要: 在上一篇文章中我们讲解了一个基本的MapReduce作业由那些基本组件组成,从高层来看,所有的组件在一起工作时如下图所示:图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件,这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点... 阅读全文

posted @ 2014-11-07 23:03 咖啡猫1292 阅读(254) 评论(0) 推荐(0) 编辑

MapReduce数据流(二)

摘要: 输入块(InputSplit):一个输入块描述了构成MapReduce程序中单个map任务的一个单元。把一个MapReduce程序应用到一个数据集上,即是指一个作业,会由几个(也可能几百个)任务组成。Map任务可能会读取整个文件,但一般是读取文件的一部分。默认情况下,FileInputFormat... 阅读全文

posted @ 2014-11-07 23:02 咖啡猫1292 阅读(120) 评论(0) 推荐(0) 编辑

MapReduce 重要组件——Recordreader组件

摘要: (1)以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类;(2)系统默认的RecordReader是LineRecordReader,如TextInputFormat;而SequenceFileInputFormat的RecordReader是SequenceFile... 阅读全文

posted @ 2014-11-07 23:01 咖啡猫1292 阅读(422) 评论(0) 推荐(0) 编辑

关于Mapper、Reducer的个人总结(转)

摘要: Mapper的处理过程:1.1. InputFormat 产生 InputSplit,并且调用RecordReader将这些逻辑单元(InputSplit)转化为map task的输入。其中InputSplit是map task处理的最小输入单元的逻辑表示。1.2. 在客户端代码中调用Job类来设置... 阅读全文

posted @ 2014-11-07 19:55 咖啡猫1292 阅读(401) 评论(0) 推荐(0) 编辑

C# TCP实现多个客户端与服务端 数据 与 文件的传输

摘要: C#菜鸟做这个东东竟然花了快三天的时间了,真是菜,菜,菜~~~下面是我用C#写的 一个简单的TCP通信,主要的功能有:(1) 多个客户端与服务器间的数据交流(2)可以实现群发的功能(3)客户端与服务端可以进行文件的传输主要用到的知识: TCP里的 socket 、、、 多线程 Thread 、、、下... 阅读全文

posted @ 2014-11-07 15:00 咖啡猫1292 阅读(1164) 评论(0) 推荐(0) 编辑