摘要:
Spark简介 视频教程: 1、优酷 2、YouTube 简介: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出 阅读全文
摘要:
Http状态码表示Http协议所返回的响应的状态。比如客户端向服务器发送请求,如果成功的获得请求的资源,则返回的状态码为200,表示相应成功。如果请求的资源不存在,则通常返回404错误。 Http状态码通常分为5种类型,分别由1~5五个数字开头,由3位整数组成。1xx通常用作实验用途。这一章节主要介 阅读全文
摘要:
一个Mapreduce作业是通过JobClient向master的JobTasker提交的(JobTasker一直在等待JobClient通过RPC协议提交作业),JobTasker接到JobClient的请求后把其加入作业队列中。 DataNode节点的TaskTracker一直通过RPC(... 阅读全文
摘要:
自定义输出数据的格式、输出路径、输出文件名输出格式OutputFormat1、OutputFormat 抽象类2、FileOutputFormat 文件输出格式3、TextOutputFormat 文本格式的文件输出格式4、SequenceFileOutputFormat 普通序列文件输出格式5、S... 阅读全文
摘要:
"平均成绩"主要目的还是在重温经典"WordCount"例子,可以说是在基础上的微变化版对输入文件中数据进行就算学生平均成绩。输入文件中的每行内容均为一个学生的姓名和他相应的成绩,如果有多门学科,则每门学科为一个文件。要求在输出中每行有两个间隔的数据,其中,第一个代表学生的姓名,第二个代表其平均成绩... 阅读全文
摘要:
"数据排序"是许多实际任务执行时要完成的第一项工作,比如学生成绩评比、数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操作打好基础。对输入文件中数据进行排序。输入文件中的每行内容均为一个数字,即一个数据。要求在输出中每行有两个间隔的数字,其中,第一个代表原始数据在... 阅读全文
摘要:
数据准备route_logApr2311:49:54hostapd:wlan0:STA14:7d:c5:9e:fb:84Apr2311:49:52hostapd:wlan0:STA74:e5:0b:04:28:f2Apr2311:49:50hostapd:wlan0:STAcc:af:78:cc:d... 阅读全文