2017年2月4日

spark

摘要: /* * spark算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 * spark算子的作用: * 1.输入:在spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入scala集合或数据)输入spark, * 数据进入spark运行时数据空间,转化为s... 阅读全文

posted @ 2017-02-04 17:11 sunyaxue 阅读(167) 评论(0) 推荐(0) 编辑

scala JobConf实现

摘要: package first_mapreduce_scala import org.apache.hadoop.mapreduce.Job import java.util._ import org.apache.hadoop.fs.Path import org.apache.hadoop.conf._ import org.apache.hadoop.io._ import org.ap... 阅读全文

posted @ 2017-02-04 15:03 sunyaxue 阅读(384) 评论(0) 推荐(0) 编辑

mapreduce用scala分析百度百家上作者发布的文章数量和总阅读量

摘要: import org.apache.hadoop.conf.{Configuration, Configured}; import org.apache.hadoop.util.{ToolRunner, Tool}; import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapreduce.lib.output.FileOut... 阅读全文

posted @ 2017-02-04 11:52 sunyaxue 阅读(292) 评论(0) 推荐(0) 编辑

导航