2017 年 2月 4 日随笔档案 - sunyaxue

spark

摘要： /* * spark算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。 * spark算子的作用： * 1.输入：在spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入scala集合或数据）输入spark， * 数据进入spark运行时数据空间，转化为s... 阅读全文

posted @ 2017-02-04 17:11 sunyaxue 阅读(167) 评论(0) 推荐(0) 编辑

摘要： package first_mapreduce_scala import org.apache.hadoop.mapreduce.Job import java.util._ import org.apache.hadoop.fs.Path import org.apache.hadoop.conf._ import org.apache.hadoop.io._ import org.ap... 阅读全文

posted @ 2017-02-04 15:03 sunyaxue 阅读(384) 评论(0) 推荐(0) 编辑

mapreduce用scala分析百度百家上作者发布的文章数量和总阅读量

摘要： import org.apache.hadoop.conf.{Configuration, Configured}; import org.apache.hadoop.util.{ToolRunner, Tool}; import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapreduce.lib.output.FileOut... 阅读全文

posted @ 2017-02-04 11:52 sunyaxue 阅读(292) 评论(0) 推荐(0) 编辑

伊米伊念

spark

scala JobConf实现

mapreduce用scala分析百度百家上作者发布的文章数量和总阅读量

导航

公告