上一页 1 ··· 3 4 5 6 7 8 9 下一页

2017年2月5日

spark 分析作者发布文章的总阅读量

摘要: import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.catalyst.expressions.Second import javafx.scene.shape.Line import org.apache.spark.SparkConf impor... 阅读全文

posted @ 2017-02-05 15:41 sunyaxue 阅读(238) 评论(0) 推荐(0) 编辑

spark和hadoop差异

摘要: spark是从mapreduce发展过来的,拥有分布式并行计算的能力 运行效率高: spark是把中间数据放到内存中,并且spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 而mapreduce的计算结果是保存在磁盘上的,这势必会影响整体速度。 容错性高: 阅读全文

posted @ 2017-02-05 11:09 sunyaxue 阅读(281) 评论(0) 推荐(0) 编辑

2017年2月4日

spark

摘要: /* * spark算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 * spark算子的作用: * 1.输入:在spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入scala集合或数据)输入spark, * 数据进入spark运行时数据空间,转化为s... 阅读全文

posted @ 2017-02-04 17:11 sunyaxue 阅读(167) 评论(0) 推荐(0) 编辑

scala JobConf实现

摘要: package first_mapreduce_scala import org.apache.hadoop.mapreduce.Job import java.util._ import org.apache.hadoop.fs.Path import org.apache.hadoop.conf._ import org.apache.hadoop.io._ import org.ap... 阅读全文

posted @ 2017-02-04 15:03 sunyaxue 阅读(384) 评论(0) 推荐(0) 编辑

mapreduce用scala分析百度百家上作者发布的文章数量和总阅读量

摘要: import org.apache.hadoop.conf.{Configuration, Configured}; import org.apache.hadoop.util.{ToolRunner, Tool}; import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapreduce.lib.output.FileOut... 阅读全文

posted @ 2017-02-04 11:52 sunyaxue 阅读(292) 评论(0) 推荐(0) 编辑

2017年2月3日

mapreduce从数据库中分析数据,并把分析结果写入数据库中

摘要: 创建类 创建类 阅读全文

posted @ 2017-02-03 15:56 sunyaxue 阅读(2042) 评论(0) 推荐(0) 编辑

mapreduce分析百度百家作者分布的文章数和总阅读量

摘要: 主要完成的任务是从一个文件中读取数据后,去重,然后分析出作者发布的文章数量和总的阅读量之后,把分析结果保存在另一个文件中 首先创建一个flowbean 然后创建map和reduce 阅读全文

posted @ 2017-02-03 15:05 sunyaxue 阅读(285) 评论(0) 推荐(0) 编辑

hive基本操作,分析百度百家作者分布的文章数和总阅读量

摘要: hive> show tables; 查看hive中的表 hive> show databases;查看数据库 hive> drop table textlines; 删除表 hive> create table textlines(line string);创建一个名字叫textlines的表,表 阅读全文

posted @ 2017-02-03 14:13 sunyaxue 阅读(230) 评论(0) 推荐(0) 编辑

2017年1月17日

hive 导入导出本地数据

摘要: insert overwrite local directory '/Users/lihu/Desktop/crawle/wyp' row format delimited fields terminated by '\t' select * from wyp; hive 导出数据的时候指定分隔符; 阅读全文

posted @ 2017-01-17 15:24 sunyaxue 阅读(216) 评论(0) 推荐(0) 编辑

2017年1月16日

Hive 安装过程中的问题

摘要: org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083. at org.apache.thrift.transport.TServer 阅读全文

posted @ 2017-01-16 15:14 sunyaxue 阅读(739) 评论(0) 推荐(0) 编辑

上一页 1 ··· 3 4 5 6 7 8 9 下一页

导航