sunyaxue - 博客园

spark 分析作者发布文章的总阅读量

摘要： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.catalyst.expressions.Second import javafx.scene.shape.Line import org.apache.spark.SparkConf impor... 阅读全文

posted @ 2017-02-05 15:41 sunyaxue 阅读(238) 评论(0) 推荐(0) 编辑

spark和hadoop差异

摘要： spark是从mapreduce发展过来的，拥有分布式并行计算的能力运行效率高： spark是把中间数据放到内存中，并且spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。而mapreduce的计算结果是保存在磁盘上的，这势必会影响整体速度。容错性高：阅读全文

posted @ 2017-02-05 11:09 sunyaxue 阅读(281) 评论(0) 推荐(0) 编辑

spark

摘要： /* * spark算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。 * spark算子的作用： * 1.输入：在spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入scala集合或数据）输入spark， * 数据进入spark运行时数据空间，转化为s... 阅读全文

posted @ 2017-02-04 17:11 sunyaxue 阅读(167) 评论(0) 推荐(0) 编辑

scala JobConf实现

摘要： package first_mapreduce_scala import org.apache.hadoop.mapreduce.Job import java.util._ import org.apache.hadoop.fs.Path import org.apache.hadoop.conf._ import org.apache.hadoop.io._ import org.ap... 阅读全文

posted @ 2017-02-04 15:03 sunyaxue 阅读(384) 评论(0) 推荐(0) 编辑

mapreduce用scala分析百度百家上作者发布的文章数量和总阅读量

摘要： import org.apache.hadoop.conf.{Configuration, Configured}; import org.apache.hadoop.util.{ToolRunner, Tool}; import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapreduce.lib.output.FileOut... 阅读全文

posted @ 2017-02-04 11:52 sunyaxue 阅读(292) 评论(0) 推荐(0) 编辑

mapreduce从数据库中分析数据，并把分析结果写入数据库中

摘要：创建类创建类阅读全文

posted @ 2017-02-03 15:56 sunyaxue 阅读(2042) 评论(0) 推荐(0) 编辑

mapreduce分析百度百家作者分布的文章数和总阅读量

摘要：主要完成的任务是从一个文件中读取数据后，去重，然后分析出作者发布的文章数量和总的阅读量之后，把分析结果保存在另一个文件中首先创建一个flowbean 然后创建map和reduce 阅读全文

posted @ 2017-02-03 15:05 sunyaxue 阅读(285) 评论(0) 推荐(0) 编辑

hive基本操作，分析百度百家作者分布的文章数和总阅读量

摘要： hive> show tables; 查看hive中的表 hive> show databases;查看数据库 hive> drop table textlines; 删除表 hive> create table textlines(line string)；创建一个名字叫textlines的表，表阅读全文

posted @ 2017-02-03 14:13 sunyaxue 阅读(230) 评论(0) 推荐(0) 编辑

hive 导入导出本地数据

摘要： insert overwrite local directory '/Users/lihu/Desktop/crawle/wyp' row format delimited fields terminated by '\t' select * from wyp; hive 导出数据的时候指定分隔符；阅读全文

posted @ 2017-01-17 15:24 sunyaxue 阅读(216) 评论(0) 推荐(0) 编辑

Hive 安装过程中的问题

摘要： org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083. at org.apache.thrift.transport.TServer 阅读全文

posted @ 2017-01-16 15:14 sunyaxue 阅读(739) 评论(0) 推荐(0) 编辑

伊米伊念