yuerspring

摘要：数据文件来自：http://archive.ics.uci.edu/ml/datasets/Wholesale+customers?cm_mc_uid=21918109261714715776095&cm_mc_sid_50200000=1476090999impo... 阅读全文

posted @ 2016-10-10 17:34 yuerspring 阅读(227) 评论(0) 推荐(0)

摘要： import org.apache.spark.sql.SQLContextimport org.apache.spark.storage.StorageLevelimport org.apache.spark.{SparkContext, SparkConf}//d... 阅读全文

posted @ 2016-10-10 16:18 yuerspring 阅读(1453) 评论(0) 推荐(0)

摘要： import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql... 阅读全文

posted @ 2016-10-10 16:13 yuerspring 阅读(130) 评论(0) 推荐(0)

摘要： Spark SQL 程序开发过程中，我们有两种方式确定 schema，第一种是反射推断 schema，这种方式下，需要定义样本类 (case class) 来对应数据的列;第二种方式是通过编程方式来确定 schema，这种方式主要是通过 Spark SQL 提... 阅读全文

posted @ 2016-10-10 15:23 yuerspring 阅读(195) 评论(0) 推荐(0)

摘要：案例介绍与编程实现1. 案例介绍该案例中，我们假设某论坛需要根据用户对站内网页的点击量，停留时间，以及是否点赞，来近实时的计算网页热度，进而动态的更新网站的今日热点模块，把最热话题的链接显示其中。2. 案例分析对于某一个访问论坛的用户，我们需要对他的行为数据做一个抽象... 阅读全文

posted @ 2016-10-10 13:45 yuerspring 阅读(229) 评论(0) 推荐(0)

posted @ 2016-10-10 13:45 yuerspring 阅读(364) 评论(0) 推荐(0)

摘要：利用 Spark Streaming 构建高效健壮的流数据计算系统注意事项需要合理的设置数据处理的间隔，即需要保证每一批数据的处理时间必须小于处理间隔，保证在处理下一批数据的时候，前一批已经处理完毕。显然这需要由您的 Spark 集群的计算能力还有 input... 阅读全文

posted @ 2016-10-10 13:25 yuerspring 阅读(166) 评论(0) 推荐(0)

posted @ 2016-10-10 13:25 yuerspring 阅读(271) 评论(0) 推荐(0)

摘要： Kafka 集群搭建步骤1. 机器准备本文中，我们将准备三台机器搭建 Kafka 集群，IP 地址分别是 192.168.1.1，192.168.1.2，192.168.1.3，并且三台机器网络互通。2. 下载并安装 kafka_2.10-0.8.2.1下载地址: h... 阅读全文

posted @ 2016-10-10 12:58 yuerspring 阅读(281) 评论(0) 推荐(0)

posted @ 2016-10-10 12:58 yuerspring 阅读(202) 评论(0) 推荐(0)