摘要:
数据文件来自 :http://archive.ics.uci.edu/ml/datasets/Wholesale+customers?cm_mc_uid=21918109261714715776095&cm_mc_sid_50200000=1476090999impo... 阅读全文
摘要:
import org.apache.spark.sql.SQLContextimport org.apache.spark.storage.StorageLevelimport org.apache.spark.{SparkContext, SparkConf}//d... 阅读全文
摘要:
import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql... 阅读全文
摘要:
Spark SQL 程序开发过程中,我们有两种方式确定 schema,第一种是反射推断 schema,这种方式下,需要定义样本类 (case class) 来对应数据的列;第二种方式是通过编程方式来确定 schema,这种方式主要是通过 Spark SQL 提... 阅读全文
摘要:
案例介绍与编程实现1. 案例介绍该案例中,我们假设某论坛需要根据用户对站内网页的点击量,停留时间,以及是否点赞,来近实时的计算网页热度,进而动态的更新网站的今日热点模块,把最热话题的链接显示其中。2. 案例分析对于某一个访问论坛的用户,我们需要对他的行为数据做一个抽象... 阅读全文
摘要:
案例介绍与编程实现1. 案例介绍该案例中,我们假设某论坛需要根据用户对站内网页的点击量,停留时间,以及是否点赞,来近实时的计算网页热度,进而动态的更新网站的今日热点模块,把最热话题的链接显示其中。2. 案例分析对于某一个访问论坛的用户,我们需要对他的行为数据做一个抽象... 阅读全文
摘要:
利用 Spark Streaming 构建高效健壮的流数据计算系统注意事项 需要合理的设置数据处理的间隔,即需要保证每一批数据的处理时间必须小于处理间隔,保证在处理下一批数据的时候,前一批已经处理完毕。显然这需要由您的 Spark 集群的计算能力还有 input... 阅读全文
摘要:
利用 Spark Streaming 构建高效健壮的流数据计算系统注意事项 需要合理的设置数据处理的间隔,即需要保证每一批数据的处理时间必须小于处理间隔,保证在处理下一批数据的时候,前一批已经处理完毕。显然这需要由您的 Spark 集群的计算能力还有 input... 阅读全文
摘要:
Kafka 集群搭建步骤1. 机器准备本文中,我们将准备三台机器搭建 Kafka 集群,IP 地址分别是 192.168.1.1,192.168.1.2,192.168.1.3,并且三台机器网络互通。2. 下载并安装 kafka_2.10-0.8.2.1下载地址: h... 阅读全文
摘要:
Kafka 集群搭建步骤1. 机器准备本文中,我们将准备三台机器搭建 Kafka 集群,IP 地址分别是 192.168.1.1,192.168.1.2,192.168.1.3,并且三台机器网络互通。2. 下载并安装 kafka_2.10-0.8.2.1下载地址: h... 阅读全文