摘要: package test05import java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}import org.apache.spark.rdd.RDDimport 阅读全文
posted @ 2017-10-27 09:08 成长路上的。。。。 阅读(8886) 评论(0) 推荐(0) 编辑
摘要: 1.保存到redshift数据库的代码 阅读全文
posted @ 2017-10-27 09:04 成长路上的。。。。 阅读(729) 评论(0) 推荐(0) 编辑
摘要: 将数据保存到mysql,需要用到jdbc。为了提高保存速度,我写了一个连接池 1.保存到mysql的代码 阅读全文
posted @ 2017-10-27 08:59 成长路上的。。。。 阅读(12345) 评论(1) 推荐(0) 编辑
摘要: 将spark解析的结果保存到S3 这个和保存到本地的区别在于,你需要配置aws的key和密码,以及它的region,代码如下 阅读全文
posted @ 2017-10-26 16:57 成长路上的。。。。 阅读(1307) 评论(0) 推荐(0) 编辑
摘要: 使用maven打包有两种情况:不包括第三方jar包、包括第三方jar包 一般我们写程序,都会在IDEA上去调试,那么也就意味着,你需要将你所需要的jar包(第三方jar)全部给pom文件,否则是不能工作的。打成jar包后,提交到集群上去运行时,如果你的集群什么包都有,自然是很爽,但是如果你的集群不给 阅读全文
posted @ 2017-10-26 16:51 成长路上的。。。。 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 本文讲解Spark流数据处理之Spark Streaming。本文的写作时值Spark 1.6.2发布之际,Spark 2.0预览版也已发布,Spark发展如此迅速,请随时关注Spark Streaming官方文档以了解最新信息。 文中对Spark Streaming的讲解主要使用到Scala语言, 阅读全文
posted @ 2017-10-11 17:11 成长路上的。。。。 阅读(1010) 评论(0) 推荐(0) 编辑
摘要: SparkSQL结合SparkStreaming的使用 Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构,利用Kafka,即可以支持将用于离线分析的数据流到HDFS,又可以同时支撑多个消费者实时消费数据,包括SparkStreaming。然而,在Sp 阅读全文
posted @ 2017-10-11 17:09 成长路上的。。。。 阅读(4923) 评论(0) 推荐(1) 编辑
摘要: 流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流;既然是数据流处理,就会想到数据的流入、数据的加工、数据的流出。 日常工作、生活中数据来源很多不同的地方。例如:工业时代的汽车制造、监控设备、工业设备会产生很多源数据;信息时代的电商网站、日志服务器、社交网络、金融交易系统、黑 阅读全文
posted @ 2017-10-11 17:05 成长路上的。。。。 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transformations Window Operations Join Operations Output Operations 一、Transformations 阅读全文
posted @ 2017-10-11 17:02 成长路上的。。。。 阅读(1507) 评论(0) 推荐(0) 编辑
摘要: 网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/446434 阅读全文
posted @ 2017-10-11 16:55 成长路上的。。。。 阅读(3444) 评论(0) 推荐(0) 编辑