摘要: 本文讲解Spark流数据处理之Spark Streaming。本文的写作时值Spark 1.6.2发布之际,Spark 2.0预览版也已发布,Spark发展如此迅速,请随时关注Spark Streaming官方文档以了解最新信息。 文中对Spark Streaming的讲解主要使用到Scala语言, 阅读全文
posted @ 2017-10-11 17:11 成长路上的。。。。 阅读(1010) 评论(0) 推荐(0) 编辑
摘要: SparkSQL结合SparkStreaming的使用 Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构,利用Kafka,即可以支持将用于离线分析的数据流到HDFS,又可以同时支撑多个消费者实时消费数据,包括SparkStreaming。然而,在Sp 阅读全文
posted @ 2017-10-11 17:09 成长路上的。。。。 阅读(4923) 评论(0) 推荐(1) 编辑
摘要: 流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流;既然是数据流处理,就会想到数据的流入、数据的加工、数据的流出。 日常工作、生活中数据来源很多不同的地方。例如:工业时代的汽车制造、监控设备、工业设备会产生很多源数据;信息时代的电商网站、日志服务器、社交网络、金融交易系统、黑 阅读全文
posted @ 2017-10-11 17:05 成长路上的。。。。 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transformations Window Operations Join Operations Output Operations 一、Transformations 阅读全文
posted @ 2017-10-11 17:02 成长路上的。。。。 阅读(1518) 评论(0) 推荐(0) 编辑
摘要: 网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/446434 阅读全文
posted @ 2017-10-11 16:55 成长路上的。。。。 阅读(3451) 评论(0) 推荐(0) 编辑
摘要: 每次接触一个新的知识之前我都抱有恐惧之心,因为总认为自己没有接触到的知识都很高大上,比如上篇介绍到的Hadoop的安装与使用与本篇要介绍的Spark,其实在自己真正琢磨以后才发现本以为高大上的知识其实也不过如此。 由于Spark是最新火起来的处理大数据的框架,国内教程资源少之甚少,所以本篇文章是本人 阅读全文
posted @ 2017-10-11 16:51 成长路上的。。。。 阅读(7645) 评论(1) 推荐(0) 编辑
摘要: 每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码 1. 整体架构 思考一下,正常情况下我们会如何收集并分析日志呢? 首先,业务日志会通过Nginx(或者其他方式,我们 阅读全文
posted @ 2017-10-11 16:47 成长路上的。。。。 阅读(1839) 评论(0) 推荐(0) 编辑