摘要: 本文基于《Spark 最佳实践》第6章 Spark 流式计算。 我们知道网站用户访问流量是不间断的,基于网站的访问日志,即 Web log 分析是典型的流式实时计算应用场景。比如百度统计,它可以做流量分析、来源分析、网站分析、转化分析。另外还有特定场景分析,比如安全分析,用来识别 CC 攻击、 SQ 阅读全文
posted @ 2018-05-15 21:05 LiBaoquan 阅读(2954) 评论(0) 推荐(0) 编辑
摘要: 1.准备 本文主要讲述如何在Ubuntu 16.04 中搭建 Spark 2.11 单机开发环境,主要分为 3 部分:JDK 安装,Scala 安装和 Spark 安装。 1. JDK 1.8: "jdk 8u171 linux x64.tar.gz" 2. Scala 11.12: "Scala 阅读全文
posted @ 2018-05-15 19:06 LiBaoquan 阅读(666) 评论(0) 推荐(0) 编辑