摘要:
[TOC] SparkStreaming相关概念 概述 SparkStreaming主要用作对流数据的实时处理,比如:实时的 web 日志数据分析、实时追踪页面访问统计数据等。 流数据的特点有: 数据一直在变化 数据无法回退 数据始终源源不断涌进 Spark Streaming 是在 Spark 上 阅读全文
摘要:
[TOC] 需求 统计每日 PV 和独立 IP 统计每种不同的 HTTP 状态对应的访问数 统计不同独立 IP 的访问量 统计不同页面的访问量 基础知识准备 Apache日志位置 Windows下是: C:\Program Files\Apache Software Foundation\Apach 阅读全文
摘要:
[TOC] sbt安装 sbt 是一款 spark 用来对 scala 编写的程序打包的工具 输入如下的命令可以对sbt进行安装 apt get install那个执行完毕之后,输入sbt,这时sbt不会立即启动而会花费很长的时间来下载sbt所需要的依赖关系 等待结束之后会出现交互式命令行: 完整地 阅读全文
摘要:
一个Spark应用开发的简单例子 这个实验楼上的项目题目是某年《高校云计算应用创新大赛》里的最后一道题,题目是莎士比亚文集词频统计并行化算法。下面是我通过实验楼的教程的学习记录。 [TOC] 我需要做的准备工作 复习编程模型 Spark 上开发的应用程序都是由一个driver programe构成, 阅读全文
摘要:
spark高级应用与持久化 [TOC] 向spark传递函数参数 上一次学的spark的transform操作里面,有一些函数的描述是“参数是函数”,而向函数传递这个作为参数的函数的用法一般有两种 匿名函数 匿名函数,可以减少代码量。匿名函数的定义 = 左边是参数,参数可以省略参数类型,右边是函数体 阅读全文
摘要:
spark RDD [TOC] 关于sparkRDD基本概念 RDD:弹性分布式数据集,是spark对数据的核心抽象,也是spark数据处理的基本单位 spark处理数据之前会首先把数据转换成RDD然后在RDD上对数据进行操作 spark对RDD的数据操作,其本身有两种对于RDD的算子:转换(tra 阅读全文
摘要:
scala入门 [TOC] 1. 基础语法 标识符区分大小写 class 名称首字母需大写 方法名称首字母需小写 程序文件名称需与 object 名称相同 main 方法是 Scala 程序的入口,每个 Scala 程序都必须定义此方法。 标识符 在 Scala 中标识符只能包括字符、数字和下划线, 阅读全文
该文被密码保护。 阅读全文