摘要: [TOC] SparkStreaming相关概念 概述 SparkStreaming主要用作对流数据的实时处理,比如:实时的 web 日志数据分析、实时追踪页面访问统计数据等。 流数据的特点有: 数据一直在变化 数据无法回退 数据始终源源不断涌进 Spark Streaming 是在 Spark 上 阅读全文
posted @ 2020-01-24 21:32 ltl0501 阅读(522) 评论(0) 推荐(0) 编辑
摘要: [TOC] 需求 统计每日 PV 和独立 IP 统计每种不同的 HTTP 状态对应的访问数 统计不同独立 IP 的访问量 统计不同页面的访问量 基础知识准备 Apache日志位置 Windows下是: C:\Program Files\Apache Software Foundation\Apach 阅读全文
posted @ 2020-01-12 11:55 ltl0501 阅读(401) 评论(0) 推荐(0) 编辑
摘要: [TOC] sbt安装 sbt 是一款 spark 用来对 scala 编写的程序打包的工具 输入如下的命令可以对sbt进行安装 apt get install那个执行完毕之后,输入sbt,这时sbt不会立即启动而会花费很长的时间来下载sbt所需要的依赖关系 等待结束之后会出现交互式命令行: 完整地 阅读全文
posted @ 2020-01-05 21:13 ltl0501 阅读(478) 评论(0) 推荐(0) 编辑
摘要: 一个Spark应用开发的简单例子 这个实验楼上的项目题目是某年《高校云计算应用创新大赛》里的最后一道题,题目是莎士比亚文集词频统计并行化算法。下面是我通过实验楼的教程的学习记录。 [TOC] 我需要做的准备工作 复习编程模型 Spark 上开发的应用程序都是由一个driver programe构成, 阅读全文
posted @ 2020-01-04 16:43 ltl0501 阅读(681) 评论(0) 推荐(0) 编辑
摘要: spark高级应用与持久化 [TOC] 向spark传递函数参数 上一次学的spark的transform操作里面,有一些函数的描述是“参数是函数”,而向函数传递这个作为参数的函数的用法一般有两种 匿名函数 匿名函数,可以减少代码量。匿名函数的定义 = 左边是参数,参数可以省略参数类型,右边是函数体 阅读全文
posted @ 2019-12-30 18:27 ltl0501 阅读(322) 评论(0) 推荐(0) 编辑
摘要: spark RDD [TOC] 关于sparkRDD基本概念 RDD:弹性分布式数据集,是spark对数据的核心抽象,也是spark数据处理的基本单位 spark处理数据之前会首先把数据转换成RDD然后在RDD上对数据进行操作 spark对RDD的数据操作,其本身有两种对于RDD的算子:转换(tra 阅读全文
posted @ 2019-12-29 22:19 ltl0501 阅读(1145) 评论(0) 推荐(0) 编辑
摘要: scala入门 [TOC] 1. 基础语法 标识符区分大小写 class 名称首字母需大写 方法名称首字母需小写 程序文件名称需与 object 名称相同 main 方法是 Scala 程序的入口,每个 Scala 程序都必须定义此方法。 标识符 在 Scala 中标识符只能包括字符、数字和下划线, 阅读全文
posted @ 2019-12-27 15:20 ltl0501 阅读(184) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-12-26 17:01 ltl0501 阅读(5) 评论(0) 推荐(0) 编辑
摘要: Spark学习笔记1 基本概念、部署、启动 实验楼平台上的实验环境及版本:java8,python2.7,scala2.11.8,hadoop2.7.3,spark2.4.4 学习内容 基本概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop, 阅读全文
posted @ 2019-12-25 22:35 ltl0501 阅读(200) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-12-25 21:08 ltl0501 阅读(1) 评论(0) 推荐(0) 编辑