摘要: SparkStreaming Spark Streaming 的特点 特点说明 Spark Streaming 是 Spark Core API 的扩展 Spark Streaming 具有类似 RDD 的 API, 易于使用, 并可和现有系统共用相似代码 一个非常重要的特点是, Spark Str 阅读全文
posted @ 2021-01-17 21:55 喜欢爬的孩子 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 需求介绍 思路整理 需求 项目的任务是统计出租车在不同行政区的平均等待时间, 所以源数据集和经过计算希望得到的新数据集大致如下 源数据集 目标数据集 目标数据集分析 目标数据集中有三列, borough, avg(seconds), stddev_samp(seconds) borough 表示目的 阅读全文
posted @ 2021-01-17 14:50 喜欢爬的孩子 阅读(176) 评论(0) 推荐(0) 编辑
摘要: Spark SQL 基本操作: 将下列 JSON 格式数据复制到 Linux 系统中,并保存命名为 employee.json。 { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , " 阅读全文
posted @ 2021-01-17 13:18 喜欢爬的孩子 阅读(841) 评论(0) 推荐(0) 编辑
摘要: 词频统计: 要求:统计Harry Potter.txt文件中出现最多单词前十位 内容样例: 代码及结果: @Test//词频统计 def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("w 阅读全文
posted @ 2021-01-17 11:22 喜欢爬的孩子 阅读(210) 评论(0) 推荐(0) 编辑