上一页 1 2 3 4 5 6 7 8 9 10 ··· 38 下一页
摘要: 1.Spark SQL 概述 1.1 什么是 Spark SQL Spark SQL 是 Spark 用来处理结构化数据的一个模块,它提供了 2 个编程抽象:DataFrame 和 DataSet,并且作为分布式 SQL 查询引擎的作用。 我们已经学习了 Hive,它是将 Hive SQL 转换成 阅读全文
posted @ 2019-07-08 03:13 LXL_1 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 5.RDD 编程进阶 5.1 累加器 累加器用来对信息进行聚合,通常在向 Spark 传递函数时,比如使用 map() 函数或者 用 filter() 传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会 得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。如 阅读全文
posted @ 2019-07-07 22:34 LXL_1 阅读(602) 评论(0) 推荐(0) 编辑
摘要: 4.数据读取与保存 Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。 文件格式分为:Text 文件、Json 文件、Csv 文件、Sequence 文件以及 Object 文件; 文件系统分为:本地文件系统、HDFS、HBASE 以及数据库。 1)数据读取:textFi 阅读全文
posted @ 2019-07-07 21:26 LXL_1 阅读(8120) 评论(0) 推荐(1) 编辑
摘要: 3.键值对 RDD 数据分区 Spark 目前支持 Hash 分区和 Range 分区,用户也可以自定义分区,Hash 分区为当前 的默认分区,Spark 中分区器直接决定了 RDD 中分区的个数、RDD 中每条数据经过 Shuffle 过程属于哪个分区和 Reduce 的个数 注意: (1)只有 阅读全文
posted @ 2019-07-07 17:40 LXL_1 阅读(575) 评论(0) 推荐(0) 编辑
摘要: 2.5 RDD 中的函数传递 在实际开发中我们往往需要自己定义一些对于 RDD 的操作,那么此时需要主要的 是,初始化工作是在 Driver 端进行的,而实际运行程序是在 Executor 端进行的,这就涉及 到了跨进程通信,是需要序列化的。下面我们看几个例子: 2.5.1 传递一个方法 1.创建一 阅读全文
posted @ 2019-07-07 04:21 LXL_1 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 2.4 Action 行动算子:触发运算,在 Executor 执行,如果想直接在 Driver 端看到结果可以使用 collect 和 foreach 都可以将数据拉取到 Driver 端。 2.4.1 reduce(func) 案例 1. 作用:通过 func 函数聚集 RDD 中的所有元素,先 阅读全文
posted @ 2019-07-07 03:24 LXL_1 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 2.RDD 编 程 2.RDD 编 程 在 Spark 中,RDD 被表示为对象,通过对象上的方法调用来对 RDD 进行转换。经过 一系列的 transformations 定义 RDD 之后,就可以调用 actions 触发 RDD 的计算,action 可 以是向应用程序返回结果(count, 阅读全文
posted @ 2019-07-06 15:34 LXL_1 阅读(707) 评论(0) 推荐(0) 编辑
摘要: 1 RDD 概述 1.1 什么是 RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算 的集合。 WordCount: 1.2 RDD 的属性 阅读全文
posted @ 2019-07-06 04:55 LXL_1 阅读(263) 评论(0) 推荐(0) 编辑
摘要: maven打包时报错: 报错信息: 解决方法: 因为配置了JobHistoryServer所以需要启动 yarn 和 HDFS spark-shell 启动报错: 解决方法: 因为配置了JobHistoryServer所以需要启动 yarn 和 HDFS 阅读全文
posted @ 2019-07-05 21:58 LXL_1 阅读(1374) 评论(0) 推荐(0) 编辑
摘要: 案例实操 Spark Shell 仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在 IDE 中编制程序,然后打成 jar 包,然后提交到集群,最常用的是创建一个 Maven 项目,利用 Maven 来管理 jar 包的依赖。 1 编写 WordCount 程序 1)创建一个 Maven 阅读全文
posted @ 2019-07-05 17:01 LXL_1 阅读(633) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 38 下一页