摘要: 阅读全文
posted @ 2020-07-19 11:08 知晓的老巢 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构 阅读全文
posted @ 2020-05-12 16:24 知晓的老巢 阅读(736) 评论(0) 推荐(0) 编辑
摘要: 1、读取Mysql数据 object JdbcRddDemo { def getConn() = { Class.forName("com.mysql.jdbc.Driver").newInstance() DriverManager.getConnection("jdbc:mysql://hado 阅读全文
posted @ 2020-05-10 15:50 知晓的老巢 阅读(595) 评论(0) 推荐(0) 编辑
摘要: 广播变量 应用场景:在提交作业后,task在执行的过程中, 有一个或多个值需要在计算的过程中多次从Driver端拿取时,此时会必然会发生大量的网络IO, 这时,最好用广播变量的方式,将Driver端的变量的值事先广播到每一个Worker端, 以后再计算过程中只需要从本地拿取该值即可,避免网络IO,提 阅读全文
posted @ 2020-05-10 11:11 知晓的老巢 阅读(1517) 评论(0) 推荐(0) 编辑
摘要: val rdd3 = sc.parallelize(List("12","23","345","4567"),2) rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y) 两个分区先计算出字 阅读全文
posted @ 2020-05-09 09:09 知晓的老巢 阅读(314) 评论(0) 推荐(0) 编辑
摘要: 1、参数配置(并行度)分区的默认个数等于对spark.default.parallelism的指定值2、根据父rdd的reduceTask数量3、读取hdfs的文件生成的rddrdd分区的数量等于hdfs的文件的block 4、sparkStreaming生成的rdd根据block interval 阅读全文
posted @ 2020-05-08 15:33 知晓的老巢 阅读(1245) 评论(0) 推荐(0) 编辑
摘要: 使用EXPLAIN关键字可以模拟优化器执行SQL语句,从而知道MySQL是 如何处理你的SQL语句的。分析你的查询语句或是结构的性能瓶颈 下面是使用 explain 的例子: 在 select 语句之前增加 explain 关键字,MySQL 会在查询上设置一个标记,执行查询时,会返回执行计划的信息 阅读全文
posted @ 2020-04-24 20:21 知晓的老巢 阅读(463) 评论(0) 推荐(0) 编辑
摘要: 创建3台虚拟机 主机为桌面版 其他为迷你版本 ******************************常用命令、进程名称****************************启动集群命令: start-all.sh启动zookeeper: zkServer.sh start 启动journal 阅读全文
posted @ 2020-04-04 23:31 知晓的老巢 阅读(1027) 评论(0) 推荐(0) 编辑
摘要: 链接:https://blog.csdn.net/qq_41059374/article/details/80695581?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.no 阅读全文
posted @ 2020-04-01 23:37 知晓的老巢 阅读(539) 评论(0) 推荐(0) 编辑
摘要: 链接1:https://blog.csdn.net/u012453843/article/details/70878117 链接2:https://www.cnblogs.com/niunafei/p/11294560.html 阅读全文
posted @ 2020-04-01 22:36 知晓的老巢 阅读(3324) 评论(0) 推荐(0) 编辑