知晓的老巢

2020年7月19日

摘要：阅读全文

posted @ 2020-07-19 11:08 知晓的老巢阅读(169) 评论(0) 推荐(0) 编辑

2020年5月12日

摘要：在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构阅读全文

posted @ 2020-05-12 16:24 知晓的老巢阅读(736) 评论(0) 推荐(0) 编辑

2020年5月10日

Spark读取Mysql，Redis，Hbase数据（一）

摘要： 1、读取Mysql数据 object JdbcRddDemo { def getConn() = { Class.forName("com.mysql.jdbc.Driver").newInstance() DriverManager.getConnection("jdbc:mysql://hado 阅读全文

posted @ 2020-05-10 15:50 知晓的老巢阅读(595) 评论(0) 推荐(0) 编辑

Spark中Broadcast的理解

摘要：广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO，这时，最好用广播变量的方式，将Driver端的变量的值事先广播到每一个Worker端，以后再计算过程中只需要从本地拿取该值即可，避免网络IO，提阅读全文

posted @ 2020-05-10 11:11 知晓的老巢阅读(1517) 评论(0) 推荐(0) 编辑

2020年5月9日

Spark高级算子aggregate所遇到的坑

摘要： val rdd3 = sc.parallelize(List("12","23","345","4567"),2) rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y) 两个分区先计算出字阅读全文

posted @ 2020-05-09 09:09 知晓的老巢阅读(314) 评论(0) 推荐(0) 编辑

2020年5月8日

Spark中rdd分区数量的决定因素

摘要： 1、参数配置(并行度)分区的默认个数等于对spark.default.parallelism的指定值2、根据父rdd的reduceTask数量3、读取hdfs的文件生成的rddrdd分区的数量等于hdfs的文件的block 4、sparkStreaming生成的rdd根据block interval 阅读全文

posted @ 2020-05-08 15:33 知晓的老巢阅读(1246) 评论(0) 推荐(0) 编辑

2020年4月24日

MySql中Explain详解与索引最佳实践

摘要：使用EXPLAIN关键字可以模拟优化器执行SQL语句，从而知道MySQL是如何处理你的SQL语句的。分析你的查询语句或是结构的性能瓶颈下面是使用 explain 的例子：在 select 语句之前增加 explain 关键字，MySQL 会在查询上设置一个标记，执行查询时，会返回执行计划的信息阅读全文

posted @ 2020-04-24 20:21 知晓的老巢阅读(463) 评论(0) 推荐(0) 编辑

2020年4月4日

hadoop-ha+zookeeper+hbase+hive+sqoop+flume+kafka+spark集群安装

摘要：创建3台虚拟机主机为桌面版其他为迷你版本 ******************************常用命令、进程名称****************************启动集群命令： start-all.sh启动zookeeper： zkServer.sh start 启动journal 阅读全文

posted @ 2020-04-04 23:31 知晓的老巢阅读(1027) 评论(0) 推荐(0) 编辑

2020年4月1日

hadoop 多次格式化format namenode 导致节点不能启动解决

摘要：链接：https://blog.csdn.net/qq_41059374/article/details/80695581?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.no 阅读全文

posted @ 2020-04-01 23:37 知晓的老巢阅读(539) 评论(0) 推荐(0) 编辑

解决Zookeeper无法启动的问题

摘要：链接1：https://blog.csdn.net/u012453843/article/details/70878117 链接2：https://www.cnblogs.com/niunafei/p/11294560.html 阅读全文

posted @ 2020-04-01 22:36 知晓的老巢阅读(3324) 评论(0) 推荐(0) 编辑

唯有专注，才能保证对象的高内聚，年轻不狂妄自大，拼搏要有计划

公告