源码 - 随笔分类 - 匠人先生

大数据基础之Flume（2）Sink代码解析

摘要：flume sink核心类结构 1 核心接口Sink org.apache.flume.Sink /** * <p>Requests the sink to attempt to consume data from attached channel</p> * <p><strong>Note</st 阅读全文

posted @ 2019-03-21 11:39 匠人先生阅读(1175) 评论(0) 推荐(0)

大叔问题定位分享（24）hbase standalone方式启动报错

摘要：hbase 2.0.2 hbase standalone方式启动报错： 2019-01-17 15:49:08,730 ERROR [Thread-24] master.HMaster: Failed to become active master java.lang.IllegalStateExc 阅读全文

posted @ 2019-01-17 16:43 匠人先生阅读(3195) 评论(0) 推荐(3)

大数据基础之Hadoop（1）HA实现原理

摘要：有些工作只能在一台server上进行，比如master，这时HA（High Availability）首先要求部署多个server，其次要求多个server自动选举出一个active状态server，其他server处于standby状态，只有active状态的server允许进行特定的操作；当ac 阅读全文

posted @ 2019-01-11 15:25 匠人先生阅读(1758) 评论(0) 推荐(1)

大叔经验分享（21）yarn中查看每个应用实时占用的内存和cpu资源

摘要：在yarn中的application详情页面 http://resourcemanager/cluster/app/$applicationId 或者通过application命令 yarn application -status $applicationId 只能看到应用启动以来占用的资源*时间统阅读全文

posted @ 2019-01-10 16:54 匠人先生阅读(14766) 评论(1) 推荐(0)

大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%

摘要：spark 2.1.1 系统中希望监控spark on yarn任务的执行进度，但是监控过程发现提交任务之后执行进度总是10%，直到执行成功或者失败，进度会突然变为100%，很神奇，下面看spark on yarn任务提交过程： spark on yarn提交任务时会把mainClass修改为Cl 阅读全文

posted @ 2019-01-10 16:18 匠人先生阅读(2390) 评论(0) 推荐(0)

大数据基础之Spark（8）Spark中Join实现原理

摘要：spark中join有两种，一种是RDD的join，一种是sql中的join，分别来看： 1 RDD join org.apache.spark.rdd.PairRDDFunctions /** * Return an RDD containing all pairs of elements wit 阅读全文

posted @ 2019-01-09 17:42 匠人先生阅读(3454) 评论(0) 推荐(2)

大叔经验分享（23）spark sql插入表时的文件个数研究

摘要：spark sql执行insert overwrite table时，写到新表或者新分区的文件个数，有可能是200个，也有可能是任意个，为什么会有这种差别？首先看一下spark sql执行insert overwrite table流程： 1 创建临时目录，比如 .hive-staging_hiv 阅读全文

posted @ 2019-01-09 15:05 匠人先生阅读(2436) 评论(0) 推荐(1)

大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

摘要：spark 2.1.1 spark初始化rdd的时候，需要读取文件，通常是hdfs文件，在读文件的时候可以指定最小partition数量，这里只是建议的数量，实际可能比这个要大（比如文件特别多或者特别大时），也可能比这个要小（比如文件只有一个而且很小时），如果没有指定最小partition数量，初始阅读全文

posted @ 2018-12-28 20:55 匠人先生阅读(8210) 评论(0) 推荐(5)

大数据基础之Spark（6）Spark Rdd Sort实现原理

摘要：spark 2.1.1 spark中可以通过RDD.sortBy来对分布式数据进行排序，具体是如何实现的？来看代码： org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function. */ def sor 阅读全文

posted @ 2018-12-28 20:07 匠人先生阅读(1295) 评论(0) 推荐(0)

大数据基础之Hive（2）Hive SQL执行过程之SQL解析过程

摘要：Hive SQL解析过程 SQL->AST(Abstract Syntax Tree)->Task（MapRedTask，FetchTask）->QueryPlan（Task集合）->Job（Yarn） SQL解析会在两个地方进行：一个是SQL执行前compile，具体在Driver.compil 阅读全文

posted @ 2018-12-27 18:41 匠人先生阅读(3804) 评论(0) 推荐(0)

大叔经验分享（18）hive2.0以后通过beeline执行sql没有进度信息

摘要：一问题在hive1.2中使用hive或者beeline执行sql都有进度信息，但是升级到hive2.0以后，只有hive执行sql还有进度信息，beeline执行sql完全silence，在等待结果的过程中完全不知道执行到哪了 1 hive执行sql过程（有进度信息） hive> select 阅读全文

posted @ 2018-12-27 16:53 匠人先生阅读(5985) 评论(2) 推荐(1)

大叔问题定位分享（22）hive同时执行多个insert overwrite table只有1个可以执行

摘要：hive 2.1 一问题最近有一个场景，要向一个表的多个分区写数据，为了缩短执行时间，采用并发的方式，多个sql同时执行，分别写不同的分区，同时开启动态分区： set hive.exec.dynamic.partition=true insert overwrite table test_tab 阅读全文

posted @ 2018-12-27 16:12 匠人先生阅读(10179) 评论(0) 推荐(0)

大数据基础之Hive（1）Hive SQL执行过程之代码流程

摘要：hive 2.1 hive执行sql有两种方式：执行hive命令，又细分为hive -e，hive -f，hive交互式；执行beeline命令，beeline会连接远程thrift server；下面分别看这些场景下sql是怎样被执行的： 1 hive命令启动命令启动hive客户端命令阅读全文

posted @ 2018-12-27 15:19 匠人先生阅读(3716) 评论(0) 推荐(0)

大数据基础之Spark（5）Shuffle实现原理及代码解析

摘要：一简介 Shuffle，简而言之，就是对数据进行重新分区，其中会涉及大量的网络io和磁盘io，为什么需要shuffle，以词频统计reduceByKey过程为例， serverA：partition1: (hello, 1), (word, 1)serverB：partition2: (hello 阅读全文

posted @ 2018-12-21 18:54 匠人先生阅读(1783) 评论(0) 推荐(1)

大数据基础之SPARK（9）SPARK中COLLECT和TAKE实现原理

摘要：spark中要将计算结果取回driver，有两种方式：collect和take，这两种方式有什么差别？来看代码： org.apache.spark.rdd.RDD /** * Return an array that contains all of the elements in this RDD. 阅读全文

posted @ 2018-12-21 14:56 匠人先生阅读(2436) 评论(0) 推荐(1)

大叔经验分享（15）spark sql limit实现原理

摘要：之前讨论过hive中limit的实现，详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现，首先看执行计划： spark-sql> explain select * from test1 limit 10 阅读全文

posted @ 2018-12-21 14:36 匠人先生阅读(3647) 评论(0) 推荐(0)

大叔问题定位分享（21）spark执行insert overwrite非常慢，比hive还要慢

摘要：最近把一些sql执行从hive改到spark，发现执行更慢，sql主要是一些insert overwrite操作，从执行计划看到，用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select * from t 阅读全文

posted @ 2018-12-21 11:45 匠人先生阅读(8615) 评论(1) 推荐(1)

大叔经验分享（14）spark on yarn提交任务到集群后spark-submit进程一直等待

摘要：spark on yarn通过--deploy-mode cluster提交任务之后，应用已经在yarn上执行了，但是spark-submit提交进程还在，直到应用执行结束，提交进程才会退出，有时这会很不方便，并且不注意的话还会占用很多资源，比如提交spark streaming应用；最近发现sp 阅读全文

posted @ 2018-12-21 11:15 匠人先生阅读(2957) 评论(0) 推荐(0)

大叔问题定位分享（20）hdfs文件create写入正常，append写入报错

摘要：最近在hdfs写文件的时候发现一个问题，create写入正常，append写入报错，每次都能重现，代码示例如下： FileSystem fs = FileSystem.get(conf); OutputStream out = fs.create(file); IOUtils.copyBytes(i 阅读全文

posted @ 2018-12-21 11:08 匠人先生阅读(1485) 评论(0) 推荐(0)

大叔问题定位分享（19）spark task在executors上分布不均

摘要：最近提交一个spark应用之后发现执行非常慢，点开spark web ui之后发现卡在一个job的一个stage上，这个stage有100000个task，但是绝大部分task都分配到两个executor上，其他executor非常空闲，what happened？查看spark task分配逻辑阅读全文

posted @ 2018-12-20 21:44 匠人先生阅读(2239) 评论(0) 推荐(0)

Thinking in BigData

匠人先生

随笔分类 - 源码

公告