01 2018 档案
摘要:Hive 的官方文档: https://cwiki.apache.org/confluence/display/Hive/Home#Home-HiveVersionsandBranchesHiveVersionsHiveVersionsandBranches 个人感觉官方文档比较乱,一般学习都是从
阅读全文
摘要:Shell编程 shell :弱类型、 解释型语言 解释器:bash 一、变量 bash的变量类型: 环境变量 本地变量(局部变量) 位置变量 特殊变量:bash内置的用来保存某些特殊数据的变量。(也叫系统变量) 本地变量:只属于某一个bash的变量。 var_name=值 作用域:整个bash进程
阅读全文
摘要:1. 如果 Spark 中 CPU 的使用率不够高,可以考虑为当前的程序分配更多的 Executor, 或者增加更多的 Worker 实例来充分的使用多核的潜能 2. 适当设置 Partition 分片数是非常重要的,过少的 Partition 分片数可能会因为每个 Partition 数据量太大而
阅读全文
摘要:有时候,Transformation 的 RDD 非常多或者具体 Transformation 产生的 RDD 本身计算特别复杂和耗时,此时我们必须考虑对计算结果数据进行持久化。与 persist 不同,persist 是优先将结果放入内存,内存不够的情况下,会放在磁盘。无论是放内存还是磁盘,都是不
阅读全文
摘要:1. CacheManager 管理缓存,而缓存可以是基于内存的缓存,也可以是基于磁盘的缓存 2. CacheManager 需要通过 BlockMananger 来操作数据; 3. 当 Task 运行的时候会调用 RDD 的 compute 方法来进行计算,而 compute 方法会调用 iter
阅读全文
摘要:1. RDD1 和 RDD2 进行 Join 操作, 其中采用采样的方式发现 RDD1 中有严重的数据倾斜的 Key 第一步: 采用 Spark RDD 中提供的采样接口,基于采样的数据可以计算出哪个(哪些)Key 的 Values 个数最多 第二步:把全休数据分成两部分,即把原来一个RDD1 变成
阅读全文
摘要:某人,并未提他的名字,是因为看的视频是1年前的,视频里他吹得厉害。我看视频时,查了一下他在视频里说的要做到的东西,结果上网一查,就看到了很多人说他骗了钱后,就不管交了学费的人了。真假无从查起。但是无风不起浪。也真没查到他说的要做出来的东西发布出来。所以这里不那人的名字了。只把他说的知识拿过来,做些笔
阅读全文