01 2018 档案

Hive 学习

摘要：Hive 的官方文档： https://cwiki.apache.org/confluence/display/Hive/Home#Home-HiveVersionsandBranchesHiveVersionsHiveVersionsandBranches 个人感觉官方文档比较乱，一般学习都是从阅读全文

posted @ 2018-01-31 22:39 一剑侵心阅读(331) 评论(0) 推荐(0) 编辑

Shell 学习

摘要：Shell编程 shell :弱类型、解释型语言解释器：bash 一、变量 bash的变量类型：环境变量本地变量（局部变量）位置变量特殊变量：bash内置的用来保存某些特殊数据的变量。（也叫系统变量）本地变量：只属于某一个bash的变量。 var_name=值作用域：整个bash进程阅读全文

posted @ 2018-01-29 20:38 一剑侵心阅读(216) 评论(0) 推荐(0) 编辑

Spark 性能调优零散知识

摘要：1. 如果 Spark 中 CPU 的使用率不够高，可以考虑为当前的程序分配更多的 Executor，或者增加更多的 Worker 实例来充分的使用多核的潜能 2. 适当设置 Partition 分片数是非常重要的，过少的 Partition 分片数可能会因为每个 Partition 数据量太大而阅读全文

posted @ 2018-01-19 19:59 一剑侵心阅读(375) 评论(0) 推荐(0) 编辑

Spark Checkpoint 概述

摘要：有时候，Transformation 的 RDD 非常多或者具体 Transformation 产生的 RDD 本身计算特别复杂和耗时，此时我们必须考虑对计算结果数据进行持久化。与 persist 不同，persist 是优先将结果放入内存，内存不够的情况下，会放在磁盘。无论是放内存还是磁盘，都是不阅读全文

posted @ 2018-01-14 21:58 一剑侵心阅读(986) 评论(0) 推荐(0) 编辑

CacheManager 概述

摘要：1. CacheManager 管理缓存，而缓存可以是基于内存的缓存，也可以是基于磁盘的缓存 2. CacheManager 需要通过 BlockMananger 来操作数据； 3. 当 Task 运行的时候会调用 RDD 的 compute 方法来进行计算，而 compute 方法会调用 iter 阅读全文

posted @ 2018-01-11 20:21 一剑侵心阅读(950) 评论(0) 推荐(0) 编辑

某人视频教学中提到的一些问题

摘要：1. RDD1 和 RDD2 进行 Join 操作，其中采用采样的方式发现 RDD1 中有严重的数据倾斜的 Key 第一步：采用 Spark RDD 中提供的采样接口，基于采样的数据可以计算出哪个（哪些）Key 的 Values 个数最多第二步：把全休数据分成两部分，即把原来一个RDD1 变成阅读全文

posted @ 2018-01-08 21:40 一剑侵心阅读(158) 评论(0) 推荐(0) 编辑

某人视频中提到的 Spark Streaming 优化的几点事项

摘要：某人，并未提他的名字，是因为看的视频是1年前的，视频里他吹得厉害。我看视频时，查了一下他在视频里说的要做到的东西，结果上网一查，就看到了很多人说他骗了钱后，就不管交了学费的人了。真假无从查起。但是无风不起浪。也真没查到他说的要做出来的东西发布出来。所以这里不那人的名字了。只把他说的知识拿过来，做些笔阅读全文

posted @ 2018-01-08 21:39 一剑侵心阅读(1452) 评论(0) 推荐(0) 编辑

公告

昵称：一剑侵心
园龄： 8年6个月
粉丝： 24
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

随笔档案

Linux

Spring

SpringMVC获得HttpServletRequest

一剑侵心

01 2018 档案

公告

搜索

我的标签

随笔分类

随笔档案

Linux

Spring

阅读排行榜

推荐排行榜

最新评论