摘要: 入职公司后,被分配做数据治理平台的自研工作。主要是负责数据治理平台的后台开发工作。 这篇博文主要记录一下学习到的SpringBoot知识: java基础: import java.sql.Connection;import java.sql.DriverManager;import java.sql 阅读全文
posted @ 2021-01-20 16:52 极速遁走 阅读(132) 评论(0) 推荐(0) 编辑
摘要: LRU是Least Resently Used的缩写,指最近最少使用,是一种常见的页面置换算法。 它为每个页面标记了一个访问时间,淘汰页面时就选择访问时间距离现在最远的。 目的是节省内存空间。 参考网站: https://baike.baidu.com/item/LRU/1269842?fr=ala 阅读全文
posted @ 2021-01-06 17:15 极速遁走 阅读(198) 评论(0) 推荐(0) 编辑
摘要: HBase版本:2.2.4 架构 Region Server是Regoin的管理者,其实现类为HRegoinServer;它主要负责对数据的操作;compactRegoin + splitRegoin Master是所有Regoin Server的管理者,其实现类为HMaster。它主要负责对表的操 阅读全文
posted @ 2021-01-06 16:32 极速遁走 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 是什么 开源的 key-value 存储系统,noSQL数据库。 redis的优势 数据结构、底层实现及应用场景 string:简单地 get / set 缓存。 hash:可以缓存kafka偏移量,用户资料。比如命令:hmset user1 name "lin" sex "male" age "2 阅读全文
posted @ 2021-01-05 22:45 极速遁走 阅读(118) 评论(0) 推荐(0) 编辑
摘要: sqoop主要用来做离线任务,每天定时执行脚本。 canal和maxwell主要用来做实时任务或拉链表,实时监控表的变化。 Sqoop 项目经验 Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用--input-nul 阅读全文
posted @ 2021-01-05 18:59 极速遁走 阅读(1144) 评论(0) 推荐(0) 编辑
摘要: 引起shuffle的算子 所谓shuffle就是指把数据打乱重新组合。指数据从map task输出到reduce task输入的这段过程。 引起shuffle的算子有: repartition类的操作:repartition, coaleasce等 ByKey类的操作:reduceByKey, gr 阅读全文
posted @ 2021-01-04 21:22 极速遁走 阅读(268) 评论(0) 推荐(0) 编辑
摘要: LinkedHashMap继承了HashMap,但是LinkedHashMap保留了数据插入时的顺序。 阅读全文
posted @ 2021-01-04 17:08 极速遁走 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 在大数据处理计算领域,有离线计算和实时计算两种模式。一直以来, 我们都是用mapreduce / hive / sparkSQL来处理离线场景,用 sparkStreaming / flink处理实时场景,但是这种lambda架构会导致一个问题:进行更改时要同时更改两套代码,进行同步。 flink流 阅读全文
posted @ 2021-01-04 17:07 极速遁走 阅读(1148) 评论(0) 推荐(0) 编辑
摘要: 问题示例: 从十亿个正整数中找出指定的数字。或者排序。 思路 先去重 1. 直接排序。然后在排序后的集合上进行查找,取出前K位。 问题是:int - 32位 - 8个字节,10亿个数*8字节得 4G存储空间。现在大部分机器内存都在8G以上,服务器内存都在128G,这个思路也能做排序。 但是我们的目标 阅读全文
posted @ 2021-01-04 16:53 极速遁走 阅读(155) 评论(0) 推荐(0) 编辑
摘要: HashSet 作用:保证数据的唯一。 public class HashSet<E> extends AbstractSet<E> implements Set<E>, Cloneable, java.io.Serializable{ private transient HashMap<E,Obj 阅读全文
posted @ 2021-01-04 16:00 极速遁走 阅读(102) 评论(0) 推荐(0) 编辑