极速遁走 - 博客园

2021年1月20日

摘要：入职公司后，被分配做数据治理平台的自研工作。主要是负责数据治理平台的后台开发工作。这篇博文主要记录一下学习到的SpringBoot知识： java基础： import java.sql.Connection;import java.sql.DriverManager;import java.sql 阅读全文

posted @ 2021-01-20 16:52 极速遁走阅读(142) 评论(0) 推荐(0)

2021年1月6日

【算法】——LRU

摘要： LRU是Least Resently Used的缩写，指最近最少使用，是一种常见的页面置换算法。它为每个页面标记了一个访问时间，淘汰页面时就选择访问时间距离现在最远的。目的是节省内存空间。参考网站： https://baike.baidu.com/item/LRU/1269842?fr=ala 阅读全文

posted @ 2021-01-06 17:15 极速遁走阅读(217) 评论(0) 推荐(0)

【大数据开发工程师】面试——HBase

摘要： HBase版本：2.2.4 架构 Region Server是Regoin的管理者，其实现类为HRegoinServer;它主要负责对数据的操作；compactRegoin + splitRegoin Master是所有Regoin Server的管理者，其实现类为HMaster。它主要负责对表的操阅读全文

posted @ 2021-01-06 16:32 极速遁走阅读(109) 评论(0) 推荐(0)

2021年1月5日

【大数据开发工程师】面试——Redis

摘要：是什么开源的 key-value 存储系统，noSQL数据库。 redis的优势数据结构、底层实现及应用场景 string：简单地 get / set 缓存。 hash：可以缓存kafka偏移量，用户资料。比如命令：hmset user1 name "lin" sex "male" age "2 阅读全文

posted @ 2021-01-05 22:45 极速遁走阅读(122) 评论(0) 推荐(0)

【大数据开发工程师】面试——Sqoop、Canal、Maxwell

摘要： sqoop主要用来做离线任务，每天定时执行脚本。 canal和maxwell主要用来做实时任务或拉链表，实时监控表的变化。 Sqoop 项目经验 Hive中的Null在底层是以“\N”来存储，而MySQL中的Null在底层就是Null，为了保证数据两端的一致性。在导出数据时采用--input-nul 阅读全文

posted @ 2021-01-05 18:59 极速遁走阅读(1218) 评论(0) 推荐(0)

2021年1月4日

【大数据开发工程师】面试——Spark Shuffle

摘要：引起shuffle的算子所谓shuffle就是指把数据打乱重新组合。指数据从map task输出到reduce task输入的这段过程。引起shuffle的算子有： repartition类的操作：repartition, coaleasce等 ByKey类的操作：reduceByKey, gr 阅读全文

posted @ 2021-01-04 21:22 极速遁走阅读(356) 评论(0) 推荐(0)

【大数据开发工程师】面试——JAVA题之LinkedHashMap

摘要： LinkedHashMap继承了HashMap，但是LinkedHashMap保留了数据插入时的顺序。阅读全文

posted @ 2021-01-04 17:08 极速遁走阅读(98) 评论(0) 推荐(0)

flink流批一体

摘要：在大数据处理计算领域，有离线计算和实时计算两种模式。一直以来，我们都是用mapreduce / hive / sparkSQL来处理离线场景，用 sparkStreaming / flink处理实时场景，但是这种lambda架构会导致一个问题：进行更改时要同时更改两套代码，进行同步。 flink流阅读全文

posted @ 2021-01-04 17:07 极速遁走阅读(1195) 评论(0) 推荐(0)

【大数据开发工程师】面试——海量数据处理之 Top K问题

摘要：问题示例：从十亿个正整数中找出指定的数字。或者排序。思路先去重 1. 直接排序。然后在排序后的集合上进行查找，取出前K位。问题是：int - 32位 - 8个字节，10亿个数*8字节得 4G存储空间。现在大部分机器内存都在8G以上，服务器内存都在128G，这个思路也能做排序。但是我们的目标阅读全文

posted @ 2021-01-04 16:53 极速遁走阅读(176) 评论(0) 推荐(0)

【大数据开发工程师】面试——JAVA题之HashSet

摘要： HashSet 作用：保证数据的唯一。 public class HashSet<E> extends AbstractSet<E> implements Set<E>, Cloneable, java.io.Serializable{ private transient HashMap<E,Obj 阅读全文

posted @ 2021-01-04 16:00 极速遁走阅读(110) 评论(0) 推荐(0)

大风起兮2018

公告