会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大风起兮2018
博客园
首页
新随笔
联系
订阅
管理
2021年1月20日
[数据治理] - 技术 - SpringBoot
摘要: 入职公司后,被分配做数据治理平台的自研工作。主要是负责数据治理平台的后台开发工作。 这篇博文主要记录一下学习到的SpringBoot知识: java基础: import java.sql.Connection;import java.sql.DriverManager;import java.sql
阅读全文
posted @ 2021-01-20 16:52 极速遁走
阅读(136)
评论(0)
推荐(0)
2021年1月6日
【算法】——LRU
摘要: LRU是Least Resently Used的缩写,指最近最少使用,是一种常见的页面置换算法。 它为每个页面标记了一个访问时间,淘汰页面时就选择访问时间距离现在最远的。 目的是节省内存空间。 参考网站: https://baike.baidu.com/item/LRU/1269842?fr=ala
阅读全文
posted @ 2021-01-06 17:15 极速遁走
阅读(199)
评论(0)
推荐(0)
【大数据开发工程师】面试——HBase
摘要: HBase版本:2.2.4 架构 Region Server是Regoin的管理者,其实现类为HRegoinServer;它主要负责对数据的操作;compactRegoin + splitRegoin Master是所有Regoin Server的管理者,其实现类为HMaster。它主要负责对表的操
阅读全文
posted @ 2021-01-06 16:32 极速遁走
阅读(107)
评论(0)
推荐(0)
2021年1月5日
【大数据开发工程师】面试——Redis
摘要: 是什么 开源的 key-value 存储系统,noSQL数据库。 redis的优势 数据结构、底层实现及应用场景 string:简单地 get / set 缓存。 hash:可以缓存kafka偏移量,用户资料。比如命令:hmset user1 name "lin" sex "male" age "2
阅读全文
posted @ 2021-01-05 22:45 极速遁走
阅读(118)
评论(0)
推荐(0)
【大数据开发工程师】面试——Sqoop、Canal、Maxwell
摘要: sqoop主要用来做离线任务,每天定时执行脚本。 canal和maxwell主要用来做实时任务或拉链表,实时监控表的变化。 Sqoop 项目经验 Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用--input-nul
阅读全文
posted @ 2021-01-05 18:59 极速遁走
阅读(1194)
评论(0)
推荐(0)
2021年1月4日
【大数据开发工程师】面试——Spark Shuffle
摘要: 引起shuffle的算子 所谓shuffle就是指把数据打乱重新组合。指数据从map task输出到reduce task输入的这段过程。 引起shuffle的算子有: repartition类的操作:repartition, coaleasce等 ByKey类的操作:reduceByKey, gr
阅读全文
posted @ 2021-01-04 21:22 极速遁走
阅读(315)
评论(0)
推荐(0)
【大数据开发工程师】面试——JAVA题之LinkedHashMap
摘要: LinkedHashMap继承了HashMap,但是LinkedHashMap保留了数据插入时的顺序。
阅读全文
posted @ 2021-01-04 17:08 极速遁走
阅读(95)
评论(0)
推荐(0)
flink流批一体
摘要: 在大数据处理计算领域,有离线计算和实时计算两种模式。一直以来, 我们都是用mapreduce / hive / sparkSQL来处理离线场景,用 sparkStreaming / flink处理实时场景,但是这种lambda架构会导致一个问题:进行更改时要同时更改两套代码,进行同步。 flink流
阅读全文
posted @ 2021-01-04 17:07 极速遁走
阅读(1185)
评论(0)
推荐(0)
【大数据开发工程师】面试——海量数据处理 之 Top K问题
摘要: 问题示例: 从十亿个正整数中找出指定的数字。或者排序。 思路 先去重 1. 直接排序。然后在排序后的集合上进行查找,取出前K位。 问题是:int - 32位 - 8个字节,10亿个数*8字节得 4G存储空间。现在大部分机器内存都在8G以上,服务器内存都在128G,这个思路也能做排序。 但是我们的目标
阅读全文
posted @ 2021-01-04 16:53 极速遁走
阅读(164)
评论(0)
推荐(0)
【大数据开发工程师】面试——JAVA题之HashSet
摘要: HashSet 作用:保证数据的唯一。 public class HashSet<E> extends AbstractSet<E> implements Set<E>, Cloneable, java.io.Serializable{ private transient HashMap<E,Obj
阅读全文
posted @ 2021-01-04 16:00 极速遁走
阅读(103)
评论(0)
推荐(0)
下一页
公告