摘要:
Hadoop 3.x 与Hadoop 2.x 的区别和优化点 #通用性 1.精简Hadoop内核,包括剔除过期的API和实现,将默认组件实现替换成最高效的实现(比如将FileOutputCommitter缺省实现换为v2版本,废除hftp转由webhdfs替代,移除Hadoop子实现序列化库org. 阅读全文
摘要:
什么是分布式系统? 拿一个最简单的例子,就比如说我们的图书管理系统。之前的系统包含了所有的功能,比如用户注册登录、管理员功能、图书借阅管理等。这叫做集中式系统。也就是一个人干了好几件事。 后来随着功能的增多,用户量也越来越大。集中式系统维护太麻烦,拓展性也不好。于是就考虑着把这些功能分开。通俗的理解 阅读全文
摘要:
#1.什么是脑裂? 脑裂是Hadoop2.X版本后出现的全新问题,从字面意思我们可以理解为“大脑分裂”;我们想一下,当一个正常人,突然出现有了两个大脑,而且这两个大脑都有自己的意识,对于这个人来说肯定是灾难性问题。同理,在Hadoop中,为了防止单点失效问题而出现了两个namenode(HA机制), 阅读全文
摘要:
1、集群的最主要瓶颈是:磁盘IO 面对大数据,读取数据需要经过IO,这里可以把IO理解为水的管道。管道越大越强,我们对于T级的数据读取就越快。所以IO的好坏,直接影响了集群对于数据的处理。 下面详细介绍IO 读/写IO 磁盘控制器向磁盘发出一次读/写指令,给出开始扇区的地址和向后连续读/写的扇区的个 阅读全文
摘要:
MapReduce过程中的shuffle,进行了3次排序,一次快排,两次归并排序。 阅读全文
摘要:
hive很简单,有sql基础很容易上手 阅读全文
摘要:
##面试题: hive 内部表和外部表的区别? hive 是如何实现分区的? Hive 有哪些方式保存元数据,各有哪些优缺点? hive中order by、distribute by、sort by和cluster by的区别和联系 hive 中的压缩格式 RCFile、 TextFile、 Seq 阅读全文
摘要:
什么是云原生应用? 原文:《一顿操作猛如虎!云原生应用为何如此优秀?》 https://blog.csdn.net/csdnnews/article/details/90168599 #从Function到Service 一、从函数说起 我是1993年学习电脑的。学习的开发语言有三种:汇编、C、Db 阅读全文
摘要:
docker compose 官放推荐的下载方式是这样的: sudo curl -L "https://github.com/docker/compose/releases/download/1.26.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr 阅读全文