2017年9月14日
摘要: Hadoop fs:使用面最广,可以操作任何文件系统。 hadoop dfs与hdfs dfs:只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后者。 参考:http://blog.csdn.net/pipisorry/article/detai 阅读全文
posted @ 2017-09-14 17:40 yanzibuaa 阅读(1671) 评论(0) 推荐(0) 编辑
摘要: Hadoop 的HDFS 底层使用RPC实现 RPC的消息体通常使用序列化编码 阅读全文
posted @ 2017-09-14 17:39 yanzibuaa 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 1、如果用到其他库的Table或View,务必在当前库中建立View来实现跨库操作,最好不要直接使用“databse.dbo.table_name”,因为sp_depends不能显示出该SP所使用的跨库table或view,不方便校验。 2、提交存储过程前,必须已经使用set showplan on 阅读全文
posted @ 2017-09-14 17:38 yanzibuaa 阅读(2313) 评论(0) 推荐(0) 编辑
摘要: 转发文章 作者:勾满誉链接:https://www.zhihu.com/question/52187221/answer/129439263来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 如果你毕业了, 去个什么公司,应聘个“大数据开发工程师”什么的,我们来看看职位要 阅读全文
posted @ 2017-09-14 17:37 yanzibuaa 阅读(2009) 评论(0) 推荐(1) 编辑
摘要: http://blog.csdn.net/heyutao007/article/details/38741207 阅读全文
posted @ 2017-09-14 17:34 yanzibuaa 阅读(161) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/map_lixiupeng/article/details/40861791 http://blog.csdn.net/map_lixiupeng/article/details/40861475 阅读全文
posted @ 2017-09-14 17:33 yanzibuaa 阅读(472) 评论(0) 推荐(0) 编辑
摘要: 1 Compact的方式 HBase MemStore每次进行Flush操作都会产生新的HFile文件,文件越来越多,会带来读性能问题, HBase使用Compact机制来解决这个问题。 HBase的Compact分两种minor compact 和major compact。 Minor comp 阅读全文
posted @ 2017-09-14 17:32 yanzibuaa 阅读(1861) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/map_lixiupeng/article/details/40832929 阅读全文
posted @ 2017-09-14 17:32 yanzibuaa 阅读(780) 评论(0) 推荐(0) 编辑
摘要: 1. 为什么split 最初一个Table 只有一个region(因此只能存放在一个region server上)。随着数据的不断写入,HRegion越来越大,当到达一定程度后分裂为两个,通过负载均衡可以将不同的region分配到不同的region server上,发挥分布式系统的优点。 注意:co 阅读全文
posted @ 2017-09-14 17:30 yanzibuaa 阅读(1665) 评论(0) 推荐(0) 编辑
摘要: 1.Region 分配 HMaster负责为Region 分配Region Server,一个Region 只能分配给一个Region server。 HMaster中 记录: 哪些Region 已经分配到哪些Region Server中 哪些Region server 可用 哪些Region 尚未 阅读全文
posted @ 2017-09-14 17:14 yanzibuaa 阅读(2422) 评论(0) 推荐(0) 编辑
摘要: 1.HBase系统架构 2. HRegion Sever架构图 0.94之前的版本 0.96+的版本 WAL: 即Write Ahead Log, 是HDFS上一个文件,早期版本中称为HLog,用以存储尚未进行持久化的数据。 所有写操作都会先保证将数据写入这个Log文件后,才会真正更新MemStor 阅读全文
posted @ 2017-09-14 17:08 yanzibuaa 阅读(8060) 评论(0) 推荐(0) 编辑
摘要: 遗留问题: 数据在更新时首先写入Log(WAL log)和内存(MemStore)中,MemStore中的数据是排序的,当MemStore累计到一定阈值时,就会创建一个新的MemStore,并且将老的MemStore添加到flush队列,由单独的线程flush到磁盘上,成为一个StoreFile。于 阅读全文
posted @ 2017-09-14 15:32 yanzibuaa 阅读(295) 评论(0) 推荐(0) 编辑