随笔分类 -  hadoop

hadoop的基础操作
数据的列式与行式存储以及大数据的存储格式
摘要:一、数据的列式与行式存储 1、列式存储是相对于传统关系型数据库的行式存储来说的。两者的区别就是如何组织表;从下图可知,行式存储是将数据的一条记录(多列组成)存储起来的,但是列式存储是将数据的一条记录的各列分开进行存储。 2、区别 (1)数据写入区别 1)行存储的写入是一次完成。可以保证写入过程的成功 阅读全文

posted @ 2020-09-23 15:04 hdc520 阅读(1851) 评论(0) 推荐(0) 编辑

wordcount代码示例
摘要:一、wordCount 基类Mapper类和Reducer类中都是只包含四个方法:setup方法,cleanup方法,run方法,map方法。在run方法中调用了上面的三个方法:setup方法,map方法,cleanup方法。其中setup方法和cleanup方法默认是不做任何操作,且它们只被执行一 阅读全文

posted @ 2020-06-27 12:14 hdc520 阅读(480) 评论(0) 推荐(0) 编辑

mapreduce求topN
摘要:(1)利用TreeMap排序,该方式利用小顶堆和集合重复原理的方式 , 每过来一个数据 , 跟堆顶数据进行比较 , 如果比最小的大 , 则将过来的数据替换堆顶元素 , 否则直接跳过数据 . 以此对数据进行排序。 (2)在众多的Mapper的端,首先计算出各端Mapper的TopN,然后在将每一个Ma 阅读全文

posted @ 2020-05-16 15:56 hdc520 阅读(1218) 评论(0) 推荐(0) 编辑

Hive以及spark的Join过程
摘要:Join大致包括三个要素:Join方式、Join条件以及过滤条件。其中过滤条件也可以通过AND语句放在Join条件中。 二、Hive/MR中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。介绍两种join的原理和机制。 (1)Com 阅读全文

posted @ 2020-04-28 10:41 hdc520 阅读(1779) 评论(0) 推荐(0) 编辑

Hadoop面试整理
摘要:1、Hadoop1.x和2.x之间的区别:Hadoop 1.0主要由两个分支组成:MapReduce和HDFS,在高可用、扩展性等方面存在问题 (1)HDFS存在的问题 1)NameNode单点故障,难以应用于在线场景。 2)NameNode压力过大,且内存受限,影响扩展性。 (2)MapReduc 阅读全文

posted @ 2020-03-28 17:20 hdc520 阅读(3338) 评论(0) 推荐(0) 编辑

RPC协议解析
摘要:RPC(Remote Procedure Call Protocol)远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。简言之,RPC使得程序能够像访问本地系统资源一样,去访问远端系统资源。比较关键的一些方面包括:通讯协议、序列化、资源(接口)描述、服务框 阅读全文

posted @ 2019-12-24 17:43 hdc520 阅读(4790) 评论(0) 推荐(0) 编辑

hadoop中yarn
摘要:一、yarn的概述 Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管理器系统,Yarn从hadoop 2引入,最初是为了改善MapReduce的实现,但是它具有通用性,同样执行其他分布式计算模式。 在MapReduce1中,具有如 阅读全文

posted @ 2019-12-17 18:30 hdc520 阅读(269) 评论(0) 推荐(0) 编辑

BloomFilter和Bitmap算法
摘要:一、Bloom Filter的算法: 为了降低冲突的概念,Bloom Filter使用了多个哈希函数,而不是一个。创建一个m位BitSet,先将所有位初始化为0,然后选择k个不同的哈希函数。第i个哈希函数对字符串str哈希的结果记为h(i,str),且h(i,str)的范围是0到m-1 处理字符串的 阅读全文

posted @ 2019-09-05 20:34 hdc520 阅读(566) 评论(0) 推荐(0) 编辑

mapreduce图解系列
摘要:1、Hadoop的hdfs https://www.cnblogs.com/jstarseven/p/7682293.html 2、Hadoop的yarn https://segmentfault.com/a/1190000018775822?utm_source=tag-newest 3、Hado 阅读全文

posted @ 2019-07-12 11:10 hdc520 阅读(366) 评论(0) 推荐(0) 编辑

Hadoop的配置文件
摘要:hadoop-env.sh:脚本中所用到的环境变量,以运行Hadoop mapred-env.sh:脚本中所用到的环境变量,以运行mapreduce yarn-env.sh:脚本中所用到的环境变量,以运行YARN core-site.xml:hadoop core 的配置选项,如HDFS,MapRe 阅读全文

posted @ 2019-06-17 10:08 hdc520 阅读(341) 评论(0) 推荐(0) 编辑

Hadoop中的全排序和二次排序
摘要:1、MapReduce的全排序 (1)使用一个reduce进行排序。 MapReduce默认保证同一个分区内的Key是有序的,但是不保证全局有序。如果我们将所有的数据全部发送到一个Reduce,就可以实现结果全局有序。所有的数据都发送到一个Reduce进行排序,这样不能充分利用集群的计算资源,而且在 阅读全文

posted @ 2019-06-15 11:51 hdc520 阅读(459) 评论(0) 推荐(0) 编辑

Hadoop的基础命令
摘要:首次使用Hadoop时,格式化文件系统命令:hdfs namenode -format 启动HDFS:start-dfs.sh 启动YARN:start-all.sh start-all.sh等价于start-dfs.sh + start-yarn.sh Hadoop 删除文件夹和文件的命令: 删除 阅读全文

posted @ 2019-06-07 17:41 hdc520 阅读(2268) 评论(0) 推荐(0) 编辑

map/reduce之间的shuffle,partition,combiner过程的详解
摘要:https://blog.csdn.net/iemdm1110/article/details/71744010 简单概述: shuffle 开始和结束时间: 开始时间:map执行完成有输出文件产生,shuffle开始; 结束时间:reduce输入文件最终确定了,shuffle结束; shuffle 阅读全文

posted @ 2019-03-18 22:10 hdc520 阅读(495) 评论(0) 推荐(0) 编辑

导航