摘要: 树的概念及结构 树的概念 树是一种非线性的数据结构,它是由n(n>=0)个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树,也就是说它是根在上,而叶在下的。 有一个特殊的结点,称为根结点,根节点没有前驱结点。除根节点外,其余结点被分成m(m > 0)个互不相交的集合T1、T 阅读全文
posted @ 2022-03-23 00:19 MMarshall 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 生产者消费者问题介绍 生产者消费者问题是一个经典的多线程同步问题。该问题描述了两个进程——即所谓的“生产者”和“消费者”——在实际运行时会发生的问题。生产者的主要作用是不断的生成数据,而与此同时,消费者则不断消耗这些数据。该问题的关键就是要保证当生产者生产了产品后,若消费者还没有消费此产品,则生产者 阅读全文
posted @ 2022-03-09 23:15 MMarshall 阅读(144) 评论(0) 推荐(0) 编辑
摘要: MapReduce的切片机制 在Map阶段会将读取进来的数据进行逻辑切片进行处理。此切片与HDFS的切块不同,HDFS的切块是将文件按照block块的形式保存起来,mr则是将文件按照切片数进行计算默认切片大小等于块大小,也就是128m切一片,切片数与MapTask的数量是一致的,MapTask的并行 阅读全文
posted @ 2022-03-04 00:03 MMarshall 阅读(390) 评论(0) 推荐(0) 编辑
摘要: NameNode工作机制 nn负责管理块的元数据信息,元数据信息为fsimage和edits预写日志,通过edits预写日志来更新fsimage中的元数据信息,每次namenode启动时,都会将磁盘中的fsimage读入到内存当达到snn的checkpoint标准时(一小时或100W次操作),由sc 阅读全文
posted @ 2022-03-03 23:57 MMarshall 阅读(323) 评论(0) 推荐(0) 编辑
摘要: hdfs上传流程 首先客户端向nn请求上传文件、nn经过检查回应客户端是否可以上传、客户端得到同意后向nn请求上传第一块文件的dn、nn返回给客户端dn的地址、客户端与其中一个dn1建立连接然后dn1再与dn2连接,dn2再与dn3进行连接、dn3,dn2,dn1,客户端逐级回应连接成功、客户端开始 阅读全文
posted @ 2022-03-03 23:51 MMarshall 阅读(459) 评论(0) 推荐(0) 编辑
摘要: 二分查找 二分查找也称折半查找(Binary Search),它是一种效率较高的查找方法。但是,折半查找要求线性表必须采用顺序存储结构,而且表中元素按关键字有序排列。 算法原理: 首先,假设表中元素是按升序排列,将表中间位置记录的关键字与查找关键字比较,如果两者相等,则查找成功; 否则利用中间位置记 阅读全文
posted @ 2022-03-03 14:17 MMarshall 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 冒泡排序(Bubble Sort) 冒泡排序是一种计算机科学领域的较简单的排序算法。 它重复地走访过要排序的元素列,依次比较两个相邻的元素,如果顺序(如从大到小、首字母从Z到A)错误就把他们交换过来。走访元素的工作是重复地进行直到没有相邻元素需要交换,也就是说该元素列已经排序完成。 算法原理: 1. 阅读全文
posted @ 2022-03-03 14:10 MMarshall 阅读(37) 评论(0) 推荐(0) 编辑
摘要: HDFS是一个分布式文件存储系统,前身来自于Google发布的大数据三驾马车之一GFS (Google File System)。 HDFS的优点: 1、高容错 hdfs具有很高的容错性,数据自动保存为多个副本,默认为三副本机制,还能够通过自己自定义副本数来提高容错性。 当某个节点的副本丢失后,可以 阅读全文
posted @ 2022-03-02 15:40 MMarshall 阅读(750) 评论(0) 推荐(0) 编辑