摘要: MySQL的JOIN相关操作,是通过“嵌套循环连接算法,NLJ”或者该算法的优化变体“块嵌套循环连接算法,BNLJ”来实现的。 嵌套循环连接算法 两个表join时,可以简单理解为两层for循环,外层循环一般称作驱动表,循坏内层称作被驱动表。每次取出驱动表中一条数据,然后通过内循环遍历被驱动表,并在循 阅读全文
posted @ 2021-02-02 21:13 数大招疯-公众号同名 阅读(230) 评论(0) 推荐(0) 编辑
摘要: Yarn Shared Cache 的目的是降低 Yarn application 因为依赖资源的上传以及本地化带来的时间消耗。通过使用该功能, 对于相同的依赖资源,Yarn application 可以直接使用其他 application 上传的资源或者该 application 的先前运行时自己 阅读全文
posted @ 2021-02-02 21:11 数大招疯-公众号同名 阅读(515) 评论(0) 推荐(0) 编辑
摘要: 概览 离线fsimage查看器 是一个将 hdfs fsimage 文件的内容转储为人类可读格式的工具,并提供只读的 WebHDFS API,以允许离线分析和检查 Hadoop 集群的名称空间。该工具能够相对快速地处理非常大的fsimage文件。该工具处理 Hadoop 2.4及以上版本中包含的格式 阅读全文
posted @ 2021-02-02 21:09 数大招疯-公众号同名 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 概览 离线fsimage查看器 是一个将 hdfs fsimage 文件的内容转储为人类可读格式的工具,并提供只读的 WebHDFS API,以允许离线分析和检查 Hadoop 集群的名称空间。该工具能够相对快速地处理非常大的fsimage文件。该工具处理 Hadoop 2.4及以上版本中包含的格式 阅读全文
posted @ 2021-02-02 21:08 数大招疯-公众号同名 阅读(1090) 评论(0) 推荐(0) 编辑
摘要: 背景 在 HDFS 中,读操作通常要经过 DataNode。因此,当客户端请求 DataNode 读取文件时,DataNode 从磁盘读取该文件并通过 TCP 套接字将数据发送给客户端。所谓的“短路”读取就是绕过 DataNode,允许客户端直接读取文件。当然,这只有在客户端与数据共存的情况下才可能 阅读全文
posted @ 2021-02-02 21:04 数大招疯-公众号同名 阅读(520) 评论(0) 推荐(0) 编辑
摘要: 归档存储是一种将不断增长的存储容量与计算容量分离开来的解决方案。密度更高、存储成本更低、计算能力更低的节点正在成为可用的、可以在集群中用作冷存储。根据策略,可以将热数据移到冷数据。增加节点到冷存储中可以增加不依赖于集群计算容量的存储容量。 异构存储和归档存储提供的框架对HDFS体系结构进行了概括,使 阅读全文
posted @ 2021-02-01 20:43 数大招疯-公众号同名 阅读(1210) 评论(0) 推荐(0) 编辑
摘要: 概览 Diskbalancer 是一个命令行工具,可以在某个datanode的所有磁盘上均匀地分布数据。这个工具不同于负责整个集群数据平衡的 Balancer 。由于以下几个原因,数据可能在节点上的磁盘之间不均匀地传播。这可能是由于大量的写和删除操作或者磁盘替换造成的。这个工具对给定的datanod 阅读全文
posted @ 2021-02-01 20:42 数大招疯-公众号同名 阅读(1445) 评论(0) 推荐(0) 编辑
摘要: 概述 混合负载生成器(SLG)是用于在不同客户端负载情况下测试NameNode行为的工具。用户可以通过指定读取和写入的概率来生成读取,写入和列表请求的不同混合。用户通过调整工作线程数量和操作之间的延迟参数来控制负载强度。在负载生成器运行时,用户可以分析和监视NameNode的运行。当负载生成器退出时 阅读全文
posted @ 2021-02-01 20:40 数大招疯-公众号同名 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 目的 副本策略开销很大 -- HDFS 中默认的3复制方案在存储空间和其他资源(例如,网络带宽)上有200% 的开销。然而,对于 i/o 活动相对较低的温和和冷数据集,在正常操作中很少访问额外的块副本,但仍然消耗与一个副本相同的资源量。 因此,一个自然的改进是使用擦除编码(EC)来代替副本,它提供了 阅读全文
posted @ 2021-02-01 20:39 数大招疯-公众号同名 阅读(1022) 评论(0) 推荐(0) 编辑
摘要: 概览 HDFS 中的集中式缓存管理 是一种明确的缓存机制,允许用户指定由 HDFS 缓存的路径。NameNode 将与磁盘上具有所需block的 datanode 通信,并指示它们将block缓存到off-heap缓存中。 HDFS 中的集中式缓存管理有许多显著的优点。 显式指定可以防止经常使用的数 阅读全文
posted @ 2021-02-01 20:38 数大招疯-公众号同名 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 概览 HDFS 允许管理员对目录下的子目录和文件个数(Name Quotas),以及目录下数据存储大小(Space Quotas)进行配额限制。名称配额和空间配额是独立运作的,但这两种配额的管理和实施是密切并行的。 名称配额(Name Quotas) 名称配额是对目录树中的文件和目录名的数量的硬限制 阅读全文
posted @ 2021-02-01 20:37 数大招疯-公众号同名 阅读(1134) 评论(0) 推荐(0) 编辑
摘要: 概览 HDFS 快照是文件系统的只读时间点副本。可以在文件系统或整个文件系统的子树上拍摄快照。快照的一些常见用例是数据备份、防止用户错误和灾难恢复。 HDFS 快照的实现是有效的: 快照创建是即时的: 不包括 inode 查找的话,时间的成本为 o (1)。 只有在相对于快照进行修改时才使用额外的内 阅读全文
posted @ 2021-02-01 20:36 数大招疯-公众号同名 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 引言 HDFS 是一个基于硬件的分散式档案系统分散式档案系统。它与现有的分布式文件系统有许多相似之处。然而,与其他分布式文件系统的区别是显著的。HDFS 具有很高的容错能力,可以部署在低成本的硬件上。HDFS 提供对应用程序数据的高吞吐量访问,适用于拥有大型数据集的应用程序。HDFS 放松了一些 P 阅读全文
posted @ 2021-02-01 20:35 数大招疯-公众号同名 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 背景 在 HDFS 中,读操作通常要经过 DataNode。因此,当客户端请求 DataNode 读取文件时,DataNode 从磁盘读取该文件并通过 TCP 套接字将数据发送给客户端。所谓的“短路”读取就是绕过 DataNode,允许客户端直接读取文件。当然,这只有在客户端与数据共存的情况下才可能 阅读全文
posted @ 2021-01-28 21:09 数大招疯-公众号同名 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 背景 HDFS有两个主要层: Namespace命名空间 由目录、文件和块组成 它支持所有与命名空间相关的文件系统操作,如创建、删除、修改和列出文件和目录 Block管理服务 块管理(在 Namenode 中完成) 通过处理注册和周期性心跳提供数据阳极群集成员资格 处理块报告并维护块的位置 支持块相 阅读全文
posted @ 2021-01-27 20:04 数大招疯-公众号同名 阅读(784) 评论(0) 推荐(0) 编辑
摘要: Hadoop本地库 由于性能和 Java 不可实现功能等原因,Hadoop 具有某些组件的本地实现。在 unix 平台上,该库命名为 libhadoop.so。 用法 使用本地 hadoop 库相当简单: 可以下载一个hadoop发行版,它将包含原生hadoop库的预构建版本,也可以自己编译构建原生 阅读全文
posted @ 2021-01-27 20:02 数大招疯-公众号同名 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 目的 本文档介绍了如何设置和配置单节点Hadoop安装,以便您可以使用Hadoop MapReduce和Hadoop分布式文件系统(HDFS)快速执行简单的操作。 先决条件 支持平台 支持GNU / Linux作为开发和生产平台。Hadoop在具有2000个节点的GNU / Linux集群上得到了证 阅读全文
posted @ 2021-01-27 20:01 数大招疯-公众号同名 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 触发MemStore刷写的机制大概分为:人为手动触发、HBase定时触发、HLog数量限制触发,其他事件触发(Compact、Split、Truncate等)、内存限制触发。其中内存限制触发细分为:MemStore级别限制触发、Region级别限制触发、RegionServer级别限制触发。 阅读全文
posted @ 2021-01-26 21:15 数大招疯-公众号同名 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 如果HBase中的一张表只有一个列族的话,等于是这个列族包含了这张表的所有列,也就是将表正行的数据连续存储在了一起,就等于是行式存储了。再比如,一张表有多个列族,并且每个列族下仅有一列(虽然HBase不建议这么做),也就是将表的列数据连续存储在了一起,就等于是列式存储了。 阅读全文
posted @ 2021-01-26 21:12 数大招疯-公众号同名 阅读(715) 评论(0) 推荐(0) 编辑
摘要: 由于大数据的4V等特性,给传统数据技术也带来了较大的挑战,一般将解决这些挑战的技术称为大数据技术。 阅读全文
posted @ 2021-01-26 21:11 数大招疯-公众号同名 阅读(691) 评论(0) 推荐(0) 编辑