数大招疯-公众号同名

2021年2月2日

摘要： MySQL的JOIN相关操作，是通过“嵌套循环连接算法，NLJ”或者该算法的优化变体“块嵌套循环连接算法，BNLJ”来实现的。嵌套循环连接算法两个表join时，可以简单理解为两层for循环，外层循环一般称作驱动表，循坏内层称作被驱动表。每次取出驱动表中一条数据，然后通过内循环遍历被驱动表，并在循阅读全文

posted @ 2021-02-02 21:13 数大招疯-公众号同名阅读(230) 评论(0) 推荐(0) 编辑

20 Yarn Shared Cache 共享缓存服务功能简介

摘要： Yarn Shared Cache 的目的是降低 Yarn application 因为依赖资源的上传以及本地化带来的时间消耗。通过使用该功能，对于相同的依赖资源，Yarn application 可以直接使用其他 application 上传的资源或者该 application 的先前运行时自己阅读全文

posted @ 2021-02-02 21:11 数大招疯-公众号同名阅读(515) 评论(0) 推荐(0) 编辑

Hadoop HDFS 元数据Edits文件内容查看

摘要：概览离线fsimage查看器是一个将 hdfs fsimage 文件的内容转储为人类可读格式的工具，并提供只读的 WebHDFS API，以允许离线分析和检查 Hadoop 集群的名称空间。该工具能够相对快速地处理非常大的fsimage文件。该工具处理 Hadoop 2.4及以上版本中包含的格式阅读全文

posted @ 2021-02-02 21:09 数大招疯-公众号同名阅读(291) 评论(0) 推荐(0) 编辑

Hadoop HDFS 元数据fsimage文件内容查看

posted @ 2021-02-02 21:08 数大招疯-公众号同名阅读(1090) 评论(0) 推荐(0) 编辑

HDFS 性能优化-本地短路读取（ Short Circuit Local Reads）

摘要：背景在 HDFS 中，读操作通常要经过 DataNode。因此，当客户端请求 DataNode 读取文件时，DataNode 从磁盘读取该文件并通过 TCP 套接字将数据发送给客户端。所谓的“短路”读取就是绕过 DataNode，允许客户端直接读取文件。当然，这只有在客户端与数据共存的情况下才可能阅读全文

posted @ 2021-02-02 21:04 数大招疯-公众号同名阅读(520) 评论(0) 推荐(0) 编辑

2021年2月1日

HDFS的多级（DISK、SSD）存储策略

摘要：归档存储是一种将不断增长的存储容量与计算容量分离开来的解决方案。密度更高、存储成本更低、计算能力更低的节点正在成为可用的、可以在集群中用作冷存储。根据策略，可以将热数据移到冷数据。增加节点到冷存储中可以增加不依赖于集群计算容量的存储容量。异构存储和归档存储提供的框架对HDFS体系结构进行了概括，使阅读全文

posted @ 2021-02-01 20:43 数大招疯-公众号同名阅读(1210) 评论(0) 推荐(0) 编辑

HDFS磁盘存储均衡器（ Disk Balancer ）

摘要：概览 Diskbalancer 是一个命令行工具，可以在某个datanode的所有磁盘上均匀地分布数据。这个工具不同于负责整个集群数据平衡的 Balancer 。由于以下几个原因，数据可能在节点上的磁盘之间不均匀地传播。这可能是由于大量的写和删除操作或者磁盘替换造成的。这个工具对给定的datanod 阅读全文

posted @ 2021-02-01 20:42 数大招疯-公众号同名阅读(1445) 评论(0) 推荐(0) 编辑

HDFS NameNode性能测试-Synthetic Load Generator

摘要：概述混合负载生成器（SLG）是用于在不同客户端负载情况下测试NameNode行为的工具。用户可以通过指定读取和写入的概率来生成读取，写入和列表请求的不同混合。用户通过调整工作线程数量和操作之间的延迟参数来控制负载强度。在负载生成器运行时，用户可以分析和监视NameNode的运行。当负载生成器退出时阅读全文

posted @ 2021-02-01 20:40 数大招疯-公众号同名阅读(389) 评论(0) 推荐(0) 编辑

HDFS纠删码 Erasure Coding，降低存储成本

摘要：目的副本策略开销很大 -- HDFS 中默认的3复制方案在存储空间和其他资源(例如，网络带宽)上有200% 的开销。然而，对于 i/o 活动相对较低的温和和冷数据集，在正常操作中很少访问额外的块副本，但仍然消耗与一个副本相同的资源量。因此，一个自然的改进是使用擦除编码(EC)来代替副本，它提供了阅读全文

posted @ 2021-02-01 20:39 数大招疯-公众号同名阅读(1022) 评论(0) 推荐(0) 编辑

HDFS基于内存存储-集中式缓存管理

摘要：概览 HDFS 中的集中式缓存管理是一种明确的缓存机制，允许用户指定由 HDFS 缓存的路径。NameNode 将与磁盘上具有所需block的 datanode 通信，并指示它们将block缓存到off-heap缓存中。 HDFS 中的集中式缓存管理有许多显著的优点。显式指定可以防止经常使用的数阅读全文

posted @ 2021-02-01 20:38 数大招疯-公众号同名阅读(347) 评论(0) 推荐(0) 编辑

HDFS子目录个数、目录大小限额 Quota

摘要：概览 HDFS 允许管理员对目录下的子目录和文件个数（Name Quotas），以及目录下数据存储大小（Space Quotas）进行配额限制。名称配额和空间配额是独立运作的，但这两种配额的管理和实施是密切并行的。名称配额（Name Quotas）名称配额是对目录树中的文件和目录名的数量的硬限制阅读全文

posted @ 2021-02-01 20:37 数大招疯-公众号同名阅读(1134) 评论(0) 推荐(0) 编辑

HDFS快照snapshot功能

摘要：概览 HDFS 快照是文件系统的只读时间点副本。可以在文件系统或整个文件系统的子树上拍摄快照。快照的一些常见用例是数据备份、防止用户错误和灾难恢复。 HDFS 快照的实现是有效的: 快照创建是即时的: 不包括 inode 查找的话，时间的成本为 o (1)。只有在相对于快照进行修改时才使用额外的内阅读全文

posted @ 2021-02-01 20:36 数大招疯-公众号同名阅读(333) 评论(0) 推荐(0) 编辑

HDFS架构

摘要：引言 HDFS 是一个基于硬件的分散式档案系统分散式档案系统。它与现有的分布式文件系统有许多相似之处。然而，与其他分布式文件系统的区别是显著的。HDFS 具有很高的容错能力，可以部署在低成本的硬件上。HDFS 提供对应用程序数据的高吞吐量访问，适用于拥有大型数据集的应用程序。HDFS 放松了一些 P 阅读全文

posted @ 2021-02-01 20:35 数大招疯-公众号同名阅读(228) 评论(0) 推荐(0) 编辑

2021年1月28日

HDFS 本地短路读取 Short-Circuit Local Reads

posted @ 2021-01-28 21:09 数大招疯-公众号同名阅读(355) 评论(0) 推荐(0) 编辑

2021年1月27日

HDFS 联邦机制的特性以及联邦集群的配置和管理

摘要：背景 HDFS有两个主要层: Namespace命名空间由目录、文件和块组成它支持所有与命名空间相关的文件系统操作，如创建、删除、修改和列出文件和目录 Block管理服务块管理(在 Namenode 中完成) 通过处理注册和周期性心跳提供数据阳极群集成员资格处理块报告并维护块的位置支持块相阅读全文

posted @ 2021-01-27 20:04 数大招疯-公众号同名阅读(784) 评论(0) 推荐(0) 编辑

Hadoop本地库 Native Libraries

摘要： Hadoop本地库由于性能和 Java 不可实现功能等原因，Hadoop 具有某些组件的本地实现。在 unix 平台上，该库命名为 libhadoop.so。用法使用本地 hadoop 库相当简单: 可以下载一个hadoop发行版，它将包含原生hadoop库的预构建版本，也可以自己编译构建原生阅读全文

posted @ 2021-01-27 20:02 数大招疯-公众号同名阅读(346) 评论(0) 推荐(0) 编辑

01 个人电脑上，快速搭建hadoop环境

摘要：目的本文档介绍了如何设置和配置单节点Hadoop安装，以便您可以使用Hadoop MapReduce和Hadoop分布式文件系统（HDFS）快速执行简单的操作。先决条件支持平台支持GNU / Linux作为开发和生产平台。Hadoop在具有2000个节点的GNU / Linux集群上得到了证阅读全文

posted @ 2021-01-27 20:01 数大招疯-公众号同名阅读(257) 评论(0) 推荐(0) 编辑

2021年1月26日

HBase中MemStore的刷写触发机制

摘要：触发MemStore刷写的机制大概分为：人为手动触发、HBase定时触发、HLog数量限制触发，其他事件触发（Compact、Split、Truncate等）、内存限制触发。其中内存限制触发细分为：MemStore级别限制触发、Region级别限制触发、RegionServer级别限制触发。阅读全文

posted @ 2021-01-26 21:15 数大招疯-公众号同名阅读(194) 评论(0) 推荐(0) 编辑

HBase到底是列式存储还是行式存储？

摘要：如果HBase中的一张表只有一个列族的话，等于是这个列族包含了这张表的所有列，也就是将表正行的数据连续存储在了一起，就等于是行式存储了。再比如，一张表有多个列族，并且每个列族下仅有一列（虽然HBase不建议这么做），也就是将表的列数据连续存储在了一起，就等于是列式存储了。阅读全文

posted @ 2021-01-26 21:12 数大招疯-公众号同名阅读(715) 评论(0) 推荐(0) 编辑

一文了解大数据技术

摘要：由于大数据的4V等特性，给传统数据技术也带来了较大的挑战，一般将解决这些挑战的技术称为大数据技术。阅读全文

posted @ 2021-01-26 21:11 数大招疯-公众号同名阅读(691) 评论(0) 推荐(0) 编辑

数·大·招·疯

-- 技术原创、优秀文章转载

公告