摘要:
MySQL的JOIN相关操作,是通过“嵌套循环连接算法,NLJ”或者该算法的优化变体“块嵌套循环连接算法,BNLJ”来实现的。 嵌套循环连接算法 两个表join时,可以简单理解为两层for循环,外层循环一般称作驱动表,循坏内层称作被驱动表。每次取出驱动表中一条数据,然后通过内循环遍历被驱动表,并在循 阅读全文
摘要:
Yarn Shared Cache 的目的是降低 Yarn application 因为依赖资源的上传以及本地化带来的时间消耗。通过使用该功能, 对于相同的依赖资源,Yarn application 可以直接使用其他 application 上传的资源或者该 application 的先前运行时自己 阅读全文
摘要:
概览 离线fsimage查看器 是一个将 hdfs fsimage 文件的内容转储为人类可读格式的工具,并提供只读的 WebHDFS API,以允许离线分析和检查 Hadoop 集群的名称空间。该工具能够相对快速地处理非常大的fsimage文件。该工具处理 Hadoop 2.4及以上版本中包含的格式 阅读全文
摘要:
概览 离线fsimage查看器 是一个将 hdfs fsimage 文件的内容转储为人类可读格式的工具,并提供只读的 WebHDFS API,以允许离线分析和检查 Hadoop 集群的名称空间。该工具能够相对快速地处理非常大的fsimage文件。该工具处理 Hadoop 2.4及以上版本中包含的格式 阅读全文
摘要:
背景 在 HDFS 中,读操作通常要经过 DataNode。因此,当客户端请求 DataNode 读取文件时,DataNode 从磁盘读取该文件并通过 TCP 套接字将数据发送给客户端。所谓的“短路”读取就是绕过 DataNode,允许客户端直接读取文件。当然,这只有在客户端与数据共存的情况下才可能 阅读全文