07 2020 档案

摘要:HDFS安全模式实战篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.安全模式概述 1>.什么是安全模式 安全模式是NameNode的一种状态,其中节点不接受对HDFS命名空间的任何更改,这意味着HDFS处于只读状态。NameNode在启动时自动进入安全模式,当配置的最小百分 阅读全文
posted @ 2020-07-26 00:50 JasonYin2020 阅读(1348) 评论(0) 推荐(0) 编辑
摘要:HDFS检查点操作实战篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.检查点概述 1>.什么是检查点 检查点操作时通过合并当前映像文件(fsimage_*)和编辑日志(edits_*)来来创建新的fsimage的过程。 一旦编辑日志达到指定的阈值(dfs.namenode. 阅读全文
posted @ 2020-07-23 02:04 JasonYin2020 阅读(1368) 评论(0) 推荐(0) 编辑
摘要:HDFS元数据管理实战篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS元数据概述 1>.什么是HDFS元数据 NameNode的主要工作是存储HDFS命名空间,HDFS元数据(或HDFS命名空间)是由inode(其存储属性,如权限,修改,访问时间和磁盘空间配额)表示 阅读全文
posted @ 2020-07-22 23:47 JasonYin2020 阅读(1919) 评论(0) 推荐(0) 编辑
摘要:使用HttpFS网关从防火墙后面访问HDFS 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HttpFS概述 1>.什么是HttpFS HttpFS是在Apache Tomcat上运行的Java应用程序,其允许通过WebHDFS REST API远程访问HDFS文件系统。 H 阅读全文
posted @ 2020-07-21 23:10 JasonYin2020 阅读(661) 评论(0) 推荐(0) 编辑
摘要:使用Hadoop WebHDFS访问HDFS 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 webHDFS和HttpFS都是Hadoop的HTTP/HTTPS REST接口。这两个接口使我们能够读取HDFS数据并写入,以及执行与HDFS相关的几个管理命令。可以将它们嵌入程序,脚本 阅读全文
posted @ 2020-07-20 23:33 JasonYin2020 阅读(10148) 评论(0) 推荐(1) 编辑
摘要:HDFS数据均衡篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS数据均衡概述 随着时间的推移,HDFS存储中数据分布可能变得不平衡,某些DataNode上可能具有更多的数据块。在极端的情况下,在具有更多的节点上读取和写入过于频繁,而一些较少的节点则未被充分利用。 当 阅读全文
posted @ 2020-07-19 23:31 JasonYin2020 阅读(4688) 评论(0) 推荐(0) 编辑
摘要:管理Hadoop的配额 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Hadoop的配额概述 可以在HDFS目录上配置配额,由此可以限制用户或应用程序消耗的HDFS空间。 HDFS的空间分配与底层Linux文件系统上的空间分配没有直接关系。 Hadoop允许设置两种类型的配额 阅读全文
posted @ 2020-07-18 00:04 JasonYin2020 阅读(1120) 评论(0) 推荐(0) 编辑
摘要:HDFS异构存储篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.异构存储概述 1>.数据分类及存储策略概述 通常,公司或者组织总是有相当多的历史数据占用昂贵的存储空间。对于异构公司来说,典型的数据使用模式是新传入的数据被应用程序大量使用,从而该数据被标记为"热"数据。随着时 阅读全文
posted @ 2020-07-16 23:34 JasonYin2020 阅读(1255) 评论(0) 推荐(0) 编辑
摘要:HDFS的权限管理 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一. 二. 三. 阅读全文
posted @ 2020-07-15 23:09 JasonYin2020 阅读(244) 评论(0) 推荐(0) 编辑
摘要:HDFS的数据保护篇-快照案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS保护数据的解决方案 HDFS提供了两个非常有用的功能,帮助防止用户删除文件和目录,即回收站和快照。 HDFS回收站功能: 将删除的文件和目录存储在特定回收站目录中一定的时间,然后再将其永久删 阅读全文
posted @ 2020-07-14 23:10 JasonYin2020 阅读(790) 评论(0) 推荐(0) 编辑
摘要:使用"hdfs dfs"实用程序来管理HDFS 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.命令行是管理HDFS存储的最常用方法 使用HDFS是一项最常见的Hadoop管理工作。虽然可以通过很多方式访问HDFS,但命令行是管理HDFS存储的最常用方法。 可以通过以下几种方式 阅读全文
posted @ 2020-07-13 23:49 JasonYin2020 阅读(1051) 评论(0) 推荐(0) 编辑
摘要:HDFS集中式高速缓存管理及短路读取案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS中集中式缓存概述 1>.Hadoop缓存概述 通常datanode从磁盘中读取数据块,但对于访问频繁的文件(例如小型Hive事实表),其对应的块可能被显式地缓存在datanode的 阅读全文
posted @ 2020-07-12 23:02 JasonYin2020 阅读(1069) 评论(1) 推荐(1) 编辑
摘要:机架感知实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.网络拓扑与机架感知概述 1>.网络拓扑概述 有可能你会问,在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间传输的传输速率,即带宽很稀缺。这里的想法是将两个节点间的带宽 阅读全文
posted @ 2020-07-10 23:52 JasonYin2020 阅读(926) 评论(0) 推荐(1) 编辑
摘要:使用dfsadmin使用程序执行HDFS操作 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.hdfs dfsadmin概述 可以使用hdfs dfsadmin命令从明朗了和管理HDFS。虽然使用hdfs dfs命令也可以管理HDFS文件和目录,但dfsadmin命令空间以执行 阅读全文
posted @ 2020-07-09 22:01 JasonYin2020 阅读(1761) 评论(0) 推荐(0) 编辑
摘要:通过文件系统检查(fsck)确保数据完整性 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.HDFS文件系统检查概述 Linux系统管理员运行fsck命令以修复ext3或者ext4文件系统上的损坏文件。fsck命令检查磁盘结构,如果它们已损坏,可以修复它们。HDFS提供了类似的 阅读全文
posted @ 2020-07-05 22:29 JasonYin2020 阅读(769) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming-DStream实战案例 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.DStream创建 1>.文件数据源采集 文件数据流: 能够读取所有HDFS API兼容的文件系统文件,通过fileStream方法进行读取,Spark Streaming 阅读全文
posted @ 2020-07-03 23:22 JasonYin2020 阅读(573) 评论(0) 推荐(0) 编辑
摘要:Spark Streaming概述 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.Spark Streaming概览 1>.什么是Spark Streaming Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。 如 阅读全文
posted @ 2020-07-01 23:59 JasonYin2020 阅读(687) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示