随笔分类 - Hadoop
日常
发表于 2023-08-07 00:07阅读:520评论:0推荐:0
摘要:背景提要: 场景为1PB数据,平均文件大小为2MB,并且每个文件都携带100个HDFS标签属性(实际不会这么多)。 计算方法如下: 对的,扩展属性会存储在HDFS的元数据中,因此当有大量文件携带扩展属性时,会对NameNode的内存占用产生影响。 在这个新的情况下,我们假设每个文件携带100个扩展属
阅读全文 »
发表于 2022-05-28 20:17阅读:73评论:0推荐:0
摘要:##1.JournalNode个数设置 集群节点数在100个节点以下时,JournalNode设置为3个; 集群个数在100个节点以上,1000以内时,设置为5个; 集群个数在1000个节点以上时,设置为5个
阅读全文 »
发表于 2021-11-27 20:18阅读:71评论:0推荐:0
摘要:在讲 ##正排索引: 假设数据库内有一张表 内容如下 id concent 1 zhang san 2 zhang si 3 wangwu 如果我们想找到姓张的人员信息,只能通过id,或者字段模糊匹配来找到他的相关信息 ##倒排索引 而使用倒排索引,数据存储方式变为 concent id zhang
阅读全文 »
发表于 2021-11-10 18:18阅读:42评论:0推荐:0
摘要:https://www.cnblogs.com/wangzhaojun1670/p/13515709.html
阅读全文 »
发表于 2020-12-24 10:23阅读:139评论:0推荐:0
摘要:安全模式 为什么集群会进入安全模式? NameNode启动 NN启动时,首先将映像文(Fsimage)载入内存,并编辑日志(Edits)中的各项操作.一旦在内存中成功建立元数据的映像,则创建一个新的Fsimage文件和一个空的编辑日志。此时,NameNode开始监听DataNode的请求。这个过程期
阅读全文 »
发表于 2020-12-14 21:22阅读:677评论:0推荐:0
摘要:1:HDFS存储多目录 只针对DN进行多目录配置 1)生产环境服务器磁盘情况 2)在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题。 HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值为file://$/dfs/dat
阅读全文 »
发表于 2020-12-14 19:27阅读:308评论:0推荐:0
摘要:集群基准性能测试 问题引入:输入端有2T的数据,问多长时间能把数据上传到集群? 假如说1个小时,那么双11时瞬间产生100T数据,服务器能顶住吗? 因此,我们需要对服务器进行压力测试,对服务器整体性能有精准把控 1)测试HDFS写性能 测试内容,向集群上传10个128M的文件 [root@hadoo
阅读全文 »
发表于 2020-11-25 20:06阅读:328评论:0推荐:0
摘要:运行hadoop程序时,I/O操作、网络数据传输、shuffle和merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,这个时候,使用数据压缩可以提高效率
阅读全文 »