上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 13 下一页
摘要: 规约Combiner 概念 每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次 合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络IO 性能,是 MapReduce 的一种优化手段之一 combiner 是 MR 程序中 Ma 阅读全文
posted @ 2020-08-30 17:23 17_Xtreme 阅读(351) 评论(0) 推荐(0) 编辑
摘要: MapReduce 中的计数器 计数器介绍 计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计。计数器还可辅助 诊断系统故障。如果需要将日志信息传输到 map 或 reduce 任务, 更好的方法通常是看能否 用一个计数器值来记录某一特定事件的发生。对于大型分布式作业而言,使用计数器更 阅读全文
posted @ 2020-08-30 08:43 17_Xtreme 阅读(234) 评论(0) 推荐(0) 编辑
摘要: MapReduce 分区 分区介绍: 在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行 处理 例如: 为了数据的统计, 可以把一批类似的数据发送到同一个 Reduce 当中, 在同一个 Reduce 当 中统计相同类型的数据, 就可以实现类似 阅读全文
posted @ 2020-08-29 15:44 17_Xtreme 阅读(184) 评论(0) 推荐(0) 编辑
摘要: WordCount 需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数 Step 1. 数据格式准备 创建一个新的文件 cd /export/servers vim wordcount.txt 向其中放入以下内容并保存 zhangsan helllo lisi hello wangwu h 阅读全文
posted @ 2020-08-29 09:52 17_Xtreme 阅读(342) 评论(0) 推荐(0) 编辑
摘要: MapReduce MapReduce介绍: MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心 是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的 阅读全文
posted @ 2020-08-28 15:31 17_Xtreme 阅读(155) 评论(0) 推荐(0) 编辑
摘要: HDFS 的 API 操作 配置Windows下Hadoop环境 在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题: 缺少winutils.exe Could not locate executable null \bin\winutils.exe in the ha 阅读全文
posted @ 2020-08-28 14:28 17_Xtreme 阅读(235) 评论(0) 推荐(0) 编辑
摘要: 1.hdfs的高级使用命令 1.1HDFS文件限额配置 在多人共用HDFS的环境下,配置设置非常重要。特别是在Hadoop处理大量资料的环境,如 果没有配额管理,很容易把所有的空间用完造成别人无法存取。Hdfs的配额设定是针对目录 而不是针对账号,可以 让每个账号仅操作某一个目录,然后对目录设置配置 阅读全文
posted @ 2020-08-28 13:28 17_Xtreme 阅读(205) 评论(0) 推荐(0) 编辑
摘要: HDFS概述 HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常 适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存 储文件, 并且提供统一的访问接 阅读全文
posted @ 2020-08-28 11:32 17_Xtreme 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 这里操作Zookeeper的JavaAPI使用的是一套zookeeper客户端框架 Curator ,解决了很多 Zookeeper客户端非常底层的细节开发工作 Curator包含了几个包: curator-framework:对zookeeper的底层api的一些封装 curator-recipe 阅读全文
posted @ 2020-08-26 21:49 17_Xtreme 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 前一篇大体介绍了什么是zookeeper,以及其特点,下面回顾一下zookeeper的客户端操作,先用finalshell远程连接Linux主机(node01)。 1.进行客户端操作之前首先要明确zookeeper的数据模型: 1.1ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似, 阅读全文
posted @ 2020-08-26 08:02 17_Xtreme 阅读(117) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 13 下一页