随笔分类 -  Hadoop学习

摘要:1. 场景 基于客户的数据处理需求,客户分发诸多小数据文件,文件每行代表一条记录信息,且每个文件以"类型_yyyyMMdd_批次号"命名。由于同一条记录可能存在于多个文件中,且处于多个文件中的相同记录最终只有时间最新的记录有效,但文件的每行记录并未提供时间信息,因此需要从每个文件名中提取时间信息作为 阅读全文
posted @ 2018-09-25 22:49 mengrennwpu 阅读(2091) 评论(0) 推荐(0) 编辑
摘要:1. HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和。datanode负责在验证收到的数据后存储数据及其校验和。正在写数据的客户端将数据及其校验和发送到由一系列datanode组成的管线,管线中的最后一个datanode负责验证校验和。如果datanode检测到 阅读全文
posted @ 2017-03-27 00:37 mengrennwpu 阅读(370) 评论(0) 推荐(0) 编辑
摘要:1 查询文件系统 (1) 文件元数据:FileStatus,该类封装了文件系统中文件和目录的元数据,包括文件长度、块大小、备份、修改时间、所有者以及版权信息。FileSystem的getFileStatus()方法用于获取文件或目录的FileStatus对象。 例:展示文件状态信息 (2) 列出文件 阅读全文
posted @ 2017-03-19 23:14 mengrennwpu 阅读(887) 评论(0) 推荐(0) 编辑
摘要:1. 分布式文件系统,即为管理网络中跨多台计算机存储的文件系统。HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上。HDFS的构建思路为:一次写入、多次读取是最高效的访问模式。数据集通常由数据源生成或从数据源赋值而来,接着长时间在此数据集上进行各类分析。每次分析都涉及该数据集的大部分数据 阅读全文
posted @ 2017-03-12 23:20 mengrennwpu 阅读(3949) 评论(0) 推荐(1) 编辑
摘要:1. 查找历年最高的温度。MapReduce任务过程被分为两个处理阶段:map阶段和reduce阶段。每个阶段都以键/值对作为输入和输出,并由程序员选择它们的类型。程序员还需具体定义两个函数:map函数和reduce函数。对应的Java MapReduce代码如下:public class MaxT... 阅读全文
posted @ 2016-01-03 01:04 mengrennwpu 阅读(536) 评论(0) 推荐(0) 编辑
摘要:1. Hadoop提供了一个可靠的共享存储和分析系统。HDFS实现存储,而MapReduce实现分析处理,这两部分是Hadoop的核心。2. MapReduce是一个批量查询处理器,并且它能够在合理的时间范围内处理针对整个数据集的即时查询。3. MapReduce适合一次写入、多次读取数据的应用,而... 阅读全文
posted @ 2016-01-03 00:42 mengrennwpu 阅读(243) 评论(0) 推荐(0) 编辑