随笔分类 - Hadoop
1
摘要:一、说明 二、系统环境搭建 1、网络配置(所有节点) 1.设置主机名和IP 2.配置/etc/hosts IP和主机名的映射 2、SSH免密码登录 1.产生公钥和私钥:ssh-keygen -t rsa (一直回车直即可) 2.将公钥分发给所有节点(包括本机): ssh-copy-id -i 主机名
阅读全文
摘要:一学生成绩 增强版 数据信息 computer,huangxiaoming,85,86,41,75,93,42,85 computer,xuzheng,54,52,86,91,42 computer,huangbo,85,42,96,38 english,zhaobenshan,54,52,86,9
阅读全文
摘要:WordCount案例 需求1:统计一堆文件中单词出现的个数(WordCount案例) 0)需求:在一堆给定的文本文件中统计输出每一个单词出现的总次数 1)数据准备:Hello.txt 2)分析 按照mapreduce编程规范,分别编写Mapper,Reducer,Driver。 3)编写程序 (1
阅读全文
摘要:流量汇总程序案例 1.自定义输出 统计手机号耗费的总上行流量、下行流量、总流量(序列化) 1)需求: 统计每一个手机号耗费的总上行流量、下行流量、总流量 2)数据准备 phone_date.txt 输入数据格式: 输出数据格式 3)分析 基本思路: Map阶段: (1)读取一行数据,切分字段 (2)
阅读全文
摘要:辅助排序和二次排序案例(GroupingComparator) 1.需求 有如下订单数据 订单id 商品id 成交金额 0000001 Pdt_01 222.8 0000001 Pdt_05 25.8 0000002 Pdt_03 522.8 0000002 Pdt_04 122.4 0000002
阅读全文
摘要:MapReduce中多表合并案例 一.案例需求 订单数据表t_order: id pid amount 1001 01 1 1002 02 2 1003 03 3 订单数据order.txt 商品信息表t_product pid pname 01 小米 02 华为 03 格力 商品数据pd.txt
阅读全文
摘要:小文件处理(自定义InputFormat) 1.需求分析 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。将多个小文件合并成一个文件SequenceFile,SequenceFile里面存储着多个文件,存储的形式为文件路径
阅读全文
摘要:过滤日志及自定义日志输出路径(自定义OutputFormat) 1.需求分析 过滤输入的log日志中是否包含xyg (1)包含xyg的网站输出到e:/xyg.log (2)不包含xyg的网站输出到e:/other.log 2.数据准备 http://www.baidu.com http://www.
阅读全文
摘要:一. 倒排索引(多job串联) 1. 需求分析 有大量的文本(文档、网页),需要建立搜索索引 xyg pingping xyg ss xyg ss xyg pingping xyg pingping pingping ss xyg ss xyg pingping (1)第一次预期输出结果 (2)第二
阅读全文
摘要:找博客共同好友案例 1)数据准备 以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的) A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F
阅读全文
摘要:压缩/解压缩案例 一. 对数据流的压缩和解压缩 CompressionCodec有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩,我们可以使用createOutputStream(OutputStreamout)方法创建一个CompressionOutputStre
阅读全文
摘要:日志清洗案例 一. 简单解析版 1)需求 去除日志中字段长度小于等于11的日志。 2)输入数据 3)实现代码 (1)编写LogMapper (2)编写LogDriver 二. 复杂解析版 1)需求 对web访问日志中的各字段识别切分 去除日志中不合法的记录 根据统计需求,生成各类访问请求过滤数据 2
阅读全文
摘要:一 Hadoop数据压缩 1.1 概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Mer
阅读全文
摘要:一、YARN 概述 YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程
阅读全文
摘要:一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。
阅读全文
摘要:NameNode 学习目标 理解 namenode 的工作机制尤其是元数据管理机制,以增强对 HDFS 工作原理的 理解,及培养 hadoop 集群运营中“性能调优”、“namenode”故障问题的分析解决能力 问题场景 1、Namenode 服务器的磁盘故障导致 namenode 宕机,如何挽救集
阅读全文
摘要:一 HDFS客户端环境准备 1.1 jar包准备 1)解压hadoop-2.7.6.tar.gz到非中文目录 2)进入share文件夹,查找所有jar包,并把jar包拷贝到_lib文件夹下 3)在全部jar包中查找sources.jar,并剪切到_source文件夹。 4)在全部jar包中查找tes
阅读全文
摘要:一 HDFS概述 1.1 HDFS产生背景 随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 1.2 HDFS概念 HDFS
阅读全文
摘要:一 完全分布式集群(单点) Hadoop官方地址:http://hadoop.apache.org/ 1 准备3台客户机 1.1防火墙,静态IP,主机名 关闭防火墙,设置静态IP,主机名此处略,参考 Linux之CentOS7.5安装及克隆 1.2 修改host文件 我们希望三个主机之间都能够使用主
阅读全文
摘要:一 Hadoop简介 1.1Hadoop产生的背景 1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问,如何解决数十亿网页的存储和索引问题。 2. 2003年开始谷歌陆续发表的三篇
阅读全文
1