Hadoop - 随笔分类 - Frankdeng

CDH搭建Hadoop集群(Centos7)

摘要：一、说明二、系统环境搭建 1、网络配置(所有节点) 1．设置主机名和IP 2．配置/etc/hosts IP和主机名的映射 2、SSH免密码登录 1．产生公钥和私钥：ssh-keygen -t rsa （一直回车直即可） 2．将公钥分发给所有节点（包括本机)： ssh-copy-id -i 主机名阅读全文

posted @ 2018-12-23 22:38 Frankdeng 阅读(14287) 评论(4) 推荐(1) 编辑

Hadoop案例（十一）MapReduce的API使用

摘要：一学生成绩增强版数据信息 computer,huangxiaoming,85,86,41,75,93,42,85 computer,xuzheng,54,52,86,91,42 computer,huangbo,85,42,96,38 english,zhaobenshan,54,52,86,9 阅读全文

posted @ 2018-06-02 14:11 Frankdeng 阅读(2227) 评论(0) 推荐(0) 编辑

Hadoop案例（十）WordCount

摘要：WordCount案例需求1：统计一堆文件中单词出现的个数（WordCount案例） 0）需求：在一堆给定的文本文件中统计输出每一个单词出现的总次数 1）数据准备：Hello.txt 2）分析按照mapreduce编程规范，分别编写Mapper，Reducer，Driver。 3）编写程序（1 阅读全文

posted @ 2018-06-02 13:25 Frankdeng 阅读(22281) 评论(0) 推荐(2) 编辑

Hadoop案例（九）流量汇总案例

摘要：流量汇总程序案例 1.自定义输出统计手机号耗费的总上行流量、下行流量、总流量（序列化） 1）需求：统计每一个手机号耗费的总上行流量、下行流量、总流量 2）数据准备 phone_date.txt 输入数据格式：输出数据格式 3）分析基本思路： Map阶段：（1）读取一行数据，切分字段（2）阅读全文

posted @ 2018-06-02 12:55 Frankdeng 阅读(4865) 评论(0) 推荐(0) 编辑

Hadoop案例（八）辅助排序和二次排序案例（GroupingComparator）

摘要：辅助排序和二次排序案例（GroupingComparator） 1.需求有如下订单数据订单id 商品id 成交金额 0000001 Pdt_01 222.8 0000001 Pdt_05 25.8 0000002 Pdt_03 522.8 0000002 Pdt_04 122.4 0000002 阅读全文

posted @ 2018-06-02 11:45 Frankdeng 阅读(2197) 评论(0) 推荐(0) 编辑

Hadoop案例（七）MapReduce中多表合并

摘要：MapReduce中多表合并案例一.案例需求订单数据表t_order： id pid amount 1001 01 1 1002 02 2 1003 03 3 订单数据order.txt 商品信息表t_product pid pname 01 小米 02 华为 03 格力商品数据pd.txt 阅读全文

posted @ 2018-06-02 11:02 Frankdeng 阅读(4564) 评论(0) 推荐(0) 编辑

Hadoop案例（六）小文件处理（自定义InputFormat）

摘要：小文件处理（自定义InputFormat） 1.需求分析无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。将多个小文件合并成一个文件SequenceFile，SequenceFile里面存储着多个文件，存储的形式为文件路径阅读全文

posted @ 2018-06-02 10:18 Frankdeng 阅读(3427) 评论(0) 推荐(0) 编辑

Hadoop案例（五）过滤日志及自定义日志输出路径（自定义OutputFormat)

摘要：过滤日志及自定义日志输出路径（自定义OutputFormat） 1.需求分析过滤输入的log日志中是否包含xyg （1）包含xyg的网站输出到e:/xyg.log （2）不包含xyg的网站输出到e:/other.log 2.数据准备 http://www.baidu.com http://www. 阅读全文

posted @ 2018-06-02 00:56 Frankdeng 阅读(2357) 评论(0) 推荐(0) 编辑

Hadoop案例（四）倒排索引（多job串联)与全局计数器

摘要：一. 倒排索引（多job串联） 1. 需求分析有大量的文本（文档、网页），需要建立搜索索引 xyg pingping xyg ss xyg ss xyg pingping xyg pingping pingping ss xyg ss xyg pingping （1）第一次预期输出结果（2）第二阅读全文

posted @ 2018-06-02 00:26 Frankdeng 阅读(1480) 评论(1) 推荐(0) 编辑

Hadoop案例（三）找博客共同好友

摘要：找博客共同好友案例 1）数据准备以下是博客的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的） A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F 阅读全文

posted @ 2018-06-01 23:42 Frankdeng 阅读(2746) 评论(1) 推荐(0) 编辑

Hadoop案例（二）压缩解压缩

摘要：压缩/解压缩案例一. 对数据流的压缩和解压缩 CompressionCodec有两个方法可以用于轻松地压缩或解压缩数据。要想对正在被写入一个输出流的数据进行压缩，我们可以使用createOutputStream(OutputStreamout)方法创建一个CompressionOutputStre 阅读全文

posted @ 2018-06-01 22:52 Frankdeng 阅读(2970) 评论(0) 推荐(1) 编辑

Hadoop案例（一）之日志清洗

摘要：日志清洗案例一. 简单解析版 1）需求去除日志中字段长度小于等于11的日志。 2）输入数据 3）实现代码（1）编写LogMapper （2）编写LogDriver 二. 复杂解析版 1）需求对web访问日志中的各字段识别切分去除日志中不合法的记录根据统计需求，生成各类访问请求过滤数据 2 阅读全文

posted @ 2018-06-01 21:35 Frankdeng 阅读(2525) 评论(0) 推荐(1) 编辑

Hadoop（八）Hadoop数据压缩与企业级优化

摘要：一 Hadoop数据压缩 1.1 概述压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下，尤其是数据规模很大和工作负载密集的情况下，使用数据压缩显得非常重要。在这种情况下，I/O操作和网络数据传输要花大量的时间。还有，Shuffle与Mer 阅读全文

posted @ 2018-05-27 22:23 Frankdeng 阅读(2827) 评论(0) 推荐(0) 编辑

Hadoop（七）YARN的资源调度

摘要：一、YARN 概述 YARN 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序 YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程阅读全文

posted @ 2018-05-27 13:02 Frankdeng 阅读(9182) 评论(0) 推荐(0) 编辑

Hadoop（六）MapReduce的入门与运行原理

摘要：一 MapReduce入门 1.1 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架； Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。阅读全文

posted @ 2018-05-26 19:40 Frankdeng 阅读(4827) 评论(0) 推荐(2) 编辑

Hadoop（五）分布式集群中HDFS系统的各种角色

摘要：NameNode 学习目标理解 namenode 的工作机制尤其是元数据管理机制，以增强对 HDFS 工作原理的理解，及培养 hadoop 集群运营中“性能调优”、“namenode”故障问题的分析解决能力问题场景 1、Namenode 服务器的磁盘故障导致 namenode 宕机，如何挽救集阅读全文

posted @ 2018-05-25 21:24 Frankdeng 阅读(2595) 评论(0) 推荐(1) 编辑

Hadoop（四）HDFS的高级API操作

摘要：一 HDFS客户端环境准备 1.1 jar包准备 1）解压hadoop-2.7.6.tar.gz到非中文目录 2）进入share文件夹，查找所有jar包，并把jar包拷贝到_lib文件夹下 3）在全部jar包中查找sources.jar，并剪切到_source文件夹。 4）在全部jar包中查找tes 阅读全文

posted @ 2018-05-19 23:56 Frankdeng 阅读(2637) 评论(0) 推荐(1) 编辑

Hadoop（三）HDFS读写原理与shell命令

摘要：一 HDFS概述 1.1 HDFS产生背景随着数据量越来越大，在一个操作系统管辖的范围内存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 1.2 HDFS概念 HDFS 阅读全文

posted @ 2018-05-18 15:24 Frankdeng 阅读(4225) 评论(0) 推荐(0) 编辑

Hadoop（二）CentOS7.5搭建Hadoop2.7.6完全分布式集群

摘要：一完全分布式集群(单点） Hadoop官方地址：http://hadoop.apache.org/ 1 准备3台客户机 1.1防火墙,静态IP,主机名关闭防火墙，设置静态IP，主机名此处略，参考 Linux之CentOS7.5安装及克隆 1.2 修改host文件我们希望三个主机之间都能够使用主阅读全文

posted @ 2018-05-16 19:26 Frankdeng 阅读(30267) 评论(9) 推荐(1) 编辑

Hadoop（一）Hadoop的简介与源码编译

摘要：一 Hadoop简介 1.1Hadoop产生的背景 1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问，如何解决数十亿网页的存储和索引问题。 2. 2003年开始谷歌陆续发表的三篇阅读全文

posted @ 2018-05-05 22:52 Frankdeng 阅读(8520) 评论(1) 推荐(1) 编辑

Frankdeng

随笔分类 - Hadoop

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论