返回顶部 Fork me on GitHub
摘要: 一 简介 Apache Sqoop(TM)是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具 。 官方下载地址:http://www.apache.org/dyn/closer.lua/sqoop/1.4.7 1. Sqoop是什么 Sqoop:SQL- 阅读全文
posted @ 2018-06-02 23:39 Frankdeng 阅读(3586) 评论(0) 推荐(0) 编辑
摘要: 一 Sqoop简介 Apache Sqoop(TM) 于 2012 年 3 月孵化出来,现在是一个顶级的 Apache 项目。是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。最新的稳定版本是 1.4.7。Sqoop2 的最新版本是 1.99.7 阅读全文
posted @ 2018-06-02 21:01 Frankdeng 阅读(2473) 评论(1) 推荐(0) 编辑
摘要: 一学生成绩 增强版 数据信息 computer,huangxiaoming,85,86,41,75,93,42,85 computer,xuzheng,54,52,86,91,42 computer,huangbo,85,42,96,38 english,zhaobenshan,54,52,86,9 阅读全文
posted @ 2018-06-02 14:11 Frankdeng 阅读(2215) 评论(0) 推荐(0) 编辑
摘要: WordCount案例 需求1:统计一堆文件中单词出现的个数(WordCount案例) 0)需求:在一堆给定的文本文件中统计输出每一个单词出现的总次数 1)数据准备:Hello.txt 2)分析 按照mapreduce编程规范,分别编写Mapper,Reducer,Driver。 3)编写程序 (1 阅读全文
posted @ 2018-06-02 13:25 Frankdeng 阅读(22248) 评论(0) 推荐(2) 编辑
摘要: 流量汇总程序案例 1.自定义输出 统计手机号耗费的总上行流量、下行流量、总流量(序列化) 1)需求: 统计每一个手机号耗费的总上行流量、下行流量、总流量 2)数据准备 phone_date.txt 输入数据格式: 输出数据格式 3)分析 基本思路: Map阶段: (1)读取一行数据,切分字段 (2) 阅读全文
posted @ 2018-06-02 12:55 Frankdeng 阅读(4834) 评论(0) 推荐(0) 编辑
摘要: 辅助排序和二次排序案例(GroupingComparator) 1.需求 有如下订单数据 订单id 商品id 成交金额 0000001 Pdt_01 222.8 0000001 Pdt_05 25.8 0000002 Pdt_03 522.8 0000002 Pdt_04 122.4 0000002 阅读全文
posted @ 2018-06-02 11:45 Frankdeng 阅读(2192) 评论(0) 推荐(0) 编辑
摘要: MapReduce中多表合并案例 一.案例需求 订单数据表t_order: id pid amount 1001 01 1 1002 02 2 1003 03 3 订单数据order.txt 商品信息表t_product pid pname 01 小米 02 华为 03 格力 商品数据pd.txt 阅读全文
posted @ 2018-06-02 11:02 Frankdeng 阅读(4545) 评论(0) 推荐(0) 编辑
摘要: 小文件处理(自定义InputFormat) 1.需求分析 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。将多个小文件合并成一个文件SequenceFile,SequenceFile里面存储着多个文件,存储的形式为文件路径 阅读全文
posted @ 2018-06-02 10:18 Frankdeng 阅读(3411) 评论(0) 推荐(0) 编辑
摘要: 过滤日志及自定义日志输出路径(自定义OutputFormat) 1.需求分析 过滤输入的log日志中是否包含xyg (1)包含xyg的网站输出到e:/xyg.log (2)不包含xyg的网站输出到e:/other.log 2.数据准备 http://www.baidu.com http://www. 阅读全文
posted @ 2018-06-02 00:56 Frankdeng 阅读(2349) 评论(0) 推荐(0) 编辑
摘要: 一. 倒排索引(多job串联) 1. 需求分析 有大量的文本(文档、网页),需要建立搜索索引 xyg pingping xyg ss xyg ss xyg pingping xyg pingping pingping ss xyg ss xyg pingping (1)第一次预期输出结果 (2)第二 阅读全文
posted @ 2018-06-02 00:26 Frankdeng 阅读(1476) 评论(1) 推荐(0) 编辑