M_study

2018年2月2日

摘要： 1.概念了解 hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一个数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，阅读全文

posted @ 2018-02-02 19:18 M_study 阅读(334) 评论(0) 推荐(0)

大数据学习之十五——sqoop的安装和使用

摘要： 1.概念了解 sqoop主要用于hadoop与传统的数据库（mysql、postgresql...）间进行数据的传递，可以将一个关系型数据库（例如：MYSQL，Oracle，Postgrep等）中的数据导到hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。 2.sqoop的安装阅读全文

posted @ 2018-02-02 09:51 M_study 阅读(591) 评论(0) 推荐(0)

2018年1月30日

大数据学习之十四——二次排序

摘要： 1.概念了解在hadoop中默认的排序算法中，只会针对key值进行排序。当key值相同时，需要对value进行排序。简单来说，就是在数据文件中，如果按照第一列升序排序，当第一列相同时，第二列按照升序排序。 2.应用实例输入样例输出样例 3.算法思想本样例使用了自定义的类MyGrouptes 阅读全文

posted @ 2018-01-30 19:20 M_study 阅读(412) 评论(0) 推荐(0)

大数据学习之十三——倒排索引

摘要：倒排索引 1.了解概念 "倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Invert 阅读全文

posted @ 2018-01-30 18:33 M_study 阅读(430) 评论(0) 推荐(0)

2018年1月29日

大数据学习之十二——MapReduce代码实例：关联性操作

摘要： 1.单表关联 "单表关联"要求从给出的数据中寻找所关心的数据，它是对原始数据所包含信息的挖掘。实例描述给出child-parent（孩子——父母）表，要求输出grandchild-grandparent（孙子——爷奶）表。算法思想：这个实例需要进行单表连接，连接的是左表的parent列和右表的阅读全文

posted @ 2018-01-29 21:48 M_study 阅读(517) 评论(0) 推荐(0)

大数据学习之十一——MapReduce代码实例：平面距离

摘要： ***坐标距离*** 场景描述：已知一个单身美女的坐标，和一群单身帅哥的坐标，求离美女最近的帅哥数据（空格分开x、y坐标）：（10,12）（23，23）（20，20）（1，3）（23，7）假设美女的坐标为（5,5）代码实现： public class distance2 { static 阅读全文

posted @ 2018-01-29 19:28 M_study 阅读(318) 评论(0) 推荐(0)

大数据学习之十——MapReduce代码实例：数据去重和数据排序

摘要： ***数据去重*** 目标：原始数据中出现次数超过一次的数据在输出文件中只出现一次。算法思想：根据reduce的过程特性,会自动根据key来计算输入的value集合，把数据作为key输出给reduce,无论这个数据出现多少次，reduce最终结果中key只能输出一次。 1.实例中每个数据代表输入文阅读全文

posted @ 2018-01-29 19:16 M_study 阅读(4801) 评论(0) 推荐(0)

大数据学习之九——Combiner,Partitioner,shuffle和MapReduce排序分组

摘要： 1.Combiner Combiner是MapReduce的一种优化手段。每一个map都可能会产生大量的本地输出，Combiner的作用就是对map端的输出先做一次合并，以减少map和reduce结点之间的数据传输量，以提高网络IO性能。只有操作满足结合律的才可设置combiner。 Combine 阅读全文

posted @ 2018-01-29 08:40 M_study 阅读(1581) 评论(0) 推荐(1)

2018年1月27日

大数据学习之八——MapReduce工作机制

摘要： 1.MapReduce的特点软件框架、并行处理、可靠且容错、大规模集群、海量数据集 2.mapper和reducer mapper负责“分”：把复杂的任务分解为若干个“简单的任务”来处理。简单的任务包含三层含义：（1）数据或计算的规模相对原任务要大大缩小；（2）就近计算原则，任务会分配到存放着阅读全文

posted @ 2018-01-27 19:57 M_study 阅读(437) 评论(0) 推荐(0)

大数据学习之七——MapReduce简单代码实例

摘要： 1.关于MapReduce MapReduce是一种可用于数据处理的编程模型，能够支持java、Python、C++等语言。MapReduce程序本质上是并行运行的，因此可以处理大规模数据集，这也是它的优势。 2.使用hadoop分析数据 hadoop提供了并行处理，我们将查询表示成MapReduc 阅读全文

posted @ 2018-01-27 19:55 M_study 阅读(9252) 评论(0) 推荐(0)

公告