大型数据库 - 随笔分类 - ***Pepsi***

11.Mapreduce实例——MapReduce自定义输出格式

摘要：11．Mapreduce实例——MapReduce自定义输出格式实验原理 1.输出格式：提供给OutputCollector的键值对会被写到输出文件中，写入的方式由输出格式控制。OutputFormat的功能跟前面描述的InputFormat类很像，Hadoop提供的OutputFormat的实例阅读全文

posted @ 2021-11-19 19:42 ***Pepsi*** 阅读(163) 评论(0) 推荐(0) 编辑 |

10．Mapreduce实例——MapReduce自定义输入格式小

摘要：10．Mapreduce实例——MapReduce自定义输入格式小实验原理 1.输入格式：InputFormat类定义了如何分割和读取输入文件，它提供有下面的几个功能：（1）选择作为输入的文件或对象；（2）定义把文件划分到任务的InputSplits；（3）为RecordReader读取文阅读全文

posted @ 2021-11-19 19:23 ***Pepsi*** 阅读(75) 评论(0) 推荐(0) 编辑 |

09．Mapreduce实例——ChainMapReduce小

摘要：09．Mapreduce实例——ChainMapReduce小实验原理一些复杂的任务难以用一次MapReduce处理完成，需要多次MapReduce才能完成任务。Hadoop2.0开始MapReduce作业支持链式处理，类似于工厂的的生产线，每一个阶段都有特定的任务要处理，比如提供原配件——>组阅读全文

posted @ 2021-11-19 18:58 ***Pepsi*** 阅读(69) 评论(0) 推荐(0) 编辑 |

08．Mapreduce实例——倒排索引

摘要：08．Mapreduce实例——倒排索引实验原理 "倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因阅读全文

posted @ 2021-11-19 18:42 ***Pepsi*** 阅读(149) 评论(0) 推荐(0) 编辑 |

07．Mapreduce实例——二次排序

摘要：07．Mapreduce实例——二次排序实验原理在Map阶段，使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时InputFormat提供一个RecordReder的实现。本实验中使用的是TextInputFormat，阅读全文

posted @ 2021-11-19 18:09 ***Pepsi*** 阅读(57) 评论(0) 推荐(0) 编辑 |

06．Mapreduce实例——Reduce端join

摘要：06．Mapreduce实例——Reduce端join 实验原理在Reudce端进行Join连接是MapReduce框架进行表之间Join操作最为常见的模式。 1.Reduce端Join实现原理（1）Map端的主要工作，为来自不同表（文件）的key/value对打标签以区别不同来源的记录。然后用阅读全文

posted @ 2021-11-19 15:22 ***Pepsi*** 阅读(74) 评论(0) 推荐(0) 编辑 |

05．Mapreduce实例——Map端join

摘要：05．Mapreduce实例——Map端join 实验原理 MapReduce提供了表连接操作其中包括Map端join、Reduce端join还有单表连接，现在我们要讨论的是Map端join，Map端join是指数据到达map处理函数之前进行合并的，效率要远远高于Reduce端join，因为Redu 阅读全文

posted @ 2021-11-19 15:05 ***Pepsi*** 阅读(56) 评论(0) 推荐(0) 编辑 |

04．Mapreduce实例——单表join

摘要：04．Mapreduce实例——单表join 实验原理以本实验的buyer1(buyer_id,friends_id)表为例来阐述单表连接的实验原理。单表连接，连接的是左表的buyer_id列和右表的friends_id列，且左表和右表是同一个表。因此，在map阶段将读入数据分割成buyer_id 阅读全文

posted @ 2021-11-19 14:29 ***Pepsi*** 阅读(118) 评论(0) 推荐(0) 编辑 |

03．Mapreduce实例——排序

摘要：实验原理 Map、Reduce任务中Shuffle和排序的过程图如下：流程分析： 1.Map端：（1）每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一个块的大小（默认为64M）为一个分片，当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中（该缓冲区的大小默阅读全文

posted @ 2021-11-19 11:20 ***Pepsi*** 阅读(148) 评论(0) 推荐(0) 编辑 |

02.Mapreduce实例——求平均值

摘要：实验原理求平均数是MapReduce比较常见的算法，求平均数的算法也比较简单，一种思路是Map端读取数据，在数据输入到Reduce之前先经过shuffle，将map函数输出的key值相同的所有的value值形成一个集合value-list，然后将输入到Reduce端，Reduce端汇总并且统计记录阅读全文

posted @ 2021-11-19 10:58 ***Pepsi*** 阅读(207) 评论(0) 推荐(0) 编辑 |

01.Mapreduce实例——去重

摘要：实验原理 “数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。在MapReduce流程中，map的输出<key,v 阅读全文

posted @ 2021-11-18 22:59 ***Pepsi*** 阅读(111) 评论(0) 推荐(0) 编辑 |

hbase之shell建表不成功

摘要：手动C语言解决了Hmaster的问题进入shell指令 create建表又出现错误 org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 万能的度娘： hdfs dfsadmin - 阅读全文

posted @ 2021-10-25 23:04 ***Pepsi*** 阅读(827) 评论(0) 推荐(0) 编辑 |

10.25 hbase之Hmaster又又又崩了

摘要：想做一下大型数据库的实验报告，到第二步启动Hbase数据库发现shell命令创建新的表一直创建不成功退出来之后再看一遍jps Hmaster不见了重新启动一遍之后Hmaster短暂的出现了两秒啧手动C语言从百度查了好多帖子大都踩坑了查看日志文件（在hbse文件目录下的logs文件下阅读全文

posted @ 2021-10-25 22:32 ***Pepsi*** 阅读(177) 评论(0) 推荐(0) 编辑 |

我的语言系统被粉碎了

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜

随笔分类 - 大型数据库