打赏

随笔分类 -  Hadoop MapReduce编程 API入门系列

摘要:简介 TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N个,这个结果是可以接受的并不会造成性能瓶颈。 这个TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的。 当然算法有两种,一种是唯一键,就是说key的 阅读全文
posted @ 2017-06-06 09:09 大数据和AI躺过的坑 阅读(5278) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! 这篇博客里的算法部分的内容来自《数据算法:Hadoop/Spark大数据处理技巧》一书,不过书中的代码虽然思路正确,但是代码不完整,并且只有java部分的编程,我在它的基础上又加入scala部分,当然是在使用Spark的时候写的scala。 一、输入、期望输出、思路。 输入为S 阅读全文
posted @ 2017-06-06 09:07 大数据和AI躺过的坑 阅读(2479) 评论(1) 推荐(0) 编辑
摘要:这个很简单。 前期博客,请移步: Eclipse下Maven新建项目、自动打依赖jar包(包含普通项目和Web项目) 截图示范: 阅读全文
posted @ 2017-03-21 11:50 大数据和AI躺过的坑 阅读(391) 评论(0) 推荐(0) 编辑
摘要:问题详细如下: 解决办法: 注意:不要出现,如下的拼写错误! 成功! 请移步,见 Hadoop概念学习系列之搭建(windows)Eclipse/MyEclipse远程操作(Linux上)hadoop2.2.0/hadoop2.6.0 出错集(三十五) 阅读全文
posted @ 2017-03-16 14:40 大数据和AI躺过的坑 阅读(719) 评论(0) 推荐(0) 编辑
摘要:我们在写Hadoop--map/reduce程序时,遇到使用按文件url来分析文件 多表连接的DistributedCache方式,看不懂使用extends Configured implements Tool的方式,就查了一下http://hadoop.apache.org 上面对该Tool接口及 阅读全文
posted @ 2017-02-23 08:48 大数据和AI躺过的坑 阅读(1240) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Hadoop的MR作业支持链式处理,类似在一个生产牛奶的流水线上,每一个阶段都有特定的任务要处理,比如提供牛奶盒,装入牛奶,封盒,打印出厂日期,等等,通过这样进一步的分工,从而提高了生产效率,那么在我们的Hadoop的MapReduce中也是如此,支持链式的处理方式,这些Map 阅读全文
posted @ 2017-01-18 08:59 大数据和AI躺过的坑 阅读(994) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源。 代码 package zhouls.bigdata.myMapReduce.ParseTVDataCompressAndCounter; import java.net.URI 阅读全文
posted @ 2016-12-13 21:08 大数据和AI躺过的坑 阅读(408) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 Hadoop 自身提供了几种机制来解决相关的问题,包括HAR,SequeueFile和CombineFileInputFormat。 Hadoop 自身提供的几种小文件合并机制 Hadoop HAR 将众多小文件打包成一个大文件进行存储,并且打包后原来的文件仍然可以通过Map- 阅读全文
posted @ 2016-12-13 20:48 大数据和AI躺过的坑 阅读(4060) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 Map output bytes=247 Map output materialized bytes=275 Input split bytes=139 Combine input records=0 Combine output records=0 Reduce input 阅读全文
posted @ 2016-12-13 19:18 大数据和AI躺过的坑 阅读(862) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 MapReduce 计数器是什么? 计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。 MapReduce 计数器能做什么? MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 阅读全文
posted @ 2016-12-13 11:34 大数据和AI躺过的坑 阅读(477) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 天气记录数据库 气象站数据库 气象站和天气记录合并之后的示意图如下所示。 连接操作的具体实现技术取决于数据集的规模及分区方式。如果一个数据集很大而另外一个集合很小,以至于可以分发到集群中的每一个节点之中, 则可以执行一个 MapReduce 作业,将各个气象站的天气记录放到一块 阅读全文
posted @ 2016-12-12 23:01 大数据和AI躺过的坑 阅读(804) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 一共12列,我们只需提取有用的列:第二列(犯罪类型)、第四列(一周的哪一天)、第五列(具体时间)和第七列(犯罪场所)。 思路分析 基于项目的需求,我们通过以下几步完成: 1、首先根据数据集,分别统计出不同犯罪类别在周时段内发生犯罪次数和不同区域在周时段内发生犯罪的次数。 2、然 阅读全文
posted @ 2016-12-12 22:38 大数据和AI躺过的坑 阅读(1006) 评论(0) 推荐(1) 编辑
摘要:不多说,直接上代码。 2016-12-12 21:54:04,509 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2 阅读全文
posted @ 2016-12-12 21:58 大数据和AI躺过的坑 阅读(932) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 package zhouls.bigdata.myMapReduce.friend; import org.apache.hadoop.io.Text; public class Fof extends Text{//自定义Fof,表示f1和f2关系 public Fof 阅读全文
posted @ 2016-12-12 21:35 大数据和AI躺过的坑 阅读(519) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 对流量原始日志进行流量统计,将不同省份的用户统计结果输出到不同文件。 代码 package zhouls.bigdata.myMapReduce.flowsum; import java.io.DataInput;import java.io.DataOutput;import 阅读全文
posted @ 2016-12-12 20:50 大数据和AI躺过的坑 阅读(395) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 对流量原始日志进行流量统计,将不同省份的用户统计结果输出到不同文件。 代码 package zhouls.bigdata.myMapReduce.areapartition; import java.io.DataInput;import java.io.DataOutput; 阅读全文
posted @ 2016-12-12 20:22 大数据和AI躺过的坑 阅读(340) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 假如这里有一份邮箱数据文件,我们期望统计邮箱出现次数并按照邮箱的类别,将这些邮箱分别输出到不同文件路径下。 代码版本1 代码版本1 阅读全文
posted @ 2016-12-12 19:54 大数据和AI躺过的坑 阅读(1303) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 统计出每个年龄段的 男、女 学生的最高分 这里,为了空格符的差错,直接,我们有时候,像如下这样的来排数据。 代码 或者 代码 阅读全文
posted @ 2016-12-12 19:37 大数据和AI躺过的坑 阅读(970) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 阅读全文
posted @ 2016-12-12 19:23 大数据和AI躺过的坑 阅读(826) 评论(1) 推荐(0) 编辑
摘要:不多说,直接上代码。 代码 IntPair.java SecondarySort.java 阅读全文
posted @ 2016-12-12 17:16 大数据和AI躺过的坑 阅读(997) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示