随笔分类 - Hadoop MapReduce编程 API入门系列

TopN问题（分别使用Hadoop和Spark实现）

摘要：简介 TopN算法是一个经典的算法，由于每个map都只是实现了本地的TopN算法，而假设map有M个，在归约的阶段只有M x N个，这个结果是可以接受的并不会造成性能瓶颈。这个TopN算法在map阶段将使用TreeMap来实现排序，以到达可伸缩的目的。当然算法有两种，一种是唯一键，就是说key的阅读全文

posted @ 2017-06-06 09:09 大数据和AI躺过的坑阅读(5278) 评论(0) 推荐(0) 编辑

二次排序问题（分别使用Hadoop和Spark实现）

摘要：不多说，直接上干货！这篇博客里的算法部分的内容来自《数据算法：Hadoop/Spark大数据处理技巧》一书，不过书中的代码虽然思路正确，但是代码不完整，并且只有java部分的编程，我在它的基础上又加入scala部分，当然是在使用Spark的时候写的scala。一、输入、期望输出、思路。输入为S 阅读全文

posted @ 2017-06-06 09:07 大数据和AI躺过的坑阅读(2479) 评论(1) 推荐(0) 编辑

MyEclipse下怎么配置Maven

摘要：这个很简单。前期博客，请移步： Eclipse下Maven新建项目、自动打依赖jar包（包含普通项目和Web项目）截图示范：阅读全文

posted @ 2017-03-21 11:50 大数据和AI躺过的坑阅读(391) 评论(0) 推荐(0) 编辑

Eclipse/MyEclipse连接Hadoop集群出现：Unable to ... ... org.apache.hadoop.security.AccessControlExceptiom:Permission denied问题

摘要：问题详细如下：解决办法：注意：不要出现，如下的拼写错误！成功！请移步，见 Hadoop概念学习系列之搭建（windows）Eclipse/MyEclipse远程操作（Linux上）hadoop2.2.0/hadoop2.6.0 出错集（三十五）阅读全文

posted @ 2017-03-16 14:40 大数据和AI躺过的坑阅读(719) 评论(0) 推荐(0) 编辑

关于Tool接口--------hadoop接口：extends Configured implements Tool 和 ToolRunner.run

摘要：我们在写Hadoop--map/reduce程序时，遇到使用按文件url来分析文件多表连接的DistributedCache方式，看不懂使用extends Configured implements Tool的方式，就查了一下http://hadoop.apache.org 上面对该Tool接口及阅读全文

posted @ 2017-02-23 08:48 大数据和AI躺过的坑阅读(1240) 评论(0) 推荐(0) 编辑

Hadoop的ChainMapper和ChainReducer使用案例（链式处理）（四）

摘要：不多说，直接上干货！ Hadoop的MR作业支持链式处理，类似在一个生产牛奶的流水线上，每一个阶段都有特定的任务要处理，比如提供牛奶盒，装入牛奶，封盒，打印出厂日期，等等，通过这样进一步的分工，从而提高了生产效率，那么在我们的Hadoop的MapReduce中也是如此，支持链式的处理方式，这些Map 阅读全文

posted @ 2017-01-18 08:59 大数据和AI躺过的坑阅读(994) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）

摘要：不多说，直接上代码。 Hadoop MapReduce编程 API入门系列之小文件合并（二十九）生成的结果，作为输入源。代码 package zhouls.bigdata.myMapReduce.ParseTVDataCompressAndCounter; import java.net.URI 阅读全文

posted @ 2016-12-13 21:08 大数据和AI躺过的坑阅读(408) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之小文件合并（二十九）

摘要：不多说，直接上代码。 Hadoop 自身提供了几种机制来解决相关的问题，包括HAR，SequeueFile和CombineFileInputFormat。 Hadoop 自身提供的几种小文件合并机制 Hadoop HAR 将众多小文件打包成一个大文件进行存储，并且打包后原来的文件仍然可以通过Map- 阅读全文

posted @ 2016-12-13 20:48 大数据和AI躺过的坑阅读(4060) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之网页排序（二十八）

摘要：不多说，直接上代码。 Map output bytes=247 Map output materialized bytes=275 Input split bytes=139 Combine input records=0 Combine output records=0 Reduce input 阅读全文

posted @ 2016-12-13 19:18 大数据和AI躺过的坑阅读(862) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之计数器（二十七）

摘要：不多说，直接上代码。 MapReduce 计数器是什么？计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器，记录数据或者进度的变化情况。 MapReduce 计数器能做什么？ MapReduce 计数器（Counter）为我们提供一个窗口，用于观察阅读全文

posted @ 2016-12-13 11:34 大数据和AI躺过的坑阅读(477) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之join（二十六）（未完）

摘要：不多说，直接上代码。天气记录数据库气象站数据库气象站和天气记录合并之后的示意图如下所示。连接操作的具体实现技术取决于数据集的规模及分区方式。如果一个数据集很大而另外一个集合很小，以至于可以分发到集群中的每一个节点之中，则可以执行一个 MapReduce 作业，将各个气象站的天气记录放到一块阅读全文

posted @ 2016-12-12 23:01 大数据和AI躺过的坑阅读(804) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之Crime数据分析（二十五）（未完）

摘要：不多说，直接上代码。一共12列，我们只需提取有用的列：第二列（犯罪类型）、第四列（一周的哪一天）、第五列（具体时间）和第七列（犯罪场所）。思路分析基于项目的需求，我们通过以下几步完成： 1、首先根据数据集，分别统计出不同犯罪类别在周时段内发生犯罪次数和不同区域在周时段内发生犯罪的次数。 2、然阅读全文

posted @ 2016-12-12 22:38 大数据和AI躺过的坑阅读(1006) 评论(0) 推荐(1) 编辑

Hadoop MapReduce编程 API入门系列之倒排索引（二十四）

摘要：不多说，直接上代码。 2016-12-12 21:54:04,509 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2 阅读全文

posted @ 2016-12-12 21:58 大数据和AI躺过的坑阅读(932) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之FOF（Fund of Fund）（二十三）

摘要：不多说，直接上代码。代码 package zhouls.bigdata.myMapReduce.friend; import org.apache.hadoop.io.Text; public class Fof extends Text{//自定义Fof，表示f1和f2关系 public Fof 阅读全文

posted @ 2016-12-12 21:35 大数据和AI躺过的坑阅读(519) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之网页流量版本1（二十二）

摘要：不多说，直接上代码。对流量原始日志进行流量统计，将不同省份的用户统计结果输出到不同文件。代码 package zhouls.bigdata.myMapReduce.flowsum; import java.io.DataInput;import java.io.DataOutput;import 阅读全文

posted @ 2016-12-12 20:50 大数据和AI躺过的坑阅读(395) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之网页流量版本1（二十一）

摘要：不多说，直接上代码。对流量原始日志进行流量统计，将不同省份的用户统计结果输出到不同文件。代码 package zhouls.bigdata.myMapReduce.areapartition; import java.io.DataInput;import java.io.DataOutput; 阅读全文

posted @ 2016-12-12 20:22 大数据和AI躺过的坑阅读(340) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之MapReduce多种输出格式分析（十九）

摘要：不多说，直接上代码。假如这里有一份邮箱数据文件，我们期望统计邮箱出现次数并按照邮箱的类别，将这些邮箱分别输出到不同文件路径下。代码版本1 代码版本1 阅读全文

posted @ 2016-12-12 19:54 大数据和AI躺过的坑阅读(1303) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之统计学生成绩版本2（十八）

摘要：不多说，直接上代码。统计出每个年龄段的男、女学生的最高分这里，为了空格符的差错，直接，我们有时候，像如下这样的来排数据。代码或者代码阅读全文

posted @ 2016-12-12 19:37 大数据和AI躺过的坑阅读(970) 评论(0) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之MapReduce多种输入格式（十七）

摘要：不多说，直接上代码。代码阅读全文

posted @ 2016-12-12 19:23 大数据和AI躺过的坑阅读(826) 评论(1) 推荐(0) 编辑

Hadoop MapReduce编程 API入门系列之二次排序（十六）

摘要：不多说，直接上代码。代码 IntPair.java SecondarySort.java 阅读全文

posted @ 2016-12-12 17:16 大数据和AI躺过的坑阅读(997) 评论(0) 推荐(0) 编辑

公告

欢迎您来到《大数据和人工智能躺过的坑》的3D彩色云标签，让您多份关注与留念。微信公众号平台1：大数据躺过的坑微信公众号平台2：今日热点在线微信公众号平台3 ：九哥九嫂小日子大数据和人工智能躺过的坑（总群）： 161156071 更多QQ技术分群，详情请见：http://www.cnblogs.com/zlslch/p/7473861.html

昵称：大数据和AI躺过的坑
园龄： 9年3个月
粉丝： 1315
关注： 39

+加关注

2025年3月

日

一

二

三

四

五

六

大数据和人工智能躺过的坑

随笔分类 - Hadoop MapReduce编程 API入门系列

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论