上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 41 下一页
摘要: 一个map task处理一个切片Split,切片是一个范围的数据,和blocksize大小没有必然关系。 1.每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到( 阅读全文
posted @ 2017-02-28 00:25 DarrenChan陈驰 阅读(1060) 评论(4) 推荐(0) 编辑
摘要: 需求: 在实战(一)的基础 上,实现自定义分组机制。例如根据手机号的不同,分成不同的省份,然后在不同的reduce上面跑,最后生成的结果分别存在不同的文件中。 对流量原始日志进行流量统计,将不同省份的用户统计结果输出到不同文件。 思考: 需要自定义改造两个机制:1、改造分区的逻辑,自定义一个part 阅读全文
posted @ 2017-02-27 01:32 DarrenChan陈驰 阅读(817) 评论(0) 推荐(0) 编辑
摘要: 需求: 基于上一道题,我想将结果按照总流量的大小由大到小输出。 思考: 默认mapreduce是对key字符串按照字母进行排序的,而我们想任意排序,只需要把key设成一个类,再对该类写一个compareTo(大于要比较对象返回1,等于返回0,小于返回-1)方法就可以了。 注:这里如果是实现java. 阅读全文
posted @ 2017-02-26 22:04 DarrenChan陈驰 阅读(1485) 评论(0) 推荐(1) 编辑
摘要: 需求: 处理以下流量数据,第1列是手机号,第7列是上行流量,第8列是下行流量。将手机号一样的用户进行合并,上行流量汇总,下行流量也汇总,并相加求得总流量。 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.al 阅读全文
posted @ 2017-02-26 20:39 DarrenChan陈驰 阅读(755) 评论(0) 推荐(0) 编辑
摘要: YARN是资源管理调度的机制,之前一直以来和MapReduce机制合在一起,之后才分开。正是因为YARN机制单独独立出来,才使得Hadoop框架更加具有普适性。MapReduce可以处理海量离线数据,同样如果处理实时数据,换成Spark,Storm即可,不用重新部署集群,因为资源管理调度YARN是共 阅读全文
posted @ 2017-02-25 15:12 DarrenChan陈驰 阅读(1160) 评论(3) 推荐(0) 编辑
摘要: 1. MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。2. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。 阅读全文
posted @ 2017-02-25 00:02 DarrenChan陈驰 阅读(1356) 评论(0) 推荐(0) 编辑
摘要: 本来想着写一篇总结Java泛型的文章,但是却发现了一篇不错的博文,引用自: http://www.cnblogs.com/lwbqqyumidi/p/3837629.html#undefined 现摘录如下,以便日后查阅。 一. 泛型概念的提出(为什么需要泛型)? 首先,我们看下下面这段简短的代码: 阅读全文
posted @ 2017-02-24 12:35 DarrenChan陈驰 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 一篇参考博客:http://www.cnblogs.com/fangwenyu/archive/2011/10/12/2209051.html 在Python中有一个exec()函数,同样在JavaScript中有一个eval()函数,这两个函数有一个相似的特点,那就是可以在里面传入一段Python 阅读全文
posted @ 2017-02-23 21:55 DarrenChan陈驰 阅读(19478) 评论(2) 推荐(0) 编辑
摘要: 1. RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。 阅读全文
posted @ 2017-02-22 18:35 DarrenChan陈驰 阅读(615) 评论(0) 推荐(0) 编辑
摘要: 因为最近学习hadoop中用到了动态代理的相关知识,之前AOP编程也碰到过,所以在这里特地总结一下。 在java的动态代理机制中,有两个重要的类或接口,一个是 InvocationHandler(Interface)、另一个则是 Proxy(Class),这一个类和接口是实现我们动态代理所必须用到的 阅读全文
posted @ 2017-02-22 15:43 DarrenChan陈驰 阅读(206) 评论(0) 推荐(0) 编辑
上一页 1 ··· 23 24 25 26 27 28 29 30 31 ··· 41 下一页
Live2D