02 2017 档案

摘要:进入vi的命令 vi filename :打开或新建文件,并将光标置于第一行首 vi n filename :打开文件,并将光标置于第n行首 vi filename :打开文件,并将光标置于一行首 vi /pattern filename:打开文件,并将光标置于第一个与pattern匹配的串处 vi 阅读全文
posted @ 2017-02-28 15:55 DarrenChan陈驰 阅读(204) 评论(0) 推荐(0) 编辑
摘要:Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 其工作原理示意图如下: 1.为什么使用Zookeeper » 大部分分布式应用需要一个主控、协调器或控制器来 阅读全文
posted @ 2017-02-28 15:23 DarrenChan陈驰 阅读(338) 评论(0) 推荐(0) 编辑
摘要:需求: 以上三个文件,用MapReduce进行处理,最终输出以下格式: hello c.txt-->2 b.txt-->2 a.txt-->3jerry c.txt-->1 b.txt-->3 a.txt-->1tom c.txt-->1 b.txt-->1 a.txt-->2 思考: 我们需要进行 阅读全文
posted @ 2017-02-28 15:22 DarrenChan陈驰 阅读(428) 评论(0) 推荐(0) 编辑
摘要:一个map task处理一个切片Split,切片是一个范围的数据,和blocksize大小没有必然关系。 1.每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到( 阅读全文
posted @ 2017-02-28 00:25 DarrenChan陈驰 阅读(1062) 评论(4) 推荐(0) 编辑
摘要:需求: 在实战(一)的基础 上,实现自定义分组机制。例如根据手机号的不同,分成不同的省份,然后在不同的reduce上面跑,最后生成的结果分别存在不同的文件中。 对流量原始日志进行流量统计,将不同省份的用户统计结果输出到不同文件。 思考: 需要自定义改造两个机制:1、改造分区的逻辑,自定义一个part 阅读全文
posted @ 2017-02-27 01:32 DarrenChan陈驰 阅读(825) 评论(0) 推荐(0) 编辑
摘要:需求: 基于上一道题,我想将结果按照总流量的大小由大到小输出。 思考: 默认mapreduce是对key字符串按照字母进行排序的,而我们想任意排序,只需要把key设成一个类,再对该类写一个compareTo(大于要比较对象返回1,等于返回0,小于返回-1)方法就可以了。 注:这里如果是实现java. 阅读全文
posted @ 2017-02-26 22:04 DarrenChan陈驰 阅读(1486) 评论(0) 推荐(1) 编辑
摘要:需求: 处理以下流量数据,第1列是手机号,第7列是上行流量,第8列是下行流量。将手机号一样的用户进行合并,上行流量汇总,下行流量也汇总,并相加求得总流量。 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.al 阅读全文
posted @ 2017-02-26 20:39 DarrenChan陈驰 阅读(757) 评论(0) 推荐(0) 编辑
摘要:YARN是资源管理调度的机制,之前一直以来和MapReduce机制合在一起,之后才分开。正是因为YARN机制单独独立出来,才使得Hadoop框架更加具有普适性。MapReduce可以处理海量离线数据,同样如果处理实时数据,换成Spark,Storm即可,不用重新部署集群,因为资源管理调度YARN是共 阅读全文
posted @ 2017-02-25 15:12 DarrenChan陈驰 阅读(1169) 评论(3) 推荐(0) 编辑
摘要:1. MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。2. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。 阅读全文
posted @ 2017-02-25 00:02 DarrenChan陈驰 阅读(1356) 评论(0) 推荐(0) 编辑
摘要:本来想着写一篇总结Java泛型的文章,但是却发现了一篇不错的博文,引用自: http://www.cnblogs.com/lwbqqyumidi/p/3837629.html#undefined 现摘录如下,以便日后查阅。 一. 泛型概念的提出(为什么需要泛型)? 首先,我们看下下面这段简短的代码: 阅读全文
posted @ 2017-02-24 12:35 DarrenChan陈驰 阅读(275) 评论(0) 推荐(0) 编辑
摘要:一篇参考博客:http://www.cnblogs.com/fangwenyu/archive/2011/10/12/2209051.html 在Python中有一个exec()函数,同样在JavaScript中有一个eval()函数,这两个函数有一个相似的特点,那就是可以在里面传入一段Python 阅读全文
posted @ 2017-02-23 21:55 DarrenChan陈驰 阅读(19514) 评论(2) 推荐(0) 编辑
摘要:1. RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。 阅读全文
posted @ 2017-02-22 18:35 DarrenChan陈驰 阅读(617) 评论(0) 推荐(0) 编辑
摘要:因为最近学习hadoop中用到了动态代理的相关知识,之前AOP编程也碰到过,所以在这里特地总结一下。 在java的动态代理机制中,有两个重要的类或接口,一个是 InvocationHandler(Interface)、另一个则是 Proxy(Class),这一个类和接口是实现我们动态代理所必须用到的 阅读全文
posted @ 2017-02-22 15:43 DarrenChan陈驰 阅读(206) 评论(0) 推荐(0) 编辑
摘要:HDFS的shell操作很简单,直接查看文档就可以,和Linux指令类似,下面简单总结一下HDFS的JAVA客户端编写。(HA集群的话把core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml都拷贝到工作空间) 如图建立工程,其中客户端放在h 阅读全文
posted @ 2017-02-21 14:44 DarrenChan陈驰 阅读(666) 评论(0) 推荐(0) 编辑
摘要:1、概述 如下SQL语句发生严重消耗资源的问题,使得OS's load average会在30以上,一条语句需要执行上百秒。 /*PIXPatient 184176条DomainPatient 184189条PersonName 184189条*/ 捕获的SQL语句: select * from P 阅读全文
posted @ 2017-02-21 11:00 DarrenChan陈驰 阅读(277) 评论(0) 推荐(0) 编辑
摘要:1. 准备Linux环境 提示:我用的系统是CentOS 6.4。 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 - 阅读全文
posted @ 2017-02-20 10:29 DarrenChan陈驰 阅读(2572) 评论(0) 推荐(0) 编辑
摘要:原因: 是虚拟机服务没有开启 解决方法:(以管理员的方式运行) 点击“开始→运行”,在运行框中输入 CMD 回车打开命令提示符,然后依次执行以下命令。 net start vmcinet start vmx86net start VMnetuserifsc config vmci=autosc co 阅读全文
posted @ 2017-02-19 19:29 DarrenChan陈驰 阅读(2707) 评论(0) 推荐(1) 编辑
摘要:常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。 Google学术论文,这是众多分布式文件系统的起源 Google File Sy 阅读全文
posted @ 2017-02-19 16:02 DarrenChan陈驰 阅读(872) 评论(0) 推荐(0) 编辑
摘要:首先我们看一下NAMENODE: 我们已经知道了NAMENODE作为DATANODE的管理者,其重要性不言而喻,那么NAMENODE是怎么管理数据的呢? 首先,我们看一下上面这张图,每次客户端读写数据都要先经过NAMENODE,其实就是先查询NAMENODE中的元数据,那么问题来了,NAMENODE 阅读全文
posted @ 2017-02-19 16:00 DarrenChan陈驰 阅读(2030) 评论(1) 推荐(0) 编辑
摘要:参考以上这张图,实际上我们客户端访问HDFS里面的内容时,并不需要真实知道内容存在于服务器的内容的真实路径,我们只需要知道一个虚拟路径就可以,比如最上面的hdfs://weekend110:9000/wordcount/input/test.txt,而HDFS内部已经将虚拟路径和真实路径的映射关系对 阅读全文
posted @ 2017-02-11 22:15 DarrenChan陈驰 阅读(540) 评论(0) 推荐(0) 编辑
摘要:摘自知乎大神的论述 作者:Xiaoyu Ma链接:https://www.zhihu.com/question/27974418/answer/38965760来源:知乎著作权归作者所有,转载请联系作者获得授权。 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单 阅读全文
posted @ 2017-02-11 21:11 DarrenChan陈驰 阅读(6491) 评论(3) 推荐(2) 编辑

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示