2017 年 2月随笔档案 - DarrenChan陈驰

Linux下vi命令小结

摘要：进入vi的命令 vi filename :打开或新建文件,并将光标置于第一行首 vi n filename ：打开文件,并将光标置于第n行首 vi filename ：打开文件,并将光标置于一行首 vi /pattern filename：打开文件,并将光标置于第一个与pattern匹配的串处 vi 阅读全文

posted @ 2017-02-28 15:55 DarrenChan陈驰阅读(204) 评论(0) 推荐(0) 编辑

Linux下搭建Zookeeper环境

摘要：Zookeeper 是 Google 的 Chubby一个开源的实现，是 Hadoop 的分布式协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。其工作原理示意图如下： 1.为什么使用Zookeeper » 大部分分布式应用需要一个主控、协调器或控制器来阅读全文

posted @ 2017-02-28 15:23 DarrenChan陈驰阅读(338) 评论(0) 推荐(0) 编辑

MapReduce实战（四）倒排索引的实现

摘要：需求：以上三个文件，用MapReduce进行处理，最终输出以下格式： hello c.txt-->2 b.txt-->2 a.txt-->3jerry c.txt-->1 b.txt-->3 a.txt-->1tom c.txt-->1 b.txt-->1 a.txt-->2 思考：我们需要进行阅读全文

posted @ 2017-02-28 15:22 DarrenChan陈驰阅读(428) 评论(0) 推荐(0) 编辑

Shuffle机制

摘要：一个map task处理一个切片Split，切片是一个范围的数据，和blocksize大小没有必然关系。 1.每个map有一个环形内存缓冲区，用于存储任务的输出。默认大小100MB（io.sort.mb属性），一旦达到阀值0.8（io.sort.spill.percent）,一个后台线程把内容写到( 阅读全文

posted @ 2017-02-28 00:25 DarrenChan陈驰阅读(1062) 评论(4) 推荐(0) 编辑

MapReduce实战（三）分区的实现

摘要：需求：在实战（一）的基础上，实现自定义分组机制。例如根据手机号的不同，分成不同的省份，然后在不同的reduce上面跑，最后生成的结果分别存在不同的文件中。对流量原始日志进行流量统计，将不同省份的用户统计结果输出到不同文件。思考：需要自定义改造两个机制：1、改造分区的逻辑，自定义一个part 阅读全文

posted @ 2017-02-27 01:32 DarrenChan陈驰阅读(825) 评论(0) 推荐(0) 编辑

MapReduce实战（二）自定义类型排序

摘要：需求：基于上一道题，我想将结果按照总流量的大小由大到小输出。思考：默认mapreduce是对key字符串按照字母进行排序的，而我们想任意排序，只需要把key设成一个类，再对该类写一个compareTo（大于要比较对象返回1，等于返回0，小于返回-1）方法就可以了。注：这里如果是实现java. 阅读全文

posted @ 2017-02-26 22:04 DarrenChan陈驰阅读(1486) 评论(0) 推荐(1) 编辑

MapReduce实战（一）自定义类型

摘要：需求：处理以下流量数据，第1列是手机号，第7列是上行流量，第8列是下行流量。将手机号一样的用户进行合并，上行流量汇总，下行流量也汇总，并相加求得总流量。 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.al 阅读全文

posted @ 2017-02-26 20:39 DarrenChan陈驰阅读(757) 评论(0) 推荐(0) 编辑

YARN机制

摘要：YARN是资源管理调度的机制，之前一直以来和MapReduce机制合在一起，之后才分开。正是因为YARN机制单独独立出来，才使得Hadoop框架更加具有普适性。MapReduce可以处理海量离线数据，同样如果处理实时数据，换成Spark，Storm即可，不用重新部署集群，因为资源管理调度YARN是共阅读全文

posted @ 2017-02-25 15:12 DarrenChan陈驰阅读(1169) 评论(3) 推荐(0) 编辑

MapReduce机制

摘要：1. MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。2. MR由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。这两个函数的形参是key、value对，表示函数的输入信息。阅读全文

posted @ 2017-02-25 00:02 DarrenChan陈驰阅读(1356) 评论(0) 推荐(0) 编辑

Java泛型小结

摘要：本来想着写一篇总结Java泛型的文章，但是却发现了一篇不错的博文，引用自： http://www.cnblogs.com/lwbqqyumidi/p/3837629.html#undefined 现摘录如下，以便日后查阅。一. 泛型概念的提出（为什么需要泛型）？首先，我们看下下面这段简短的代码: 阅读全文

posted @ 2017-02-24 12:35 DarrenChan陈驰阅读(275) 评论(0) 推荐(0) 编辑

Java实现类似eval()函数或exec()函数的功能

摘要：一篇参考博客：http://www.cnblogs.com/fangwenyu/archive/2011/10/12/2209051.html 在Python中有一个exec()函数，同样在JavaScript中有一个eval()函数，这两个函数有一个相似的特点，那就是可以在里面传入一段Python 阅读全文

posted @ 2017-02-23 21:55 DarrenChan陈驰阅读(19514) 评论(2) 推荐(0) 编辑

Hadoop中的RPC机制

摘要：1. RPC——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。阅读全文

posted @ 2017-02-22 18:35 DarrenChan陈驰阅读(617) 评论(0) 推荐(0) 编辑

Java动态代理机制小结

摘要：因为最近学习hadoop中用到了动态代理的相关知识，之前AOP编程也碰到过，所以在这里特地总结一下。在java的动态代理机制中，有两个重要的类或接口，一个是 InvocationHandler(Interface)、另一个则是 Proxy(Class)，这一个类和接口是实现我们动态代理所必须用到的阅读全文

posted @ 2017-02-22 15:43 DarrenChan陈驰阅读(206) 评论(0) 推荐(0) 编辑

HDFS的JAVA客户端编写

摘要：HDFS的shell操作很简单，直接查看文档就可以，和Linux指令类似，下面简单总结一下HDFS的JAVA客户端编写。（HA集群的话把core-site.xml，hdfs-site.xml，mapred-site.xml，yarn-site.xml都拷贝到工作空间）如图建立工程，其中客户端放在h 阅读全文

posted @ 2017-02-21 14:44 DarrenChan陈驰阅读(666) 评论(0) 推荐(0) 编辑

一条经典SQL语句优化实例

摘要：1、概述如下SQL语句发生严重消耗资源的问题，使得OS's load average会在30以上，一条语句需要执行上百秒。 /*PIXPatient 184176条DomainPatient 184189条PersonName 184189条*/ 捕获的SQL语句： select * from P 阅读全文

posted @ 2017-02-21 11:00 DarrenChan陈驰阅读(277) 评论(0) 推荐(0) 编辑

Linux下配置Hadoop伪分布式环境

摘要：1. 准备Linux环境提示：我用的系统是CentOS 6.4。 1.0点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段：192.168.1.0 子网掩码：255.255.255.0 - 阅读全文

posted @ 2017-02-20 10:29 DarrenChan陈驰阅读(2572) 评论(0) 推荐(0) 编辑

vmware无法打开内核设备“\\.\Global\vmx86”: 系统找不到指定的文件

摘要：原因：是虚拟机服务没有开启解决方法：（以管理员的方式运行）点击“开始→运行”，在运行框中输入 CMD 回车打开命令提示符，然后依次执行以下命令。 net start vmcinet start vmx86net start VMnetuserifsc config vmci=autosc co 阅读全文

posted @ 2017-02-19 19:29 DarrenChan陈驰阅读(2707) 评论(0) 推荐(1) 编辑

常见分布式文件系统

摘要：常见的分布式文件系统有，GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统，而是应用级的分布式文件存储服务。 Google学术论文，这是众多分布式文件系统的起源 Google File Sy 阅读全文

posted @ 2017-02-19 16:02 DarrenChan陈驰阅读(872) 评论(0) 推荐(0) 编辑

NameNode机制和DataNode机制

摘要：首先我们看一下NAMENODE: 我们已经知道了NAMENODE作为DATANODE的管理者，其重要性不言而喻，那么NAMENODE是怎么管理数据的呢？首先，我们看一下上面这张图，每次客户端读写数据都要先经过NAMENODE，其实就是先查询NAMENODE中的元数据，那么问题来了，NAMENODE 阅读全文

posted @ 2017-02-19 16:00 DarrenChan陈驰阅读(2030) 评论(1) 推荐(0) 编辑

HDFS的实现机制

摘要：参考以上这张图，实际上我们客户端访问HDFS里面的内容时，并不需要真实知道内容存在于服务器的内容的真实路径，我们只需要知道一个虚拟路径就可以，比如最上面的hdfs://weekend110:9000/wordcount/input/test.txt，而HDFS内部已经将虚拟路径和真实路径的映射关系对阅读全文

posted @ 2017-02-11 22:15 DarrenChan陈驰阅读(540) 评论(0) 推荐(0) 编辑

[转]hadoop，spark，storm，pig，hive，mahout等到底有什么区别和联系？

摘要：摘自知乎大神的论述作者：Xiaoyu Ma链接：https://www.zhihu.com/question/27974418/answer/38965760来源：知乎著作权归作者所有，转载请联系作者获得授权。大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单阅读全文

posted @ 2017-02-11 21:11 DarrenChan陈驰阅读(6491) 评论(3) 推荐(2) 编辑

DarrenChan陈驰

无人扶我青云志，我自踏雪至山巅。

02 2017 档案

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏