[401]Hadoop - 随笔分类 - DarrenChan陈驰

[转]聊聊列式存储

摘要：add by zhj: 终于明白了什么是列式存储，什么是行式存储。这跟数据在存储介质中的存储结构有关，列式存储是指，一列中的数据在存储介质中是连续存储的；行式存储是指一行中的数据在存储介质中是连续存储的。简单的说，你可以把列式数据库认为是每一列都是一个表，这个表只有一列，如果只在该列进行条件查询，速阅读全文

posted @ 2019-12-05 10:53 DarrenChan陈驰阅读(365) 评论(0) 推荐(0)

MapReduce实战（七）GroupingComparator

摘要：需求： Order_0000001,Pdt_01,222.8Order_0000001,Pdt_05,25.8Order_0000002,Pdt_05,325.8Order_0000002,Pdt_03,522.8Order_0000002,Pdt_04,122.4Order_0000003,Pdt 阅读全文

posted @ 2017-04-27 11:21 DarrenChan陈驰阅读(1134) 评论(0) 推荐(0)

MapReduce实战（六）共同粉丝

摘要：需求：利用mapReduce实现类似微博中查找共同粉丝的功能。如下： A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM: 阅读全文

posted @ 2017-04-23 22:46 DarrenChan陈驰阅读(1180) 评论(1) 推荐(0)

MapReduce实战（五）实现关联查询

摘要：需求：利用MapReduce程序，实现SQL语句中的join关联查询。订单数据表order：商品信息表product：假如数据量巨大，两表的数据是以文件的形式存储在HDFS中，需要用mapreduce程序来实现一下SQL查询运算：分析：通过将关联的条件作为map输出的key，将两表满足j 阅读全文

posted @ 2017-04-23 21:44 DarrenChan陈驰阅读(974) 评论(0) 推荐(0)

批量上传文件到HDFS的Shell脚本

摘要：在做Hadoop数据挖掘项目的时候，我们第一步是源数据的获取，即把相应的数据放置到HDFS中，以便Hadoop进行计算，手动将文件上传到HDFS中，未免太费时费力，所以我们可以采取像Flume一样的框架，或者采用Shell脚本进行文件的上传。下面主要提供Shell脚本的大致写法，仅供参考，可以根据不阅读全文

posted @ 2017-04-19 08:16 DarrenChan陈驰阅读(6859) 评论(0) 推荐(0)

[转]Spark能否取代Hadoop？

摘要：大数据的浪潮风靡全球的时候，Spark火了。在国外 Yahoo!、Twitter、Intel、Amazon、Cloudera 等公司率先应用并推广 Spark 技术，在国内阿里巴巴、百度、淘宝、腾讯、网易、星环等公司敢为人先，并乐于分享。在随后的发展中，IBM、Hortonworks、微策略等公司纷阅读全文

posted @ 2017-04-18 18:26 DarrenChan陈驰阅读(1026) 评论(0) 推荐(0)

Hadoop项目实战

摘要：这个项目是流量经营项目，通过Hadoop的离线数据项目。运营商通过HTTP日志，分析用户的上网行为数据，进行行为轨迹的增强。 HTTP数据格式为：流程：系统架构：技术选型：这里只针对其中的一个功能进行说明：其中规则库是人工填充的，实例库是采用机器学习自动生成的，形式都是<url，info 阅读全文

posted @ 2017-03-29 17:57 DarrenChan陈驰阅读(7195) 评论(0) 推荐(0)

Linux下配置Hadoop全分布式环境

摘要：1. 前提部署全分布式环境，我们肯定不能在一台服务器上了，这里我用了7台服务器，在VMware上开了7个虚拟机，如下图所示：我基本配置了一晚上才搞定，第一次配置一般都有错，这时候不妨去到hadoop的logs文件夹下查看日志，如果实在找不出来，索性把所有hadoop文件删掉，重新安装。 hado 阅读全文

posted @ 2017-03-03 01:20 DarrenChan陈驰阅读(599) 评论(2) 推荐(0)

HDFS的HA机制

摘要：传统的HDFS机制如下图所示：也就是存在一个NameNode，一个SecondaryNameNode，然后若干个DataNode。这样的机制虽然元数据的可靠性得到了保证（靠edits，fsimage，meta.data等文件），但是服务的可用性并不高，因为一旦NameNode出现问题，那么整个系统阅读全文

posted @ 2017-03-02 21:03 DarrenChan陈驰阅读(2338) 评论(0) 推荐(0)

MapReduce实战（四）倒排索引的实现

摘要：需求：以上三个文件，用MapReduce进行处理，最终输出以下格式： hello c.txt-->2 b.txt-->2 a.txt-->3jerry c.txt-->1 b.txt-->3 a.txt-->1tom c.txt-->1 b.txt-->1 a.txt-->2 思考：我们需要进行阅读全文

posted @ 2017-02-28 15:22 DarrenChan陈驰阅读(450) 评论(0) 推荐(0)

Shuffle机制

摘要：一个map task处理一个切片Split，切片是一个范围的数据，和blocksize大小没有必然关系。 1.每个map有一个环形内存缓冲区，用于存储任务的输出。默认大小100MB（io.sort.mb属性），一旦达到阀值0.8（io.sort.spill.percent）,一个后台线程把内容写到( 阅读全文

posted @ 2017-02-28 00:25 DarrenChan陈驰阅读(1101) 评论(4) 推荐(0)

MapReduce实战（三）分区的实现

摘要：需求：在实战（一）的基础上，实现自定义分组机制。例如根据手机号的不同，分成不同的省份，然后在不同的reduce上面跑，最后生成的结果分别存在不同的文件中。对流量原始日志进行流量统计，将不同省份的用户统计结果输出到不同文件。思考：需要自定义改造两个机制：1、改造分区的逻辑，自定义一个part 阅读全文

posted @ 2017-02-27 01:32 DarrenChan陈驰阅读(870) 评论(0) 推荐(0)

MapReduce实战（二）自定义类型排序

摘要：需求：基于上一道题，我想将结果按照总流量的大小由大到小输出。思考：默认mapreduce是对key字符串按照字母进行排序的，而我们想任意排序，只需要把key设成一个类，再对该类写一个compareTo（大于要比较对象返回1，等于返回0，小于返回-1）方法就可以了。注：这里如果是实现java. 阅读全文

posted @ 2017-02-26 22:04 DarrenChan陈驰阅读(1516) 评论(0) 推荐(1)

MapReduce实战（一）自定义类型

摘要：需求：处理以下流量数据，第1列是手机号，第7列是上行流量，第8列是下行流量。将手机号一样的用户进行合并，上行流量汇总，下行流量也汇总，并相加求得总流量。 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.al 阅读全文

posted @ 2017-02-26 20:39 DarrenChan陈驰阅读(818) 评论(0) 推荐(0)

YARN机制

摘要：YARN是资源管理调度的机制，之前一直以来和MapReduce机制合在一起，之后才分开。正是因为YARN机制单独独立出来，才使得Hadoop框架更加具有普适性。MapReduce可以处理海量离线数据，同样如果处理实时数据，换成Spark，Storm即可，不用重新部署集群，因为资源管理调度YARN是共阅读全文

posted @ 2017-02-25 15:12 DarrenChan陈驰阅读(1210) 评论(3) 推荐(0)

MapReduce机制

摘要：1. MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。2. MR由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。这两个函数的形参是key、value对，表示函数的输入信息。阅读全文

posted @ 2017-02-25 00:02 DarrenChan陈驰阅读(1376) 评论(0) 推荐(0)

Hadoop中的RPC机制

摘要：1. RPC——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。阅读全文

posted @ 2017-02-22 18:35 DarrenChan陈驰阅读(638) 评论(0) 推荐(0)

HDFS的JAVA客户端编写

摘要：HDFS的shell操作很简单，直接查看文档就可以，和Linux指令类似，下面简单总结一下HDFS的JAVA客户端编写。（HA集群的话把core-site.xml，hdfs-site.xml，mapred-site.xml，yarn-site.xml都拷贝到工作空间）如图建立工程，其中客户端放在h 阅读全文

posted @ 2017-02-21 14:44 DarrenChan陈驰阅读(683) 评论(0) 推荐(0)

Linux下配置Hadoop伪分布式环境

摘要：1. 准备Linux环境提示：我用的系统是CentOS 6.4。 1.0点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段：192.168.1.0 子网掩码：255.255.255.0 - 阅读全文

posted @ 2017-02-20 10:29 DarrenChan陈驰阅读(2601) 评论(0) 推荐(0)

常见分布式文件系统

摘要：常见的分布式文件系统有，GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统，而是应用级的分布式文件存储服务。 Google学术论文，这是众多分布式文件系统的起源 Google File Sy 阅读全文

posted @ 2017-02-19 16:02 DarrenChan陈驰阅读(901) 评论(0) 推荐(0)

DarrenChan陈驰

致力于成为精通大数据、后台开发和算法的全栈架构师

随笔分类 - [401]Hadoop

公告